可能也会有一些麻烦,那你们现在因为对于自免来说,你也要有你的相当于自免这一块相关的一个数据库这个相关的一个,还有就是算法,这方面的经验能不能给大家分享

自免数据库
王波 2022-12-13
分享
许大强
32
那个就是你刚刚才 common 我非常非常赞同,就是 AI 确实是个,这个工具谁都可以用,小白也可以用,大咖也可以用对吧?其实用起来的效果也不完全一样。对小白应用得到小白可以应得的结果,大咖应用大咖得到的结果。其实最后做药还是要一定的经验,就是你同样的工具,你可以做出来美轮美奂的一个家具。然后另外一个人可能就连个板凳看上去都不像个样对吧?所以还是就是我觉得它是非常有用,但是看你怎么用,这是我对那个 AI 的看法。
今天我一到那个前面,你有个问题说是咱们跟人家的差距有多大?其实我觉得这个都应该是我们 AI 这个领域,应该是我们起步并不比人家晚太多,就是说还是就是 AI 的基础基本算法。除掉程涛博士,他是从那个姚班出身,倒是 MIT 一直在搞这一套,就是可能自己去创新一些,就是技术。大多数我发现这个 AI 工具,它的底层算法那个框架还都是不是我们这个生物医药这个领域人发现的,我们都是在人家的基础之上进行一些修修补补,改动一些东西。这是我的那个就是一个也算是一个激励。

另外再是你提到那个就是数据,其实数据今天是所有人都面临的问题,没有一家可以称自己的数据很够很多,因为这个你 AI 技术,你这个你是数据越多,它你那个模型可能会越,模型才会越准确。你我们跟那个就是自然语言识别,还有这个图像识别,这个那个数据是没法比的,人家那个互联网,也在他那个什么数据,那我们这个数据才几个对吧?所以这是一个数据量是严重不足,你要靠我们就是说公司去收集,不管是大公司,小公司,这都是有限。有人说大的公司它的优势就是数据量多,它这多也只是比如说一个数量级的多,但一个数量级的多还是远远不够硬,就是说怎么其实在我们这个领域是怎么能够去把尽量用这个仅有的就是有限的数据,能够得到一个就是还可用的一个模型,我觉得这是我们要掌握的。比如说你现在小样本学习,迁移学习这个什么,那主动学习,这都是不同的方法解决这个样本量不足的一些问题。

我特别是觉得那个就是用主动学习的方法能够快速的,就是我不需要收集,比如说他能够给我指出来哪些数据,哪些领域我可以我需要补足一些数据,不需要收集什么上千上亿这样的数据。然后这这可能就要几十个几百个,我就能得到一个比较可以合用的一个模型。还有就是我们因为还有一点就是我觉得我们经常会忽略掉,我们毕竟是科学,化学,生物,物理,有很多有些数据可以通过基就是那个原理基本计算得到,这样可以弥补我们在实验数据上面的一些不足。

这个东西比那个很多一些,就是经验公式,或者是最那个基础的写那个就是quantum-mechanics calculation ,其实算的数据都挺还挺准的。就是特别是我们现在比如说我们现在做建那个就是那个 tissuse activity 这个模型,那数据量很小的,你就几千个样本,然后可能几万条一一两万条数据,它文献让我们就找了好多些文献,那你就必须要自己产生数据,产生数据你要看看,根据你分析看哪些数据可能对你这个参数可能最有用,就是它的最重要。然后你去就收集有针对性的计算或者收集这些数据,这是我们一个方法。我们不是说有海量的什么数据库1,数据库2,数据库 3 ,那个可能大多数没有用,而是针对我们所需要,然后去产生一些数据。

评论(0
登录后参与评论
    相关问答