一方面就是针对这种的话,我们的数据体量要达到什么程度?我们的数据捕捉有什么样的一些来源。

医药靶点
王波 2022-12-08
分享
牛张明
0
好的,对,那个我们是做那个难成药靶点为主的,不过现在没有再主动地去做一些靶点发现。靶点发现主要还是一些那个其他的学术合作方,或者说一些其他的药企再提供给我们。我们其实内部研发主要还是在做那个靶点选择。然后刚才介绍的您第一个问题是说这个比如说有一些难以成药或者偏向 first in class这类原研新药的一个数据问题,然后它的数据大概量有多大呢?其实越早期的这个管线,它质量越小。比如说我们只知道蛋白结构的时候,或者说只有一篇专利的时候,只有一些文献的,这些已知的小分子化合物的数量其实都是在不到一百个或者说几百个的两三百个以内的,其实这个也就是我们公司在主要研发针对于这样的数据量非常小的情况下,这个上面使用现有的大部分的算法,这样的情况下怎么去真的去使用 AI 来学习?因为大家也都知道 AI 其实现在用线上用的算法比较多的 AI 还是进行一个归纳法,比如说过去发生的这些事件和数据变成了一个总结,然后我可以去预测未来类似的一个情况。
但是其实这个在新药研发,尤其在化合物设计的时候,他也知道是一般来说数据已经被一些它的公司专利保护了,但是去如何新的一些,还有去找到一些新的化合新的一些构架,还有发现一些新的口袋,其实这些往往是更加具有难度。所以我们现在其实还是主要使用一些那个偏向这一类的,叫迁移学习,另外一个叫强化学,克服这样数据量小的一个情况。然后这些都是比如说我们可以把一个卡点类型,它是一个流,然后它是在比如说某一个然后把一些相关类似的一些数据,然后拿过来从别的一些什么建议来使用。 另外一类比如说可以通过一些规则来去一些学习训练,比较成功的一些案例。比如说像那个都之前下围棋的时候,alpha go他第一代的时候要之前的一些这些棋谱来进行数据填充和喂养,然后才能去训练出来,但到了第二代的时候,只要它违禁和规则,可以通过大量把所有的计算和模拟去互搏。所以现这个我们正在主要和研发的也是针对于这一类的,也说在只知道一个靶点蛋白的情况下,有可能这个时候没有其他公司发布一些专利。然后我们如何去在这个时候进行一些 AI 辅助的药物设计,这个是看到的一些那个未来的一些前进。然后另外的话您第二个问题是那个数据来源,一类是像专利文献这类的公开,另外一类就是药企已产生的这些那数据。然后另外还有一类就是刚才我们所广泛提到一些干实验的数据,其实就是干实验数与的一些优势,也是 AI 制药公司的一些优势。也就是说我们可以比一些传统药企可能使用 AI 计算和 CADD的计算的时候,我们可以大量的去试错,然后这些试错的数据就是我们刚才说的一些概然后我们会通过这样大量的过能找到一些好的方向,然后同时可以以更快更低廉的一个成本去进一个试错,去找到一些新的方向。当然比如说我们刚才提到的主要从一些专利,还有这些数据库里面也有一些付费的数据库,我们可以提供专利查询,然后一些 AI 公司也会去使用一些自己的知识图谱 knowledge graph,构建自己的一个知识体系,因为针对不同的适应症还有不同的通路。这些专有的数据其实是为了机器学习和这样的算法准备的。他不是说现在市面上所有的数据它都是符合我的需求和我的格式,然后我们是专有的一个平台专门做这件事,说从一些虽然是公开的一个信息,把一些私有的信息合到一起来去做符合我们做的这一类算法。

评论(0
登录后参与评论
    相关问答