对于现在有很多我们看到像英矽智能,他们这一块也在做一些,比如甚至他们这个靶点发现第一个已经进入临床。另外我们对于还有很多的一些靶点的话,我们包括前面有嘉宾,它是做难成药的一个靶点。那这里面的话就是对于这个你能不能聊一聊,就是关于未成药的一个靶点的痛点,以及用 AI 是怎么样去做出来这个解决方案的这个思路跟大家聊聊。

医药靶点疾病靶点
王波 2022-12-13
分享
李成涛
32
对,感谢主持人这个问题。对,然后我觉得未成药或者男成药靶点其实是现在刚才其实也讲了,就是现在在内卷的时代,不仅是这个 AI 公司内卷,biotech也内卷,管线也内卷。所以就是说难成药为什么要靶点,其实是在内卷时代突破内卷的一个两方。但他们确实为什么未成药或者是难成药,他们也是有原因的。
像刚才大家提到的最主要的一点其实就是数据很少,就是如果是它数据很多的话,一般来讲他可能就是已经做了很多年了,然后而且已经有药甚至上市了,对,都不是一二三级而上市了。那这个时候它其实就不算是一个难成药或者未成药,发现它已经是一个比较成熟的这个靶点了,这是一种。那我觉得还有一些其他的这种,各个数据模态的这个缺失也可能造成。比如说他这个难成药未成。比如说刚才大家讲到的,比如说有些靶点它可能是没有结构的。这种情况下的话,我们在原来比如在 alpha ford 2出来之前,我们可能是没有办法去确定它的这个结构,也就没有结构的话就没有办法基于它的结构我去设计分子。对,所以这个一整套其他的方法论的话,在这个是这个没有结构的这个情况下是没有办法用的。
或者是即使有了结构,比如现在我们有了alpha ford之后,我预测了这个蛋白结构,刚才主持人也提到就说我是不是有这种蛋白动态的这个问题?比如说一个小分子接近一个蛋白之后,它会有binding pocket ,那这个东西是不是能看到或者说是不是能看到?比如说它在跟小分子结合的时候,他的构象发生了一个变化,构象发生了一个比较本质的一个变化,使得他原来没有可能看不到一些binding pocket ,现在能看到,然后结合上去了。我觉得这个其实也是一个问题。然后再包括这个其实就在归结到这里面的话,其实就是我没有蛋白和小分子结合在一块的这样一个complex 的这个数据。那没有这个数据的话,光有结构的这个数据其实也是不够的,我可以去做dopin,有很多这个软件都可以去做。但刚才裴老师其实也讲了,就是说我现在就是这么多家做同一个靶点,这个dopin仍然就是说前 50 前 100 都没有什么 overline 说明什么,这里面参数很多,而且确实就是大家对这个问题对这蛋白这边的话理解是不够的。所以我觉得这些问题可能都会造成这种难成药或者未成药靶点。那他一直之所以会成为难成药或者未成药靶点的这样一个原因,那这里面的话其实就是我们可能就需要各个击破了。
比如说首先刚才讲到一个最主要问题,就比如数据少的这种问题怎么办?那实际上就是刚才也讲到了,可以有很多的不同的这种方法论可以解决。那不管是在小数据上,我去做这个 zero shock learning 或者小数据的这种学习,或者做 multitasking 就是多任务的这个学习。
在算法和数据模态上面的这个增强,使得我可以在小数据的机制,它这个数据非常少甚至没有的这样一种情况下,我可以做到更好的这个泛化能力和更好的预测能力。那当然也有这种比如说极大的增强我们这个模型泛化能力的这种 case 比如说我们前一阵子在 GCM 上面发的一篇 paper 就是我们当时是跟阿斯利康这边合作,把这个设计了一个一整套新的这个算法基于蛋白的结构和小分子的结构这边去它的一些 local 的这个结构,一些局部的这个结构,我去预测它的这个结果到底是怎么样的。
那这块的话其实就是解决了一个很多其他 AI 制药的一些相关的算法都没有解决的问题。就是说我的泛化能力,就刚才哪个老师也讲到了,就是说我现在可以训练很多模型,然后在我的训练集上表现很好。但实际上一到真实的情况,一到真实的药物研发的数据上面的话就来话。就是因为现在它的泛化能力其实相对来讲比较有限的,所以我们就是通过这个提取结构的一些信息,一些相关的 feature 在下游这边的话,可以做到一个更好的有更强的泛化能力的模型,而这些模型恰恰可以解决一些小样本的这样一个问题。
那还有就比如说刚才讲到没有结构,那可能在一定程度上可以解决。就是说比如我现在没有结构,我也可以用alpha ford去预测一个大致的这个结构,然后我去做docking 或者怎么样。但这里面的话也有一个问题,就是说我现在假设蛋白结构是刚性的,那可能这个我直接去做 docking是可以的。但如果它柔性比较强的这种情况下怎么做现在是不知道。那再进一步。就比如说我现在有一个蛋白有个小分子之后,我想知道它们结合在一起是什么样?基此我去做一些基于结构的药物研发和药物设计以及药物分子的优化。那这种情况下怎么样去计算到?比如说我们这个 complex 这个其实也是,不只是我们也是所有的 AI 制药公司其实都在关注的一个点。那我们前一阵子做的这个T bind其实就是在一定程度上解决了这个问题,就是给我的蛋白质给我小分子之后,我可以在一定程度上可以去预测它的这个符合物的结构。然后基于这个结构我再去做优化的时候,我就可以有的放矢,做的更准。
其实现在就下游的这种 AI 的这算法不管是筛选也好,优化也好,这边很多算法的话相对来讲已经比较成熟了。但是有的时候就是说这个 gap 比如说我现在没有这个 complex 或者没有结构或者数据,数据比较少。在这个最前端的时候这个数据模态的一个缺失会导致后面的话就是基本很难去做的。对,所以我觉得这个东西就是难成药未成药靶点这边的一个痛点或者挑战,而 AI 这边的话我觉得是有很大的潜力可以去解决这些问题的。

评论(0
登录后参与评论
    相关问答