话如果说对于这个数据方面的还有相关的一些因为确实很多也是做新药，很多时候不容易获得，你们是怎么样去解决好吧

新药项目AI新药开发AI技术

王波 2022-12-13

裴剑锋

刚才徐老师还有陈涛都对这个数据的问题有 comment，我觉得都非常好，都挺对的。然后我就再补充一些。就是关于数据的话，其实是这样。其实那个AI加药物研发，它是两个问题，一个是data driven的问题，就是我们就是我们标准的 AI ，还有一个就是 AI for science 的问题。刚才也提到过，就是我们其实这个有很多理论，他这个科学理论，其实是 AI 也可以用在这里面。那么这里面可能有一部分数据，有一部分它是怎么来跟这个原理的一个结合。

然后在新药研发里面确实尤其是做first in class 新药研发，我们针对这个具体的一个疾病，一个靶点，如果是新的话，那是没有数据的。如果数据特别多，那你做的就不是first in class best in class了是吧？而是做的是Me-too。其实现在很多的那个 AI 的算法其实都是一种 me too 的算法，它做出来的就是学习现有的药物去，然后去设计个新药。那么大家就会问这个角度，大家就会问那你什么小白专家的问题，其实问的问题是问的 me too 的这种角度问题。如果从 first in class 角度来说，专家如果一个专家能够说，我想这个first in class 结构这种专家是非常非常少的，非常非常罕见的。所以就是如果你从原始创新的角度来说，这个 AI 其实能够提供给人的 hint 是专家想不到的很多。而且确实即使专家想到了，也需要用计算方法来进行验证。那比如我们跟一些公司合作的时候，那么其实我们帮他设计的过程中，他们也会很好玩，他自己也想设计一些分子人设计。设计完了，他就说既然你们你有一套流程帮我来看看这个分子对不对？你帮我验证一下，然后他们有的还是还上瘾，就是不停地想这个新分子扔给我们的模型看看行不行。跟他们回到数据问题，我觉得还有一个就是因为做药是非常难的。在这个地方那个尤其是你做创新药那个是难得不得了。这个你成功率是非常非常低，即使你用 AI 来辅助，这个成功率还是很低。

那么这里面我觉得负样本数据特别重要，即使是这个负样本数据是非常少的，就比如你因为 AI 设计了一轮，那么这个时候你反馈效果不怎么样，但是你这个时候你把负样本加进去虽然不多，可能第二轮的效果就会很好。那么这个第一轮数据就跟我们那个大炮瞄准校正一样，先放一两炮，看看这个到底打的准不准。因为这个AI药无论是任何计算方法的成功率是吧，在我们这个学科领域都是非常不准的。我举个例子，就是在新冠肺炎刚爆发的时候，很多人用分子对接去针对那个 3 CL 就是组蛋白酶去做虚拟筛选。至少我见到的论文只不下几十篇，每一篇都能用同样的靶点，同样的数据库，他们每个人给出的结果都是不一样的。就是你排名前 100 的 50个分子，没有一篇文章是有重合的，甚至一个重复的分子都没有。

这说明什么问题呢？说明这个领域参数太多了，无论是你软件的参数还是人为对这个蛋白处理的时候的一些人名的参数，都会非常大的影响这个结果。这也是我们技术它是目前就是不是说一个稳定的技术，目前还没到这种地步，不是不能做全自动全，自动的话其实也是非常的 random 的一个结果，那其实要把这个用得好，要把 AI 的模型用的好过，我觉得不存在这个数据问题。

还有就是这里面涉及到很多很多 know how 的问题，还有这个就是你的经验的问题。还有刚才我讲到这个负样本数据特别有用的问题，然后我们怎么在数据不足或者数据抑制性很多，不平衡这种各种清洗不好的这种状况下去怎么去处理这些这东西，我觉得这些自己的方法，尤其是你对这个原理的了解是非常重要的。如果来一个你不了解原理的方法一算，那么他到底相不相信他的结果呢？你无从判断，你要了解这个模型它的适用范围在哪里，它是用什么样的数据训练出来的？有的模型它特别的那个表观性能好，但一使用就一塌糊涂，全部是过滤和模型。这个时候我觉得你愿意用一个稳定的不是那么准的模型，不要用那种就是训练很准，但实际上在真实世界里根本不起作用的模型。其实这些都是非常非常缺给需要经验的地方，我先说这些。

本网站未发布麻醉药品、精神药品、医疗用毒性药品、放射性药品、戒毒药品和医疗机构制剂的产品信息

话如果说对于这个数据方面的还有相关的一些因为确实很多也是做新药，很多时候不容易获得，你们是怎么样去解决好吧

69期：展望未来：AI创新发展