很早大家都在谈 cadd ,可能把 cadd 也认为是 AI ,那我们现在也有说叫 aidd ,这两个到底是怎么个区别的?
任峰
AI新药开发
2022-12-09
可能这个区别用一句话就可以说清楚,可能 cadd 它的主要功能是帮助你对已知的这些结构做评估,它可以帮你计算它的结合的能量,主要的功能是做评估。那aidd 它的最大的优势在于它可以从无到有的生成,一个主要是做评估,一个是从无到有的生成。因为 AI 的话它是比如说你给它一定的输入的这些数据或者是结构,它能帮你去生成新的结构。那 cadd 必须得建立在已知的结构上,对其进行一个评估,进行一个排序。所以这可能是两者这个我个人认为最大的区别。
 
那到底从概念上有什么区别?其实我觉得一个最主要的是生成,然后另一个是帮助你评估,其这两者是可以结合的。比如你通过 AI 的方式,你产生这种新的这个获户之后,你可以通过 cadd 的比如说很多公司用微软的这种算法去帮助把 AI 产生的这些小分子化合物进行一个评估,进行一个排序,这样的话让你可以你的命中率会更高,所以这两者应该是一个互相结合的一个关系。


AI 本身是数据算力算法这三个是三要素。那对于咱们现在因为也需要大量的数据,我们对于这个数据我们怎么获得?
陈亮
AI新药开发
2022-12-09
毫无疑问,一讲到 AI ,数据库成为一个非常敏感非常热的话题。刚才我看到的底下这个这留言,很多人就在问到这个数据哪里来的,公共的是哪里来的等等。那么我们讲我们大湾生物的,大湾生物本身它这个主要集中于生物 cmc 平台。
 
所以比如说我们现在在做的是通过这个 AI 来在寻找高产的细胞株,所以我们在说通过细胞影像来做,所以这细胞影像本身实际上 public 是没有这份这次这些information ,所以我们实际上是我们自己创造的这个这样的一个数据库,这是第一个,第二个就是我们通常你要数据库,你要高通量,所以我们实际上也是有 IP 保护的,如何来在短时间内找出大量,迄今为止我们已经有 8000 万,快一个亿了,8000万的细胞的影像被处理过吗,是 18 个 T 左右,是这样情况。我们从商务角度来说。那么这个数据库实际上是我们在大湾生物在用人工智能应用生物制药,特别在这个细胞株平台上,是它一个天然的一个屏障。换句话说,今天其它人要做的话,比如说你买人的影像,你到公安局可以买海关去买,你的 X 光片你到医院去买,那么任何一个人想要做的话都是要 start scratch,不管你多有钱多有经验,都是从 0 开始做这样工作。
所以在我们大湾生物在生物制药这一摊的数据库不光是细胞株,培养基也是一样,培养基的话这个我们也是自己创造的,那么未来我们还有一些做的项目的话,我们已经预测这些东西是 public 基本上是找不到的,都是需要我们自己来做。所以实际上对我们这个 AI 加生物的公司来说是很大的一个挑战。所以你还没开工之前,你必须要想清楚如何能够在短时间内能够有一个我们叫 clean data ,就是比较有效的 customize data 这是很重要的一个东西,这是第一个。第二个我想也是 clarify 下一个idea ,就是 concept ,通常打交道大数据的时候一想到就是几亿个数据、几十亿的数据。 那么这是不一样的,实际上完全要看你这个项目它的这个我们从逻辑上来说它的相关度少,如果它中间的一些 relationship 一些关系,或者你像用 AI 来找的关系已经是比较明显的,那实际上你的数据量未必要大。那么有些数据就是关系是非常的微小,所以你数据量必须要大通量。比如说我举个例子,今天你说要区别一个亚洲人和欧洲人,你估计举个例子就 AI 就能学出来了。今天你说一个双胞胎,你如何把这个哥哥和弟弟姐姐和妹妹把它分开,那估计要很大的数据量才能做出来。所以这个完全在看你的项目当中,你的这种关系量是否明显才能决定这个事情,所以这个是我们从数据库的这个角度来讲。
围绕这个靶点发现又搞了个小分子,这一块能不能把就是这一块?我们如果从人工的一个角度跟从 AI 的角度两个对比是怎么样的情况。因为我们要看看 AI 是不是真的有真的就是颠覆式的?
任峰
AI新药开发
AI技术
2022-12-09
AI 肯定是颠覆式的,就算现在不是,以后也会是。所以这个我相信在座的几位肯定是深信这个的,如果你们都不相信了,那就没人相信了。所以刚才波总说的对,目前绝大多数的 AI 的公司,它所做的小分子化合物,它目前进入临床的都是针对一些已知靶点,或者是已经有在临床上验证的一些靶点,然后通过它的算法产生小分子化合物进入临床。就是刚才波总说的针对这个一些旧的靶点,产生这种新的小分子化后或者是有差异性的小分子化合物,这是因为大家想希望能先通过它们的这些分子的设计,因为分子的设计最容易验证,就是说你设计出来小分子之后,你在这个筛选平台上测试一下,你看看能不能跟这个蛋白结合,你就知道你设计的分子是正确的还是错误的。
 
 
我觉得小分子设计是最容易验证的一个环节。那就是大家还不想冒险做这个完全创新的靶点。因为靶点的验证不是说几个月的时间或者是一两年的时间,它需要更长的时间,它需要你在临床前的验证。然后在临床上,最重要的是在临床上去验证这个靶点是不是正确的。而且靶点的成功率特别低,就是传统的靶点发现,据统计在 2010 年 nature 的文献上一篇文献上报道,说它的成功率只有 1% -5%。那你说在这种这么低的成功率的情况下,如果你就算是通过 AI 的加持,你可以把成功率提高,你比如说提高三倍五倍的,你也只是从 1% - 5 %提高到 5% - 25%。其实你的大部分的靶点发现还是这个失败率是比较高的。这也就是为什么主要的这个玩家就是 AI公司,目前进入临床的都是这种针对已知靶点的。
 
那英矽智能,因为我们有两个平台,我们一个PandaOmics主要是通过病人的组学数据,尤其是转录组或者是其它的组学数据,来对比病人和健康人的组学数据,找到其中的差异,就是最明显的差异,然后同时结合我们在这个信号通路激活上的一些通过文献专利的这些验证,我们去找到我们认为比较新颖的靶点,所以我们有这样的一套靶点发现的方法,而且我们深信这个从病人身上去找到这种跟疾病相关的靶点是比从传统的靶点发现是从生物学去关联疾病,我们认为更靠谱。所以说我们就愿意冒这个风险去从早期的靶点方向开始,用我们的PandaOmics去找到一个针对特化用肺纤维化的一个全新的靶点,然后利用我们的Chemistry42生成化学的 AI 平台去找到小分子化合物。目前我们这个临床前的验证已经全部做完了,我们现在这个化合物已经进入临床一期,我们希望能很快的在今年年底或者明年初进入二期的验证,希望能在真正的病人身上能验证我们找到是这个创新的靶点,找到的这个小分子化合物能是针对这个特化性肺纤化的病人能带来临床上的疗效。我们觉得这个工作虽然有一些风险,但是它可能给整个 AI 行业带来的刺激的效应是非常大的,说明你 AI 不光能设计小分子化合物,你还可以从这个生成生物学的角度来找到这个新的靶点。所以这就是我们的治疗特化用肺纤维化化的这个项目临床一期的项目的一个故事。

AI 解决这些递送问题的时候,它它为什么要用到AI ,跟传统比怎么样情况
赖才达
AI新药开发
AI技术
2022-12-09
对,这个我其实我先回答之前,我先 echo 一下刚刚 Michael 讲的这个重点了,其实它那个跟我们的衰止是一样的在不管是药物递送或者之后,我讲的像核酸这种有很多的是 biology 有一些 unknown ,比如说你这个东西到底在体内怎么 distribute,这个高端制剂怎么进到细胞里面去,然后它怎么内胞逃逸。其实它本身的逻辑是因为那个 first principle 的如果才没有那么清楚,如果那个都很清楚了也不需要 AI 你有非常明显的那个像射火箭那种方式,它就可以算出来。流动力学的时候,你不需要用 AI 去做。
 
那我们的 fundamental 的原因其实是因为有一些 biology 的这个 process 是 unknown 的,所以它得用数据导向去做这个分析,刚刚讲人脸识别,你要写一个 route真正去分析一张脸是非常困难的,但你人一看就看得出来,其实它其实是用那个大量数据 training 完之后,去把这个东西变成一个 somehow data driven 的一个 black box,然后把一些重要的 feature 之间的关系给发现出来,这个是 AI 底层的目的。简单说我们在各个可以用 first principle的方式,我们都会用first principle,比如递送里面有一些东西是可以直接用算的,那我们就会直接用算的,用量化的方式去得到parameter,然后在一些 unknown 的部分,我们用 data driven 的方式去做。所以这边有几个关键节点,你需要先做一些自动化的平台,你是一定要有高通量的实验能力,要产生足够大量的这个 data ,你才能够 drive 那个 unknown 部分的答案。
 
然后你再透过一些 first principle 的算法去尽量解码一些重要的参数。然后 AI 就尽量把中间这个 gap 给连起来。 AI 我们希望尽量把这种 first principle 能够得到这些 promise 跟我最后高通量得到的一个实验结果去做一个结合,你的数据量也要够大,基本上都要到万级 、10 万级才可以开始做这个 model 的搭建。所以我们第一个做的不管是小分子的制剂或者是 lmp 的平台,都是我们先确保有一个 high quality ,并且 well control 的一个高通量的平台,然后在 invival 跟 envival 都可以 tag 情况下,我们再去推这个平台跟 AI model 的搭建。
 
这个是刚 echo echo 刚刚讲我觉得非常到位,讲到那个 AI 是最关键的核心的 track。回到刚刚那个问题就是递送这边,为什么我们做切入这个点,这就是刚刚讲的一个很棘手的点,这地方属于一个 biology wise ,没有非常清楚 first principle 的算法没有 Facebook rules 告诉我们说这个 lmp 为什么到肝?它为什么到肺?它为什么到脾脏?或者我今天做一个小分子的固分体,它到底这个溶出是多少?我今天做这个微球,它zai 体内怎么样释放?这个现在全部都是 try error 的方式在做的,它是靠有一些直觉或者一些 experience herristic base 的方式,先去做一些 formation ,然后打到这个动物里面去看结果,根据这个结果再调一些参数。AI 的方案其实提供了一个数据导向跟真正去 figure out 一些这个 rational design 的这种图。所以我觉得 AI 是提供这个方向的部分。
 
那我们 basic 透过 AI 去解码了很多高端制剂,像微球纳米制剂 lnp 这一系列,它到底怎么样去是每一个环节,比如在血液里面的稳定性,然后细胞的这个内胞逃逸,这每一块我们都建了相对应的 model ,然后从那边去做递送的 prediction ,这个还是第一个环节,你有一个 production model 之后,第二个是你去 screen 什么 space, 那在 screen 这个 space 、design space 的时候,其实材料在这个 GE 这边是有非常大的探索空间的。
 
甚至它给小分子可能更难的是,你非常难去 by design 去设计一个这样的 delivery载体,比如说你在设计小分子的时候,根据一个这个蛋白的结构,很多的人其实是可以设计出一个小分子结构。但是如果今天是要 delivery ,比如说问它说我怎么样可以送到比如说 T细胞这种先到脾脏,然后再到 T细胞,这东西非常难去做一个 delivery 的设计,尤其你要做一个被动靶向的时候就更难。所以这块我觉得我们用 data join 的方式去解决从这么大的 design 抬到 design space 到工艺的 design space ,然后到最后这个递送这边的 modeling 整套的这个流程,透过 AI 去得到一个预测,然后最后得到一个优化的能力。
然后透过这个,我们就做到了到基本上一个月的时间就可以 double 它这个表的,然后我们从一开始做比这个 merderna 它们差 1 万倍、它比我们多 1 万倍,然后到现在我们比它多 十几二十倍这种,就是它非常快的能够迭代自我学习,然后并且能绕开专利各种方式去达到我们想要 PK 这个递送的一些要求。所以这个我觉得这个是新的 working model 我们先验证出来非常好用在递送这个环节。
那我们现在可能像大湾生物的话,因为是通过 AI 的一个方向,直接把这个十个全部都看过一遍,这样就避免掉,可能就由于经验造成的一个就有些漏掉了是可以这么理解吧。
陈亮
AI新药开发
AI技术
2022-12-09
是可以这样子理解,这是一个,刚才讲的是从成功率上。另外一个就是我们从速度上,实际上比如说我们在细胞株筛选,通常我们是一个盲选过程,被动的盲选过程。所以它这个很多的劳动过程。直到 last minutes 最后一分钟它才能知道,那么现在我们通过 AI 的学习的方法,我们这个在大湾生物,我们是通过细胞影像的变化来预测细胞株的表达量的高低,这个是作为一个标准,那么这样话是变成一个主动了。所以我们传统在做的时候,通常我们就只能筛一万个细胞都不到,现在我们高通量的情况下,又有 AI 的技术的话,我们可以在二十几万甚至四十几万的细胞里面去找出这种高产率。当你的筛选基数、细胞筛选的基数大的时候,这个从概率上毫无疑问你得到了一个好的高质量的产这个细胞株,它的可能性会增加。
 那么它毫无疑问我们现在的一些证据数据、案例都已经得到这方面证明。比如说有些我们现在做了很多的案例,我们也做平行实验,跟原来传统方法做,表达量提高的话通常在 50% 以上提高,到 250 的提高,都有不同的提高。那么这个是无论从结果也好或者从逻辑上来说都得到了一个印证。
最重要的底层逻辑就是说因为 AI 的技术,因为产生了高通量的技术以后通常能解决了这个生物的一个不确定性。通常生物的不确定性就是它没办法高通量来做。那么这个 AI 技术来帮助这个生物制药界的能够在大量的细胞里面获取你所需要的东西。这个是重要,相当于我们现在 AI 这个人脸识别,通常你找一个人,你一个人要人工来做的话花很长时间,那你就现在把探头一扫,几千万人里面就能把你所要人就给它找出来了,同样类似的情况。