因为现在有这么个情况,你说 AI 码前几年确实是只要提到 AI 的话,就马上哇塞牛高大上。那现在 AI 也多了,有点这种感觉也开始内卷了。从 AI 的一个角度来说的话,你觉得因为不同公司,从我角度我是不知道 AI 公司它的价值在哪里的,到底大家有什么差异的。然后技术瓶颈在哪里?大家好像技术有强有弱,它到底在哪里?能不能结合场景来聊聊。
李成涛
AI新药开发
AI技术
2022-12-13
对,这个我现在可以简单去从这个大面上聊聊,然后可以结合一下这个技术场景。首先我觉得作为这个评判 AI 公司的这个标准的话,最直接简单的一个方法其实就是三个方面就是 AI 方面,就是算法、算力和数据。其实就这三个方面,那所以实际上我们会面对很多不一样的这个情况。那这里面刚才你也提到就是说数据这边,它可能是有多有少,它可能模态的话这边有是不太一样的这地方,那我们是不是可以用不同的算法或者不同的数据清洗方法能够做到。所以这块我觉得是从能力上面来讲的话,其实是有比较大的这个差别的。然后另外一个从结果上或者从那个能够 deliver 的这个东西上面来讲的话,这个刚才两位老师也提到了,就是一种是人家做到我也可以做到,人有但我可能做得更好。对,人有我优或者就是别人干脆就想不到。比如说我现在一个药化学家,我去做一个药物设计的时候,其实比较难想到一些特别好的这种分子,或者说可能有很多这个因为化学空间很大,所以有很多化学空间的这分子的话其实想不到的。那这种情况下 AI 可以想到,甚至可以设计出比药化学专家经验经验这边更好的分子。这个就是人无我有,就我可以做到一些人做不到的事情。那这个东西的话其实就是落实到,比如真实的这管线上。那就是说第一,比如说现在已经有要的这个管线,我是不是可以做到更好,比如说更好的这个差异化。
刚才其实也有老师提到,比如说我做一些选择性,比如说我做别构位点,这个其实就是一个非常直接的一个 case 。那对于我们来讲,其实我们有一个管线其实就是这样的,做也是一个肿瘤相关的一个靶点。那么它这里面其实有相对来讲比较多的不同的这个突变类型。那这块其实跟刚才徐老师这边提到也是就是说,就是可能不同的突变类型这边的话,它可能需要它的结合口袋,它的这个位置以及比如它的大小形状这边其实是有变化的。那这种情况下,光靠我们人力原本的这种方式,我们去做这个药物设计的话其实是会比较受限的。那在这个时候话可能就是人工智能这边 coming to play 我去设计一堆分子之后,我挨个去筛。比如这个这个口袋那个口袋大概是怎么样去 feed 进去的,是不是可以都 feed 进去?那这种情况下的话可以就做到,就是原本可能就是没有办法做到,就是说这么多靶点我都可以去抑制。那现在的话我就可以去做到这件事情了,包括一些激酶类的这靶点。
刚才也讲到,就是说我们一般可能不去选择做 ATP binding pocket 因为这个 binding pocket 这大家可能都有,如果我直接结合那个位点的话,可能会造成我这个它的激酶相对来说比较脏的。但这个时候其实我们也可以用类似人工智能方法,就是说我直接在筛选的过程中,我就考虑到它的不同的这个靶点,它可能在结构上面或者各种跟之前的这历史数据上面一细微的差别。然后根据这个东西,我们能去找到那些 highly selective 就是特别具有选择性的这些分子,然后去做。
所以这个其实从两个方面,一个是从能力上面,从结果上面,这个是它的一个核心的东西。所以刚才您讲到就是说 AI 公司发展了很多,确实现在其实挺多 AI 公司,然后也都在做很多。不管是创新型的这个算法也好,创新型的管线也好,其实都有。那么我觉得去评判一个公司这边的核心竞争力的话,我觉得其实就主要是从技术上的话,其实主要从这两块。那当然还有比如从管线上面来讲,刚才徐老师也讲了,我们可能有很多不同的这个靶点的,或者是系统生物学这边,我们可能找到不同的新的靶点,那这个就是更像一个传统的biotech这样一个思路,我去做一些 differentiation 了。对这块我觉得就是大概是我理解的,就是说对于在这样一个内卷的环境中,对于一个 AI 的公司,它的核心竞争力和壁垒大概是什么样。好的。

因为我看一下咱们现在也有个项目是针对乙肝这一块的,乙肝这个治愈的一个方向。对这个潜在靶点,已知蛋白我们全球也是尝试的比较早的,那你这个东西的话对乙肝这里面的,从你们一个角度来说,相应能不能聊聊这方面是为什么会有这样的一个思路。因为乙肝有一个问题是,乙肝一方面是那个细胞膜表面的,还有本身就是细胞核里面的一些本身也都是一个有的时候细胞膜表面的这些点能够把它处理掉,但是细胞膜细胞核里面有点比较麻烦对吧,
裴剑锋
AI新药开发
AI技术
乙肝
2022-12-13
这个我们做hbv的项目其实主要是因为,那个目前 hbv 的药虽然有一些吉利德的一些药还有那个上市的,但是目前来说我们还是需要更多的药。那么现在包括这个合一合类的那个抗乙肝的药目前处于临床期比较多,如果这块的有上市的话,其实对广大的乙肝患者是个福音,就是这是一个新机制的药。但我们考虑的就是比如那个北京生命研究所等ntcp 是吧,他发现乙肝的受体,那么他们也根据这个在做抗体药。那我们考虑就是说从这个新机制的角度考虑,就是我们考虑这个乙肝病毒cccdn的形成,那么它会导致这个乙肝难以根治。那所以从这个角度我们考虑是不是想办法把这个乙肝的cccdn的形成这块给它 block 一下。这样的话另在从一个新的基础上也可以产生一个药。而且从这个原理上来说,它是一个根基型的一个方案。就跟你说他就是阻止病毒那个潜伏在这个细胞核里边,那样否则的话你可能只能达到功能性治愈,而不能达到根治。所以从这个角度,我们去分析了他整个这个 ccdn 合成的那个通路。然后从里面选出了些 potential 的一些靶点。当然我们从各个方面,无论是从 AI 方面,我们用各种的就是有点像成涛说的,但这个不是一个多模态,就是我们从多个角度能来看他这个靶点都是 potential 的一个 target ,然后其次就是我们从结构的角度,从结构的角度发现这个蛋白,它的那个bionisite的也是个非常适合药物的bionisite的。
那么从我的模型来上,从结构上它也是一个 target 当然就是还有从生物学上的,就是你那只能是因为人体太复杂,你得了解它的生物学,从生物学角度也有一些证据,有些 paper 还有公开发表的 paper,那么可能这证明这个靶点还是潜在的一个可要靶点,所以我们就那个就开始做,当然这个项目风险还是挺大的,因为这个我们选择的这个能不能成为一个靶点,成为一个乙肝的那个的 药物的靶点,还是目前还是有待验证的,希望我们能够把它验证出来。

话如果说对于这个数据方面的还有相关的一些因为确实很多也是做新药,很多时候不容易获得,你们是怎么样去解决好吧
裴剑锋
新药项目
AI新药开发
AI技术
2022-12-13
刚才徐老师还有陈涛都对这个数据的问题有 comment,我觉得都非常好,都挺对的。然后我就再补充一些。就是关于数据的话,其实是这样。其实那个AI加药物研发,它是两个问题,一个是data driven的问题,就是我们就是我们标准的 AI ,还有一个就是 AI for science 的问题。刚才也提到过,就是我们其实这个有很多理论,他这个科学理论,其实是 AI 也可以用在这里面。那么这里面可能有一部分数据,有一部分它是怎么来跟这个原理的一个结合。
然后在新药研发里面确实尤其是做first in class 新药研发,我们针对这个具体的一个疾病,一个靶点,如果是新的话,那是没有数据的。如果数据特别多,那你做的就不是first in class best in class了是吧?而是做的是Me-too。其实现在很多的那个 AI 的算法其实都是一种 me too 的算法,它做出来的就是学习现有的药物去,然后去设计个新药。那么大家就会问这个角度,大家就会问那你什么小白专家的问题,其实问的问题是问的 me too 的这种角度问题。如果从 first in class  角度来说,专家如果一个专家能够说,我想这个first in class 结构这种专家是非常非常少的,非常非常罕见的。所以就是如果你从原始创新的角度来说,这个 AI 其实能够提供给人的 hint 是专家想不到的很多。而且确实即使专家想到了,也需要用计算方法来进行验证。那比如我们跟一些公司合作的时候,那么其实我们帮他设计的过程中,他们也会很好玩,他自己也想设计一些分子人设计。设计完了,他就说既然你们你有一套流程帮我来看看这个分子对不对?你帮我验证一下,然后他们有的还是还上瘾,就是不停地想这个新分子扔给我们的模型看看行不行。跟他们回到数据问题,我觉得还有一个就是因为做药是非常难的。在这个地方那个尤其是你做创新药那个是难得不得了。这个你成功率是非常非常低,即使你用 AI 来辅助,这个成功率还是很低。
那么这里面我觉得负样本数据特别重要,即使是这个负样本数据是非常少的,就比如你因为 AI 设计了一轮,那么这个时候你反馈效果不怎么样,但是你这个时候你把负样本加进去虽然不多,可能第二轮的效果就会很好。那么这个第一轮数据就跟我们那个大炮瞄准校正一样,先放一两炮,看看这个到底打的准不准。因为这个AI药无论是任何计算方法的成功率是吧,在我们这个学科领域都是非常不准的。我举个例子,就是在新冠肺炎刚爆发的时候,很多人用分子对接去针对那个 3 CL 就是组蛋白酶去做虚拟筛选。至少我见到的论文只不下几十篇,每一篇都能用同样的靶点,同样的数据库,他们每个人给出的结果都是不一样的。就是你排名前 100 的 50个分子,没有一篇文章是有重合的,甚至一个重复的分子都没有。
这说明什么问题呢?说明这个领域参数太多了,无论是你软件的参数还是人为对这个蛋白处理的时候的一些人名的参数,都会非常大的影响这个结果。这也是我们技术它是目前就是不是说一个稳定的技术,目前还没到这种地步,不是不能做全自动全,自动的话其实也是非常的 random 的一个结果,那其实要把这个用得好,要把 AI 的模型用的好过,我觉得不存在这个数据问题。
还有就是这里面涉及到很多很多 know how 的问题,还有这个就是你的经验的问题。还有刚才我讲到这个负样本数据特别有用的问题,然后我们怎么在数据不足或者数据抑制性很多,不平衡这种各种清洗不好的这种状况下去怎么去处理这些这东西,我觉得这些自己的方法,尤其是你对这个原理的了解是非常重要的。如果来一个你不了解原理的方法一算,那么他到底相不相信他的结果呢?你无从判断,你要了解这个模型它的适用范围在哪里,它是用什么样的数据训练出来的?有的模型它特别的那个表观性能好,但一使用就一塌糊涂,全部是过滤和模型。这个时候我觉得你愿意用一个稳定的不是那么准的模型,不要用那种就是训练很准,但实际上在真实世界里根本不起作用的模型。其实这些都是非常非常缺给需要经验的地方,我先说这些。
 

目前我们也看到了咱们这块现在有很多这个肿瘤方面方向的这个创新,咱们现在在肿瘤方向的一个策略的话,在 AI 上来说它是解决了什么样的问题。
裴剑锋
AI新药开发
AI技术
抗肿瘤
2022-12-13
就是肿瘤它是一个特别复杂的疾病,也是目前这个其实我们很多地方也没有满足的临床需求,而且因为它特别复杂是吧。所以这里面其实肿瘤里面,一个是靶点的问题,包括你刚才提到比如KRAS 大家以前认为它是一个不可成药的靶点是吧。后来发现那个 g12c 突变之后,这边可以做个共享,要那可以,就又成为药靶了。然后当发现即使是 g12d 突变的时候,不做共价的那个小分子也可以成交了。这是一方面是吧。

然后还有就是它的特别的复杂性。比如那个刚才徐总也提到很多自那个自身免疫与那个炎症的关系,其实癌症和炎症这个它的关系也是非常非常密切的是吧,还有因为它的机制很复杂,那我们其实在可能一个很好的治疗方案,也可能是一个多靶点的方案是吧。比如在癌症里面你去分析它的网络的话,你可以发现比如有些核心致死是吧,或者是关键的,比如你做肿瘤的代谢,可以从代谢网络里发现一些组合。当然肿瘤代谢可能有个不幸的地方,就是和那个免疫细胞的代谢挺像的。所以可能这一块也可能不是就是它复杂性,就是我们怎么来针对这个癌细胞有多个方面的事情来做。那么在这里面, AI 无论是从系统生物学、网络药理学这种靶点发现上都是可以起到很大的作用。

还有直接就是针对我们的这个靶点来设计小分子是吧。那么大家以前就是我们的都是常用的一些GM抑制剂了是吧,那 GM抑制剂我们可以考虑去做它的一些结构位点的一些设计是吧。其实我们以前在学校经常就就不去做那个 ATP bionicsite 结合位点的一些结合那么当然那边就比较难做了,就像诺华的ABL-1的抑制剂,那么它在那个doukou xian的bionicsite刚做了抑制剂,那且是刚上市是吧。那么它这个地方它会有一个比如这个地方它可能如果专业性不是很高,可能会跟一些脂肪酶有可能结合,那它导致一个胰腺癌的副作用。

你看这些都是挺复杂的,其实可以通过我们的一些无论是计算的方法、理论计算的方法或者是 AI 的方法都可以来做。还有就是我们从序列和结构上的能够预测一个first in class的靶点。那么它的成药性怎么样?是吧?他这个 potential 的靶点是否适合做小分子或者是其他的药物,这些都是可以应用的上的,就是有很多很多方面的应用,AI这里面。这个确实是都在我们的几个那个 cancer 的这个就是 anticancer 的靶点里面或者是疾病里面都有用到。

因为那个自免本身也比较大,80多个适应证,咱们同时也在做这个红斑狼疮,做的人也比较多。那现在红斑狼疮也属于经典药物研发领域,我们这个它的一个机制是什么样的一个机制?另外你们现在用AS 解决什么样的差异化的问题?
许大强
自免
红斑狼疮
2022-12-13
红斑狼疮是那个就是是非常一个很糟糕的一个,他主要是一在外界某种刺激情况下或者内部的一些刺激情况下,它会那个B-cell 它会产生很多一些,就是它把自身的一些比如说什么那个 DNA 或者RNA认为是一个外界病毒入侵的 DNA RNA 内会产生一些antibody,这些抗体呢其实叫做所谓autoantibody,就自身抗体。

这些抗体呢就是再形成一个聚合物,在一些器官上就沉淀积累下来,然后就引起了各种各样的,就是什么那些免疫细胞的那个attack进攻。然后还有那些就是组织的慢慢被破坏掉,有很多一些就是它经常表现在就是,像那个什么那个肾呐皮肤都会有很明很强烈的表现,这个其实红斑狼疮也是非常,特别是年轻的妇女这个发病率特多,差不多是女性男性的比例好像是 11:1 这样的比例。这个就是这是非常很糟糕的,因为那个他们的就是发病的年纪平均至 20 岁 25 岁 30 岁这样,正好是生育年纪。所以这个随之影响非常大,尽管现在那个红斑狼疮的死亡率不是特别高了,它原来死亡率特高,在那个就是那个glucocorticosteroid出来之前,就是那个糖皮质激素那个出来之前,他的致死率 50%,五年的致死率有一半。现在基本上有不到 10% 的 5 年致死率了,就是还是有很大的就是致死率,但是它已经现在基本上是一个慢性病,但是这个慢性病它特别糟糕,差不多你在 5 年到 10 年之间有一半的病人会 primarily disable,就是哪个器官不行了,或者是变成就是对个人,家庭还有社会,它造成的负担非常大。

现在就是也就是就除掉那个激素以外,也有一些就是 immune module 来说了,就是那个就是免疫抑制剂,这些药来治疗,它都是系统命运药,副作用非常大,也都不建议长期用着眼药。然后最近也出来几款,就是十年前有一款第一款那个就是就是那个叫什么 BFF 叫 back 那个就是那个抑制剂是 jsk 的那个研发出来的一款药,那个药的效果不怎么样,副作用也特别大,它主要是把B-cell就是B-cell很重要,把B-cell都那个去掉了。我们中国有那个荣昌生物有做了一个双靶点的一个抑制剂,BFF加上 apro 抑制剂,效果好像比他们还更好一些。

最近去年那个阿斯利康又出了一款药,它是那个叫Saphnelo就是一个抗体药,它是就是那个叫什么 intercra-α 那个抑制剂这些药它都有一个共同的,它就是抑制把这些严重压下去,然后引起的,因为它是那个系统性给药,它的副作用副反应还是非常大。效果也并不是特别好,效果不是特别好其实我不认为是药的问题,而是这个就是红斑狼疮来说,本身它是非常特异化的,不同的那个病人可能有不同的那个发病机理,现在就是已知的有 100 多种那个基因突变都可能引起这个红斑狼疮,就是这没有一个基因突变能够单一的,能够说是很多的那个红斑狼疮来说都是由它引起的。所以这还是非常一个复杂的病症。

我们在这个领域想怎么做,就是第一个我们也是希望能够有机会把病人能够,尽管不能是非常非常,就是像在CAR-T那种,就是每个病人有个药了,但是max customization这也不现实。所以把病人能够分层,根据病人的发病机理genetic那个就是 marker 能够分把病人能够找一些分层。然后这个找一下更好的生物标记物,其实做红斑狼疮里没有好的生物标记物其实还是很难做的。另外我们还是希望能够就是就是通过多靶点差异化来能够帮助我们解决这些,解决一些问题。

我们这个项目上基本上就是,希望在最终是找一个好药了对吧,就是这个好药的标准,现在其实它门槛并不是特别高,在红斑狼疮这个领域因为没有好药,我们还是希望能够找一个能够对我们选定的靶点能够有更好的选择性,能够提供治疗疗效,副作用少一些,这就挺好的。

那个我们选择的靶点就是正好它有一个有三个不同的,就是差不多的就是hoe malege了,就特别高的这个靶点,所以它之间的选择性的其实是一个挑战。我们也其实就像刚才说的我是我们那个多靶点抑制剂的一个筛选平台,我们在这里面正好反过来用,我找了对一个靶点抑制性特高,对另外一个靶点抑制性特弱的,这样看看它们之间的 separation 越大越好。但是同样一个系统,其实这个过程是差不多的了。通过这个续筛过以后,再进行重新对接,然后 fep 再加上人工的那个 idmt 的预测,人工的那个筛选。
另外我们在这里边也用了一些就是定向的gujiayaoqian的一些分子生成方法,帮助我们就是把一些已知的那些分子的特征把它提取出来,不管是通过分子生成,固定的那些 fragment 那个碎片,然后把另外一碎片进行变化。像那个裴老师说的给我们指出来新的设计思路,这也是我们另外一个方法来进行分子设计。

差不多是这样,就是我们现在这个项目还属于比较一个早期阶段,就起码我们现在对有很多一些对我们想要的靶点的活性特高的,对这三个靶点当中,对另外一个靶点的选择性也是非常高。可惜我们这个就是第二个有一个靶点,我们是那个就是生物测试这块它的分辨率不是特别高。所以现在对第二个靶点的选择性还不是特别清晰,还是很有希望。