一个是 AI 跟基因治疗的一个结合,对它的未来这块你是怎么样去看的?另外一个对于个其它人要做这个 AI 这一块要加基因治疗的这种,尤其像你这边做的是AAV也好,你有什么样的具体的其它的建议?
韩蓝青
AI新药开发
AI技术
2022-12-08
那么这个基因治疗首先我们要去了解它的这个基因治疗这个靶点到底是什么,这个基因治疗我认为将来很可能会像一个性化的治疗去发展,因为我们就是这个基因病,尤其是我们说的罕见病。为什么说罕见病因为就是一些这个散发的单基因的突变造成的这些疾病,那么它它分布在这个 23 对染色的可以是任何的地方,所以说它每一种突变可能它这个病人的人数不一定特别多,但是它总的加起来了,据说在全球也有 3 亿人,是一个非常大庞大的一个病人团体。
 
那么就是某一个基因病,比如说就像这个 dmd ,Dystrophy这条基因它也是人类的一个最大的一条基因,那么我们已知的这个能够造成 dmd 或者 bmb 的这个致病突变了,就不下 3000 个,那么我们未知的或者说我们的数据库里面还没有收入的,那可能会更多,所以第一步我们要去确定到底哪一个是致病突变,那么我们不管是用这个基因编辑或者是用这个AV带进去一个这个能够解决这个 loss function 的问题的表达蛋白的 DNA ,或者说是用这个小核酸来进行干预,首先你要知道这个突变点制定的突变点在哪,所以这个我们在源头上面,我在清华珠三角研究院,我们一个团队正在做算是一个比较大型的综合性的罕见病基因治疗的一个数据库,那么这个数据库它分三个大的板块基因疾病,还有模型,可以是细胞模型,可以是这个小动物模型,那么我们这个数据库有别于这个 ncbi 或者是其它的这些西方的一些大型数据库,我们最大的特点是我们布置了各种各样的我们训练好的 AI 模型。
 
目前我们马上要上线了这个数据库,目前我们第一步先上的两个 AI 模型,一个是去做这个未知的、突变的这个致病风险的评估;然后另外一件事情就是我去在给你做一个MRNA剪接的预测,为什么要做这个事情呢?实际上现在我们看了很多的市面上的这些第三方的检测机构,说这二代测序以后,拿了报告以后发现了很多突变,到底哪一个是治病突变?实际上很多报告它是没有能力告诉你的,假如说我们在西方的这些数据库里面已经出现过了,它可能可以告诉你,但是对于那种没有定论的、这个没有被收录的这些突变,往往是原因不明。那我们想这是个行业痛点,我们先要找到这个病因在哪,这个时候我们的 AI 在这里面起到了一个非常大的作用。最近我们是在跟一些罕见病人的团体在做这个对接,我们去一个一个的、我们试图去把以前说它这个检测序报告已经在那了,但是这里面还不能给它一个非常明确的这个答案,说到底哪一个是致病突变,现在我们的模型可以至少是缩小范围,至少是能够告诉它,你最有可能、是哪一个突变造成了你的问题。
 
另外一个就是在最近这几年,我们觉得以前被大家忽视的一个致病的原因,就是MRNA的剪接的问题,以前这是经常是被忽视的。实际上我们以前最关心的就是蛋白翻译的这些序列,但实际上有很多是调控序列上面的突变出了问题,有很多不一定是在 exon 上面,也许是在 introne上面出的问题,我们的这个MRNA剪接的这个模型就能告诉你这个突变是不是造成了MRNA剪接的错误剪接。我们现在估计是在 20% 和 30% 的突变是造成了 MRNA剪接的这个错误,这是我们的第一步,基因治疗我们要先去知道到底这个致病突变在哪,我们在这上面也是做了很多的工作,我认为未来的基因治疗一定是一个性化的基因治疗,也许全世界我们只知道是有一个病人是这种突变,那我们可能就针对它来设计一个干预的办法,那就有可能是基因编辑,有可能是比如说是这个反义寡核苷酸,我们可以专门为它设计。
 
那么我觉得假如说想进入这个领域,首先要去把这个问题搞清楚,这个基因治疗你的这个作用靶点到底是不是真正的作用靶点。刚才我看有问题在问,有没有这个 dmb 的小鼠模型?这个模型我们是有的,但是目前 dmd 批的药,还有在临床试验阶段的药,现在有好几款。那么这个时候你对小鼠模型,可能是不同的突变需要不同的小鼠模型,我们也考虑过把这个 dmd 这条线全部的人源化,但这个线实在太大了,所以说你要需要 dmd 这个小鼠模型的话,首先我们要问你要解决什么问题?就是你的致病突变在什么地方,我们会对症下药的去给你提供这样的小鼠模型。

一个是我们在刚才也有人提到了数据方面的问题,我们的数据是越多越好还是精准化这是一方面?另外一方面我们在整个算法的一个设计上,像类似这种是需要有哪些实操性的一个建议的?
段宏亮
药企战略
新药项目
2022-12-08
数据这一块的话其实是它的精准程度相对而言是没有那么重要的,因为它总的来说这个化学反应数据,因为经过几大出版社的整理,它是非常规范的一个数据化、不太存在一些脏数据,所以在这种数据质量保证的前提下的话,它的数据量是越大越好的。哪怕是我们去非常精准地去研究某一类反应,比如说某一类金属偶联反应、Heck反应的话,虽然是我们单纯针对Heck反应,比如说可能能拿到一万、两万这样一个数据量,看起来非常非常的精准,如果我们仅仅用这一万两万的Heck反应数据来做的话,其实它的那样的结果是不太不太理想,因为它所有学到反应知识仅仅是局限在这样一个一两万的Heck反应里边,对其它的一些基本的化学反应知识、基础有机的一些知识它并没学习到,所以一个比较好的流程应该是我们拿到上千万级的这样一个非常通用的、没有针对性的一些有机化学反应,进行一个预训练的这样一个学习,然后的话我们再针对Heck反应进行一个特殊的有针对性的人员强化学习,这样的话就可以达到一个既学习一些基础的语句化学知识,因为能够针对某一个特定的环节反应类型的话,做一个非常那个精准的一些安排,这样来弄,不可以把一些基础的这样化学知识给它抛弃掉。
 
我们在用化学反应来做这样一个 AI 的产品的时候,其实产品最终是要商业化落地的,所以跟我们单纯的这样、来数据鼓捣模型的话,除了这些之外的话,还要考虑一些更加接地气的一些行为,比如说可能需要我们一些做过湿实验的有机化学家或者药物化学家牵扯进来,这样的话它就可以告诉我们一些在那个数据里边告诉不到的一些信息。就像我们之前提到的一些,比如说一个反应,它是在负 78 度的这样一个低温环境下进行这样一个反应的话,多数情况下它搜索起来是比较难的,或者是工业化落地应用的时候会有困难的,这些在数据里面是接触不到的,这样的需要一些产业专家或者是有机化学家来告诉我们如何去应用。
 
再一个,有些反应可能比如一些硝化反应、一些加氢反应,可能它非常之危险,如果可以避开的话,我们还是希望能够避开的。比如说氰化钠的反应,它是剧毒的,操作不当了可能会有生命危险。这样一写东西在数据里里面它仍然也不会标识出来的,这些东西的话都需要我们的一些业界的专家来指导我们的 AI 算法专家来进行一些数据之外或者是模型 AI 之外的一些工作。另外一个需要非常接地气的一个东西,我们一个产品最终商业化应用、最终的实验室里合成起来这样一个商品的话,就不得不考虑它的一个成品成本价格的问题,所以的话可能我们就需要考虑这个试剂,它到底是易不易得,它的价格是不是便宜这个东西到底是一公斤是几百块钱还是一克就要几万块钱,这一些就是一些实实在在的一些操作、执行层面的一些问题的话,可能这些东西的话在一些典型有机化学反应数据库里面可能也是拿不到的,我们在做的过程当中可能也需要自己在结合市场终端把这样一些信息给大家再加入进来,这可能是我们需要考虑的一些比较接地气的一些问题。
它蛋白是动态的,我们这个靶点相应的也是一个动态在变了吗还是怎么个情况?
牛张明
药企战略
2022-12-08
对,这个靶点的是在不断动态变的。我们可以比如说把这个靶点比例成一个锁,然后其实比如正常来说我们做的小分子或者大分子的靶向药物,都是说这个结合靶点的锁孔,然后它可以有一些亲和力,然后再有比如说我们说的细胞分子活性的基础上,然后再做一些成效性的设计,所以其实那个靶点其实在体内是一个千变万化的一个过程。但是我们现在可能曝光出来的这些结构,它是通过一些比如说手段,通过结晶或者冷冻电镜这样的手段,把这一个瞬间使用一个物理的方式把它固定起来,然后再通过一个解析的手段,然后我们就可以看到比如说这个蛋白它的一个 PDB 三维结构是什么样?然后小分子有的时候表达的就是一个二维的平面结构,但实际上不管是蛋白小分子,它都是一个在不断的动态的过程。
但是因为不同的那个蛋白,比如说我们说的别构抑制剂,它可能蛋白更柔软一些,然后可以造成互相的挤压,但有一些比如说像那个传统的一些蛋白,它有些口袋比较刚性,它的变化比较小。

如果再去做蛋白质的一个模拟,我们的差异化的点,我们还能不能找到差异化点?
牛张明
新药项目
2022-12-08
您问的问题非常专业,我可能从最后一个问题先简单说一下,其实药物研发这个整个的流程和周期都非常非常长。然后 alphaFold它开源的那一部分,其实只是在非常上游的一部分,传统上是结构生物学家在做的,然后使用冷冻电镜或者 Xray 来解析,然后但是刚才我们说的这样,我先梳理一下,其实人体里面有很多基因,然后像韩老师这边它会做药物,基因比如说有 RNA、DNA 的一些表达,然后可以在最上游,也就说其实我们刚才说的小分子跟大分子的药物其实是在基因的下游,然后RNA、DNA表达出来以后这些潜在的蛋白,比如说我们传统上说的一些靶向的口服药物或注射性的药物,是作用在这个层面上,然后所以alphaFold two刚才我们说的它做的一个蛋白的预测,它是通过这个蛋白的一个序列,它可以通过序列然后来去预测出蛋白的一个三维的结构。
 
所以其实那个刚才您问的是蛋白动态模拟,动态模拟这个其实它不是 alphaFold 2所擅长的,alphaFold two它其实只擅长去预测出来,就根据序列它能比较准确地预测出某一些或一个准确而稳定的一个结构。但其实我刚才想说刚才您问的那个蛋白动态模拟,因为蛋白在人体内是那个不断的在动态的变化的。比如说它在不同的器官在不同的组织温度和PH值下面它其实状态是不一样的。然后我们刚才说的 alphaFold 2它只能预测出来其中的某一些或某一个比较稳定的一个结构,但是这个稳定的结构,它就像比如说我们在看一个两个小时的电影里面,然后截出来了一个瞬间一样,它像一个照片,这个照片往往不具有一些成效性或者不具有一些亲和力,很难找到一些比较好的口袋,所以其实 alphaFold 2 就是它开源的这部分是比如说对冷冻电镜一起解析加预测比较有帮助,但是其实它只是在药研发领域里面的一个上游环节,它其实开源了以后对我们整个产业是一个非常大的助力,但不是说它开源了以后就直接能做出药来。因为其实这个药物研发过程是非常漫长的,我们就算知道了这个结构,然后还要说至少要花个 10 年的时间用传统的流程,然后才能把这个药通过比如说它的一些成药性活性亲和力,然后再上临床一二三期,所以其实做出来药物的难度是非常大的,只说alphaFold 2它可以在上游给我们提供更多的选择,让我们对靶点和靶点的结构有一个更好的理解。
 

一个对于现在基因治疗的AAV ,在全球,目前来说它有什么样的好处,解决了什么问题?另外一个就是我们用 AI 去解决AAV的问题,是我们用 AI 难道就把所有的做AAV的人全干死了吗?传统的,还是说我也只是解决哪方面?如果你自己要做一个AAV 的东西,你是觉得你怎么样去立这个项,然后你的算法,你是核心设计是怎么设计的?
韩蓝青
AI新药开发
AI技术
2022-12-08
以AAV为例,AAV它作为一个基因治疗的一个现在非常热门的递送载体,它是所有的做基因治疗的公司也是一个关注的焦点,很多人都在围绕着它在做工作。那么它这个载体它的好处就是说它的这个免疫原性比较低,它基本上不会造成太大的这个身体的免疫反应。它具有多种多样的血清型,它可以在这里面去筛选我们想希望要的这些特性,比如说它的各种靶向性,当然它的好处我们可以说出很多,但是它有它的局限性。我们去在设计它的时候,实际上还是要费很大的周折。
 
那么是不是说我们用了 AI 来设计AAV就一定比不用 AI 要好呢?站在我的这个立场上,我觉得这个答案是肯定的。你比如说,我们还是以这个去做AAV的突变为例,还是以我们三倍轴这个地方,它这个是一个高突变区,我怎么去突变它,我就可以去获得一个更好的我想要的具有我想要的特性的AAV衣壳蛋白,那么假如说给你一张纸,一张笔,让你自己去去这变一下,那变一下,因为有的人是有具有这种能力的,我知道有的这个生物学家非常资深的生物学家,它就觉得这个地方我把这个氨基酸变一变,把它疏水的变成亲水的,然后这个地方变一变就可能会具备什么特性。但是我们可以讲基本上,比如说我们这个最近一直在研究的这个 28 个高突变区,这个区域你要是用手用眼去看,给你笔,当你变到第五个第六个氨基酸的时候,这个病毒基本上是剥不出来的,但是我们 AI 预测出来的这个电体,可以在这 28 个氨基酸里面变掉为一,甚至说变掉了 20 个氨基酸,我还能够剥出病毒来,而且有可能会它的这个剥病毒的效率会更高,这个假如没有 AI 的话,这件事情几乎是没有办法达成的。实际上,就是说它允许你用 AI 在一个更大的可能性空间里面去找到了你想要的这些局部的最优,假如不借助 AI 的话,这件事情是没有办法达成。我们实际上也是在这个实践的过程中,也充分的认识到了这一点,所以我们团队里面有 AI 工程师,有做生物信息的,有的专门是做生物学家,做湿实试验的。我们经过一段时间的磨合以后,大家对这种方法论是深信不疑。
 
所以我觉得对AI 立项,我们生物公司要想做AI场景的应用的话,一个非常重要的,就是说要让不同的类型的人要懂 AI, AI 的工程师,生信的专家,还有做湿实验的这个生物学家,能够在一个平台上去工作,用一套思维方式去思维。那么这个非常重要的一点,就是说一般在我们在这个 AI 专业之外的人,经常会对 AI 有一种不切实际的这个一种这个期待,实际上 AI 它是适合于做某些事情,但是不适合于做另外一类的事情,这个普通的老百姓或者说这个专业之外的人往往刚一开始它是不适应这个情况的。所以说我觉得要是很好的一个 AI 的应用场景,要是想立项的话,首先要组建一个能够在一起配合得非常好的一个团队,这个是第一步,不然的话这个大家的思维方式非常不一样的话,这个事情是很难,大家协调一致的去做一个 AI 的应用项目,这个是我在这个我们的团队,我们在磨合的过程中,就是我的一点体会。