一个是我们在刚才也有人提到了数据方面的问题,我们的数据是越多越好还是精准化这是一方面?另外一方面我们在整个算法的一个设计上,像类似这种是需要有哪些实操性的一个建议的?
段宏亮
药企战略
新药项目
2022-12-08
数据这一块的话其实是它的精准程度相对而言是没有那么重要的,因为它总的来说这个化学反应数据,因为经过几大出版社的整理,它是非常规范的一个数据化、不太存在一些脏数据,所以在这种数据质量保证的前提下的话,它的数据量是越大越好的。哪怕是我们去非常精准地去研究某一类反应,比如说某一类金属偶联反应、Heck反应的话,虽然是我们单纯针对Heck反应,比如说可能能拿到一万、两万这样一个数据量,看起来非常非常的精准,如果我们仅仅用这一万两万的Heck反应数据来做的话,其实它的那样的结果是不太不太理想,因为它所有学到反应知识仅仅是局限在这样一个一两万的Heck反应里边,对其它的一些基本的化学反应知识、基础有机的一些知识它并没学习到,所以一个比较好的流程应该是我们拿到上千万级的这样一个非常通用的、没有针对性的一些有机化学反应,进行一个预训练的这样一个学习,然后的话我们再针对Heck反应进行一个特殊的有针对性的人员强化学习,这样的话就可以达到一个既学习一些基础的语句化学知识,因为能够针对某一个特定的环节反应类型的话,做一个非常那个精准的一些安排,这样来弄,不可以把一些基础的这样化学知识给它抛弃掉。
我们在用化学反应来做这样一个 AI 的产品的时候,其实产品最终是要商业化落地的,所以跟我们单纯的这样、来数据鼓捣模型的话,除了这些之外的话,还要考虑一些更加接地气的一些行为,比如说可能需要我们一些做过湿实验的有机化学家或者药物化学家牵扯进来,这样的话它就可以告诉我们一些在那个数据里边告诉不到的一些信息。就像我们之前提到的一些,比如说一个反应,它是在负 78 度的这样一个低温环境下进行这样一个反应的话,多数情况下它搜索起来是比较难的,或者是工业化落地应用的时候会有困难的,这些在数据里面是接触不到的,这样的需要一些产业专家或者是有机化学家来告诉我们如何去应用。
再一个,有些反应可能比如一些硝化反应、一些加氢反应,可能它非常之危险,如果可以避开的话,我们还是希望能够避开的。比如说氰化钠的反应,它是剧毒的,操作不当了可能会有生命危险。这样一写东西在数据里里面它仍然也不会标识出来的,这些东西的话都需要我们的一些业界的专家来指导我们的 AI 算法专家来进行一些数据之外或者是模型 AI 之外的一些工作。另外一个需要非常接地气的一个东西,我们一个产品最终商业化应用、最终的实验室里合成起来这样一个商品的话,就不得不考虑它的一个成品成本价格的问题,所以的话可能我们就需要考虑这个试剂,它到底是易不易得,它的价格是不是便宜这个东西到底是一公斤是几百块钱还是一克就要几万块钱,这一些就是一些实实在在的一些操作、执行层面的一些问题的话,可能这些东西的话在一些典型有机化学反应数据库里面可能也是拿不到的,我们在做的过程当中可能也需要自己在结合市场终端把这样一些信息给大家再加入进来,这可能是我们需要考虑的一些比较接地气的一些问题。
它蛋白是动态的,我们这个靶点相应的也是一个动态在变了吗还是怎么个情况?
牛张明
药企战略
2022-12-08
对,这个靶点的是在不断动态变的。我们可以比如说把这个靶点比例成一个锁,然后其实比如正常来说我们做的小分子或者大分子的靶向药物,都是说这个结合靶点的锁孔,然后它可以有一些亲和力,然后再有比如说我们说的细胞分子活性的基础上,然后再做一些成效性的设计,所以其实那个靶点其实在体内是一个千变万化的一个过程。但是我们现在可能曝光出来的这些结构,它是通过一些比如说手段,通过结晶或者冷冻电镜这样的手段,把这一个瞬间使用一个物理的方式把它固定起来,然后再通过一个解析的手段,然后我们就可以看到比如说这个蛋白它的一个 PDB 三维结构是什么样?然后小分子有的时候表达的就是一个二维的平面结构,但实际上不管是蛋白小分子,它都是一个在不断的动态的过程。
但是因为不同的那个蛋白,比如说我们说的别构抑制剂,它可能蛋白更柔软一些,然后可以造成互相的挤压,但有一些比如说像那个传统的一些蛋白,它有些口袋比较刚性,它的变化比较小。
如果再去做蛋白质的一个模拟,我们的差异化的点,我们还能不能找到差异化点?
牛张明
新药项目
2022-12-08
您问的问题非常专业,我可能从最后一个问题先简单说一下,其实药物研发这个整个的流程和周期都非常非常长。然后 alphaFold它开源的那一部分,其实只是在非常上游的一部分,传统上是结构生物学家在做的,然后使用冷冻电镜或者 Xray 来解析,然后但是刚才我们说的这样,我先梳理一下,其实人体里面有很多基因,然后像韩老师这边它会做药物,基因比如说有 RNA、DNA 的一些表达,然后可以在最上游,也就说其实我们刚才说的小分子跟大分子的药物其实是在基因的下游,然后RNA、DNA表达出来以后这些潜在的蛋白,比如说我们传统上说的一些靶向的口服药物或注射性的药物,是作用在这个层面上,然后所以alphaFold two刚才我们说的它做的一个蛋白的预测,它是通过这个蛋白的一个序列,它可以通过序列然后来去预测出蛋白的一个三维的结构。
所以其实那个刚才您问的是蛋白动态模拟,动态模拟这个其实它不是 alphaFold 2所擅长的,alphaFold two它其实只擅长去预测出来,就根据序列它能比较准确地预测出某一些或一个准确而稳定的一个结构。但其实我刚才想说刚才您问的那个蛋白动态模拟,因为蛋白在人体内是那个不断的在动态的变化的。比如说它在不同的器官在不同的组织温度和PH值下面它其实状态是不一样的。然后我们刚才说的 alphaFold 2它只能预测出来其中的某一些或某一个比较稳定的一个结构,但是这个稳定的结构,它就像比如说我们在看一个两个小时的电影里面,然后截出来了一个瞬间一样,它像一个照片,这个照片往往不具有一些成效性或者不具有一些亲和力,很难找到一些比较好的口袋,所以其实 alphaFold 2 就是它开源的这部分是比如说对冷冻电镜一起解析加预测比较有帮助,但是其实它只是在药研发领域里面的一个上游环节,它其实开源了以后对我们整个产业是一个非常大的助力,但不是说它开源了以后就直接能做出药来。因为其实这个药物研发过程是非常漫长的,我们就算知道了这个结构,然后还要说至少要花个 10 年的时间用传统的流程,然后才能把这个药通过比如说它的一些成药性活性亲和力,然后再上临床一二三期,所以其实做出来药物的难度是非常大的,只说alphaFold 2它可以在上游给我们提供更多的选择,让我们对靶点和靶点的结构有一个更好的理解。
那么现在跟传统的合成对比的话是解决了什么问题?能不能举个例子来说明一下?
段宏亮
医药创业
药企战略
新药项目
2022-12-08
人工智能跟合成就是有机合成或者药物合成结合这一块的话,相比较而言,可能是比那个其它的一些新药发现这一块可能更快、更顺畅的一个环节。反正这个跟有机化学这一块这个数据量特别大,你们那个有机化学反应数据库其实是非常之庞大,可以达到几千万这样一个数据量,而且这数据量非常之标准,非常之规范。因为像美国和欧洲的一些公司,它们其实已经把这些数据给整理出来,所以说这是在整个 AI 制药链条里边难得的有这样的几千万上亿的数据,数据又非常之规范,因为我们有机化学家经过了两三百年级别的这样难得一个场景。
所以的话,大概在 2017 年左右的话,其实国外的科学家其实就在nature发过文章,就是可以用我们的人工智能来实名网络,模仿AlphaGo这样的下围棋的一个程序,它们的程序这个逻辑因为跟AlphaGo非常像,进行对一些新药物的药物分子做一些药物的路线设计。简单来说是给一个比如说给青霉素,以青霉素为例,当然青霉素它多数是发酵出来的,以青霉素为例,它可能是通过一个很小的药品,比如乙醇、乙酸、苯环这样一个东西,怎么样一步一步的把青霉素合成出来这样一个路线设计问题,那么 AI 的话就能够做到一个非常好的一个结果,给我们这样一条路线是怎么样过来的。
同时的话它那个这样一个路线设计出来之后的话,这就属于刚刚王总说的,还是一个干实验的部分,那么湿实验就是我们在实验室里边要把它来验证出来,要把它一步步的加热,这样氧化还原水解这样一步反应给它做出来的话,需要在实验室里面一步步的给它试验出来。平时怎么做呢?这里可能需要我们再搭一个化学反应器。传统的话就是像药明康德,药明康德可能有数有上万人,以及上万人的话,它们只是所采用的传统方式,在人为的资本里来作为自己的合成反应,那么如果我们 AI 介入之后的话,其实就可以模仿无人驾驶一样,我们能不能出一个整个 5G 合成机器人出来,通过无人之手,通过电脑控制一些硬件设备、控制一些反应器、控制一些后处理的这样一个过程,把这些化合物这样一步步的从乙醇小分子开始慢慢地把青霉素合成出来,这是我们这个 AI 合成的另外一个湿实验或者硬件部分的这样一个课题。
现在结合的一些具体的案例来说的话,也都是前面的路线设计部分,路线设计部分就是理论部分的话,总的来说针对大多数的化合物,甚至包括一些天然产物分子,人工智能其实是可以达到一个比较不错的口碑,应该说可以超过大多数的有机化学从业人员,当然比不上一些高手。但是说是针对一些比较复杂的全合成分子的话,这个AI还是比较欠缺,但是在执行层面,就是硬件层面,像无人驾驶这样控制有机化学流程反应的话,其实现在相比而言还停留在一个概念性阶段,有时候我们可能看到的 MIT 哈佛的一些实验室,或者在 science、 nature等上面发表一些整个无人之手合成某个药物分子这样一些case 。但这些 case 往往比较简单,比如说合成阿司匹林,可能本身它就只有两三步的这样一个比较简单的一些步骤,不会涉及到一些复杂的无水无氧、低温负78度这样一些反应条件,你去使用一下或者是稍微进行一些加热操作,它是可以完成的。这些里面比较长的一些步骤而已,二十几步的一些药物分子或者一些异常天然产物全合成的话,其实现在整个 AI 的智能控制这一块,其实还是做起来还是比较有难度的,但是这是一个这个未来可期的过程。
因为总来说这个 AI 药物,它们机器人相对于无人驾驶来说还是要简单的多了,其实毕竟这个东西的话不会牵扯到人命,不会牵扯到车子,汽车失控了之后,可能会发生一些伤及路人或者是司机会有一些生命危险,这个反应的这种控制的精度我们并没有要求那么高,大概率不会发生爆炸这种事情,只是说会影响我们的一点点产率、一点点经济收益或者是时间的跨度会稍微长一点这样一些事件。所以来说的话,这个过程相比较于无人驾驶来说,肯定难度是要明显低很多的,所以我们只要加以投入时间、投入一定的关注度、财力、物力的话,这个问题一定是可以解决的。所以我们可以预见,这个时间跨度也许是 五 年也许是十年之后,我们药明康德里面可能会有从事合成的人员,可能会有上万人,上万人的话可能就会逐步的会出现一个辅助替代的过程,也许在 10 年 20 年之后,也许在以后实验室里边,我也很少能看到摇瓶子的有机合成人员,更多是一个机器在操作的这样一个场景,这样一个场景是未来是极其可期的。
能不能把难成药靶点正好也稍微谈一谈,另外一个就是咱们现在就解决什么样的一个难成药,是所有的还是聚焦几个?然后项目进展是什么情况,什么样的一个成果呢?
牛张明
新药项目
药企
业务布局
2022-12-08
难成药靶点其实就相当于已经成药的靶点而言的,然后现在已经成药的大概有几百个靶点,然后基本上上市的药物都是围绕着这些开发早、比较成熟的这些靶点,因为有很多蛋白结构还没有被解析,还有很多靶点的药效机理还没有被验证。但是据统计,现在已经潜在成药性质大概有几千个靶点,所以大概现在市面上有百分之九十、百分之八十左右的靶点都可以归类为这一类难成药靶点。然后因为它范围比较广,所以其实比如说它包括几个不同的类型,别构抑制剂像段博士刚才提到了,属于难成药靶点的一类,然后另外的话像 gpcr 靶点或者说使用 PPI 蛋白降解,都可以算作难成药靶点。然后我们公司主要也是针对于这一类的靶点上面进行发力,首先这一类的靶点它使用串组的手段,开发难度是非常高的,使用的周期和花的钱都非常多,还有很多是花很多钱也做不出来的,所以我们希望是通过 AI 的平台技术可以系统化的解决这一类难成药靶点的一些问题。
所以我们自己像在去年开始做了一些管线,包括给一家上市药企成功的 deliver 过一个PVC 的成果,然后这个管线已经进入到 IND labeling,所以在今年大概 Q2 到 Q3 的时候也可以上临床。然后我们自己也有一条难成药的靶点,是一个 gpcr 的靶点,我们在非常短的时间内就已经拿到了 PAC,然后去年年底的时候已经开始在做 IND 的 enabling study 了。所以这就是我们自己切身看到的 AI 确实可以像你说的像一个工具一样,我们如果把药化和计算化学这些方式跟 AI 结合的更好的话,是有机会在传统的药物研发就是生命周期里面可以大幅的缩短周期,并且提高成功率的。
推荐视频
0
2024-07-12
0
2024-07-05
2589
2024-06-25
0
2024-06-28
3873
2024-06-21
2659
2024-06-18
3699
2024-06-16
3424
2024-06-12
5893
2024-06-14
2702
2024-06-11