我们现在就是在这种发现新的一个靶点,我们这样的一个数据库方面,我们相关的一些获取的话,还有它的数据库从你们角度来说,这个怎么样去构建这样的一个数据库,来服务 AI 的创新?
任峰
AI新药开发
2022-12-09
是这样,说我们这个靶点发现的我们叫PandaOmics这个人工智能的平台,它的里面的数据库都包含了 1000 万个组学数据,这里面有这个转录组、基因组、蛋白组和各种其它的组学数,然后还有 4000 万个文献专利的信息,还有政府的经费支持的项目的信息。所以我们的数据库很全,还有 200 万个小分子和抗体药的信息,我们有几千万个分子片段的信息在这个库里面,所以我们的库其实是很大的。用于靶点发现,我们主要是通过组学数据,尤其是转入组,去做这个靶点发现,同时用文献专利我们叫 text base 的那数据去对这些找到的新靶点进行验证。

那个组学数据,我们主要是通过一些公开的数据库收集来的,这个像刚才陈总说的一样,那些数据是在那但是你如何把它说标准化统一化,而且把它整理成你自己机器可读的这种格式,它需要大量的时间人力物力。我们其实有二十几个生信的员工从2014 年开始,我们一直在收集这些数据,把这些数据按照我们的格式标准化的格式去做成我们的机器可读的格式,对我们的这个算法进行训练和优化,所以我们目前的数据 95% 以上都是这些公开的数据来源,但是以后我觉着可能我也非常同意陈总和赖总的说法,就是以后的 AI 的竞争,从目前的算法之间的竞争可能慢慢以后要过渡到数据之间的竞争,你可能以后的 AI 公司都要有自己的一些独有的数据,所以这样的话才能让你不光是在算法方面处于领先,而且让你在数据的方面处于一个更领先的地位。
 
所以从这个角度来讲,英矽智能我们也是目前正在建立机器人实验室,通过机器人实验室来帮助我们做更多我们需要对训练 AI 的模型需要用到的数据有针对性的收集,产生这些数据来帮助我们去更好的就是优化我们的模型。目前我们大多数都公开的,以后我会我们会有更多的越来越多的这个自己自有的数据。

很早大家都在谈 cadd ,可能把 cadd 也认为是 AI ,那我们现在也有说叫 aidd ,这两个到底是怎么个区别的?
任峰
AI新药开发
2022-12-09
可能这个区别用一句话就可以说清楚,可能 cadd 它的主要功能是帮助你对已知的这些结构做评估,它可以帮你计算它的结合的能量,主要的功能是做评估。那aidd 它的最大的优势在于它可以从无到有的生成,一个主要是做评估,一个是从无到有的生成。因为 AI 的话它是比如说你给它一定的输入的这些数据或者是结构,它能帮你去生成新的结构。那 cadd 必须得建立在已知的结构上,对其进行一个评估,进行一个排序。所以这可能是两者这个我个人认为最大的区别。
 
那到底从概念上有什么区别?其实我觉得一个最主要的是生成,然后另一个是帮助你评估,其这两者是可以结合的。比如你通过 AI 的方式,你产生这种新的这个获户之后,你可以通过 cadd 的比如说很多公司用微软的这种算法去帮助把 AI 产生的这些小分子化合物进行一个评估,进行一个排序,这样的话让你可以你的命中率会更高,所以这两者应该是一个互相结合的一个关系。


AI 本身是数据算力算法这三个是三要素。那对于咱们现在因为也需要大量的数据,我们对于这个数据我们怎么获得?
陈亮
AI新药开发
2022-12-09
毫无疑问,一讲到 AI ,数据库成为一个非常敏感非常热的话题。刚才我看到的底下这个这留言,很多人就在问到这个数据哪里来的,公共的是哪里来的等等。那么我们讲我们大湾生物的,大湾生物本身它这个主要集中于生物 cmc 平台。
 
所以比如说我们现在在做的是通过这个 AI 来在寻找高产的细胞株,所以我们在说通过细胞影像来做,所以这细胞影像本身实际上 public 是没有这份这次这些information ,所以我们实际上是我们自己创造的这个这样的一个数据库,这是第一个,第二个就是我们通常你要数据库,你要高通量,所以我们实际上也是有 IP 保护的,如何来在短时间内找出大量,迄今为止我们已经有 8000 万,快一个亿了,8000万的细胞的影像被处理过吗,是 18 个 T 左右,是这样情况。我们从商务角度来说。那么这个数据库实际上是我们在大湾生物在用人工智能应用生物制药,特别在这个细胞株平台上,是它一个天然的一个屏障。换句话说,今天其它人要做的话,比如说你买人的影像,你到公安局可以买海关去买,你的 X 光片你到医院去买,那么任何一个人想要做的话都是要 start scratch,不管你多有钱多有经验,都是从 0 开始做这样工作。
所以在我们大湾生物在生物制药这一摊的数据库不光是细胞株,培养基也是一样,培养基的话这个我们也是自己创造的,那么未来我们还有一些做的项目的话,我们已经预测这些东西是 public 基本上是找不到的,都是需要我们自己来做。所以实际上对我们这个 AI 加生物的公司来说是很大的一个挑战。所以你还没开工之前,你必须要想清楚如何能够在短时间内能够有一个我们叫 clean data ,就是比较有效的 customize data 这是很重要的一个东西,这是第一个。第二个我想也是 clarify 下一个idea ,就是 concept ,通常打交道大数据的时候一想到就是几亿个数据、几十亿的数据。 那么这是不一样的,实际上完全要看你这个项目它的这个我们从逻辑上来说它的相关度少,如果它中间的一些 relationship 一些关系,或者你像用 AI 来找的关系已经是比较明显的,那实际上你的数据量未必要大。那么有些数据就是关系是非常的微小,所以你数据量必须要大通量。比如说我举个例子,今天你说要区别一个亚洲人和欧洲人,你估计举个例子就 AI 就能学出来了。今天你说一个双胞胎,你如何把这个哥哥和弟弟姐姐和妹妹把它分开,那估计要很大的数据量才能做出来。所以这个完全在看你的项目当中,你的这种关系量是否明显才能决定这个事情,所以这个是我们从数据库的这个角度来讲。
围绕这个靶点发现又搞了个小分子,这一块能不能把就是这一块?我们如果从人工的一个角度跟从 AI 的角度两个对比是怎么样的情况。因为我们要看看 AI 是不是真的有真的就是颠覆式的?
任峰
AI新药开发
AI技术
2022-12-09
AI 肯定是颠覆式的,就算现在不是,以后也会是。所以这个我相信在座的几位肯定是深信这个的,如果你们都不相信了,那就没人相信了。所以刚才波总说的对,目前绝大多数的 AI 的公司,它所做的小分子化合物,它目前进入临床的都是针对一些已知靶点,或者是已经有在临床上验证的一些靶点,然后通过它的算法产生小分子化合物进入临床。就是刚才波总说的针对这个一些旧的靶点,产生这种新的小分子化后或者是有差异性的小分子化合物,这是因为大家想希望能先通过它们的这些分子的设计,因为分子的设计最容易验证,就是说你设计出来小分子之后,你在这个筛选平台上测试一下,你看看能不能跟这个蛋白结合,你就知道你设计的分子是正确的还是错误的。
 
 
我觉得小分子设计是最容易验证的一个环节。那就是大家还不想冒险做这个完全创新的靶点。因为靶点的验证不是说几个月的时间或者是一两年的时间,它需要更长的时间,它需要你在临床前的验证。然后在临床上,最重要的是在临床上去验证这个靶点是不是正确的。而且靶点的成功率特别低,就是传统的靶点发现,据统计在 2010 年 nature 的文献上一篇文献上报道,说它的成功率只有 1% -5%。那你说在这种这么低的成功率的情况下,如果你就算是通过 AI 的加持,你可以把成功率提高,你比如说提高三倍五倍的,你也只是从 1% - 5 %提高到 5% - 25%。其实你的大部分的靶点发现还是这个失败率是比较高的。这也就是为什么主要的这个玩家就是 AI公司,目前进入临床的都是这种针对已知靶点的。
 
那英矽智能,因为我们有两个平台,我们一个PandaOmics主要是通过病人的组学数据,尤其是转录组或者是其它的组学数据,来对比病人和健康人的组学数据,找到其中的差异,就是最明显的差异,然后同时结合我们在这个信号通路激活上的一些通过文献专利的这些验证,我们去找到我们认为比较新颖的靶点,所以我们有这样的一套靶点发现的方法,而且我们深信这个从病人身上去找到这种跟疾病相关的靶点是比从传统的靶点发现是从生物学去关联疾病,我们认为更靠谱。所以说我们就愿意冒这个风险去从早期的靶点方向开始,用我们的PandaOmics去找到一个针对特化用肺纤维化的一个全新的靶点,然后利用我们的Chemistry42生成化学的 AI 平台去找到小分子化合物。目前我们这个临床前的验证已经全部做完了,我们现在这个化合物已经进入临床一期,我们希望能很快的在今年年底或者明年初进入二期的验证,希望能在真正的病人身上能验证我们找到是这个创新的靶点,找到的这个小分子化合物能是针对这个特化性肺纤化的病人能带来临床上的疗效。我们觉得这个工作虽然有一些风险,但是它可能给整个 AI 行业带来的刺激的效应是非常大的,说明你 AI 不光能设计小分子化合物,你还可以从这个生成生物学的角度来找到这个新的靶点。所以这就是我们的治疗特化用肺纤维化化的这个项目临床一期的项目的一个故事。

从 AI 的一个角度去做你们现有的一个项目的,然后你们现有项目解决了什么样的问题?
陈亮
药企
新药项目
补体药物
2022-12-09
我过去的几十年的职业生涯,都是在做生物制药的 cmc 这一阶段的,在这个 cmc 其实几个主要关键步骤,比如说细胞株,它必须要一个高产的细胞株,要是稳定的细胞株,那么还有一些好的培养基,还有这个规模化的生产,后面的这些 QC 质量分析等等,所以这些东西实际上是在整个药物开发当中其实是很重要的一部分。
 
除了这个 drug discovery这一摊,要找到新的靶点,找到新的序列,那么真正要把它这个药做成,就是成药性,实际上是完全要看这个 cmc 的功力。那么在过去传统的方法做的时候,实际上是靠经验靠。其实经验积累下来很多的东西都是很难说,因为它本身生物的东西就是一个 uncertain 的一个东西,一个不确定东西。所以很多时候我们在这个过程当中都会遇到了我们叫被动筛选的过程或者被动的得到结果的过程。比如说我们在做细胞株筛选,通常当你转一个基因组的时候,你根本不知道它到底是表达量是高还是低,或者它是稳定还是不稳定。所以我们要通过大量的筛选,有的时候叫 100 块板,50块板,甚至更多的不同的实验来确定这样事情。所以一方面实验要增加了,另一方面的话这个毫无疑问工作量也增加。所以这个给带了药物开发也带来了一个很大的困扰。那实际上在我们过去的几十年当中,大家也是 get used to ,这个还很习惯在做这些事情。
 
那么我们在这做了几十年以后,我在想的是,既然 AI 的技术已经发展到现在这样阶段,当然我们有时候很可能会把 AI 神化,以为是这个 AI 像上帝一样,把新靶点找到,把新的什么东西找到。但是我是觉得现在 AI 的技术发展到现在这个阶段的话,至少是可以把这个自动化的过程,把人类说一些经验,不能量化的一些经验是可以通过 AI 的技术把它反映出来。
 
所以我们在开始这个把 AI 技术应用于 cmc 平台的时候,我们首先集中于在第一个很关键的一个步骤,特别在 cmc 可能关键的第一步,就是细胞株的筛选。那通常一个药物生物药物开发要找高质量,要好的东西的话,通常这个细胞株的质量是很重要的。所以很多的公司在这个传统方法都是花了很多的精力,人力也好,花了很多钱也好,都来买这些好的细胞株,或者来筛选好的这个细胞株。那么这个毫无疑问,对药物开发当中确实是一个很大的 bottom lack,那么在我在过去的工作的时候,也在想着如何来解决这样问题。实际上最大的一个问题就是如果把这样的工作量减少的话,实际上是对,我们药物开发成功率是提高的。
 
什么意思呢?通常我们在我们在 drug discovery找到时,通常有 candidates ,通常有 10 个8个很多。因为后期的工作,有很多的工作量,实际上它是drug discovery没办法把所发现的这些 cavity都能够送到 CMC 阶段。那么它只能是靠自己的经验,10个里面选一个,10个里面选2个往后面走。那么如那从这个概率上来就比较麻烦了,万一你这做错的话就错。所以实际上我们真正的并不是 AI 是因为很热,我们才应用。实际上就是因为 AI 发展到这样的阶段,可以跟生物的痛点可以结合起来来解决一些问题,从 long term wise 从 high level wise ,我们是可以帮助药企能够解决这些最大痛点,就是能够提高它的药物的开发的成功率。
 
那么另外一个就毫无疑问了,就是整个的成本降低,速度加快,这个完全是整个做药,任何一个外行人也知道说这个做药慢的就很贵。那么我们希望是从通过 AI 的方法,至少在 cmc 这个平台上,我们能够帮这个药物开发当中来消除这样的痛点,这是我们这个初衷。