可能也会有一些麻烦,那你们现在因为对于自免来说,你也要有你的相当于自免这一块相关的一个数据库这个相关的一个,还有就是算法,这方面的经验能不能给大家分享
自免数据库
王波
2022-12-13
分享
许大强
32
那个就是你刚刚才 common 我非常非常赞同,就是 AI 确实是个,这个工具谁都可以用,小白也可以用,大咖也可以用对吧?其实用起来的效果也不完全一样。对小白应用得到小白可以应得的结果,大咖应用大咖得到的结果。其实最后做药还是要一定的经验,就是你同样的工具,你可以做出来美轮美奂的一个家具。然后另外一个人可能就连个板凳看上去都不像个样对吧?所以还是就是我觉得它是非常有用,但是看你怎么用,这是我对那个 AI 的看法。
今天我一到那个前面,你有个问题说是咱们跟人家的差距有多大?其实我觉得这个都应该是我们 AI 这个领域,应该是我们起步并不比人家晚太多,就是说还是就是 AI 的基础基本算法。除掉程涛博士,他是从那个姚班出身,倒是 MIT 一直在搞这一套,就是可能自己去创新一些,就是技术。大多数我发现这个 AI 工具,它的底层算法那个框架还都是不是我们这个生物医药这个领域人发现的,我们都是在人家的基础之上进行一些修修补补,改动一些东西。这是我的那个就是一个也算是一个激励。
另外再是你提到那个就是数据,其实数据今天是所有人都面临的问题,没有一家可以称自己的数据很够很多,因为这个你 AI 技术,你这个你是数据越多,它你那个模型可能会越,模型才会越准确。你我们跟那个就是自然语言识别,还有这个图像识别,这个那个数据是没法比的,人家那个互联网,也在他那个什么数据,那我们这个数据才几个对吧?所以这是一个数据量是严重不足,你要靠我们就是说公司去收集,不管是大公司,小公司,这都是有限。有人说大的公司它的优势就是数据量多,它这多也只是比如说一个数量级的多,但一个数量级的多还是远远不够硬,就是说怎么其实在我们这个领域是怎么能够去把尽量用这个仅有的就是有限的数据,能够得到一个就是还可用的一个模型,我觉得这是我们要掌握的。比如说你现在小样本学习,迁移学习这个什么,那主动学习,这都是不同的方法解决这个样本量不足的一些问题。
我特别是觉得那个就是用主动学习的方法能够快速的,就是我不需要收集,比如说他能够给我指出来哪些数据,哪些领域我可以我需要补足一些数据,不需要收集什么上千上亿这样的数据。然后这这可能就要几十个几百个,我就能得到一个比较可以合用的一个模型。还有就是我们因为还有一点就是我觉得我们经常会忽略掉,我们毕竟是科学,化学,生物,物理,有很多有些数据可以通过基就是那个原理基本计算得到,这样可以弥补我们在实验数据上面的一些不足。
这个东西比那个很多一些,就是经验公式,或者是最那个基础的写那个就是quantum-mechanics calculation ,其实算的数据都挺还挺准的。就是特别是我们现在比如说我们现在做建那个就是那个 tissuse activity 这个模型,那数据量很小的,你就几千个样本,然后可能几万条一一两万条数据,它文献让我们就找了好多些文献,那你就必须要自己产生数据,产生数据你要看看,根据你分析看哪些数据可能对你这个参数可能最有用,就是它的最重要。然后你去就收集有针对性的计算或者收集这些数据,这是我们一个方法。我们不是说有海量的什么数据库1,数据库2,数据库 3 ,那个可能大多数没有用,而是针对我们所需要,然后去产生一些数据。
评论(0)
登录后参与评论
相关问答
-
对于刚才提到那个未成药靶点痛点什么解决方案能不能再具体稍微展开一下?通过这个如果我们对这个未成药的这个因为你刚才也提到很多是蛋白的一个结构,一会有要么没有,要么
对好,谢谢。对,这个还是一个挺有意思的这个问题,也是我们最近确实是一直在探索的,就是 again 就是难成药靶点这个其实是像裴老师这边说的,就是说他有巨大的这个商业价值,也有很大的这个社会价值。但同时确实是很少有这个 validation 然后可以去做它数据类数据来讲的话,相对来讲也比较少。那数据少这个问题其实刚才我也讲过,就是可能用多模态或者是 transfer learning ,就是迁移学习或者元学习这种方式我可以在一定程度上解决。那另外一套方式其实就是,更多的去带入到一些第一性原理的这种方式,我们可以去有一整套新的方法论可以去做。那比如说就刚才讲到了这个没有结构的这样一个靶点,这个其实是我们自己内部的一个真实的项目。那这个没有结构靶点的话,首先是我们可能用一些方式我们去做一些这个结构的预测。那可能现在已经有现成的像 alpha fold 2或者是RoseTTAFold这边的话,其实已经可以给我们一些初步的这样一个蛋白质三维结构了。但是光有这大 V 这三维结构的话其实是不够的,我们还需要进一步的去刚才讲到了这个 complex ,这个比如说怎么样去根据目前的这个三维结构,以及它比如蛋白表面的一些特征的这个信息,我提取出来之后,我能进一步的预测,比如说哪一块可能会成为我的这binding pocket,可能会成为了这个结合口袋,然后以及这个结合口袋我找到了之后我做这个 global docking,我找到了之后,我怎么样用这个小分子给结合进去,然后有一个比较好的这样binding pose而且实质上它在物理上面也是 visible 的,这个其实还是一个挺困难的这个问题。那我们最近刚才讲了这个 T bind 其实在一定程度上解决这个问题,就是现在我就可以直接去预测到现在一个单靶点蛋白质这边它的这个 context大概是什么样?那么在下一步的话其实就是 OK 我现在已经知道一个虚拟的这样一个 context 是什么。那我现在就是根据刚才大家提到比如说一些分子设计、分子生成、分子优化的这些算法,然后我可以找到一些更多的这种分子,然后使得这个分子能够跟现在在这样一个binding pose下面的话跟我的蛋白的话更加契合。那在这边的话其实我们有一整套自己的这个完善的程序叫HSH,这个主要是我们收集了很多不同的专家这边做的优化分子设计这边的这个经验。因为刚才其实包括裴老师,徐老师这边也都提到了,就是其实专家经验这边是很重要的。那尤其是在化学这边,我给我一个分子之后,我怎么样去涉及到更好的这个分子?它其实是有一些经验和方法论是可以总结出来的。比如说现在我遇到这种情况,我有哪些集团,我可以换成另外一些集团,或者是比如说一些这个常见的 Python 比如说开环闭环或者加环减环这种,这种的话,其实都是可以通过我们不断的去积累数据,然后比较通用的这样一些roll,然后把这些roll再丢到我们的这个 AI 模型里面,它能产生特别大量的这个分子。而这些大量分子一方面的话它是符合药化学家这边做AI ,做这个药物发现或者药物优化、分子优化的这样一个直觉的。但同时的话在一定程度上他可以跳出他原本的这样舒适圈,就是他可能因为有太多的可能性了,他可能没有办法完全想到。那这个时候的话我们可以帮他去想到更多更广阔的化学空间,是专家这边没有想到或者没有意识到的。而这更大的化妆空间,然后再结合上我们自己的这个 context 的结构,我就可以做基于结构的这样一个筛选的这样工作。那这个东西做好了之后的话,我就可以继续往下去推,比如说这个怎么样去优化或者怎么样。对,所以这个其实是一整套的这个方法论。当然就是说这个前提是什么前提就是说,我基于结构的这样一个预测或者筛选的这个方式是 work 的。那这种情况下,一种是我刚才讲用 AI 的这个方式,我可以用 multitasking 或 whatever这种多模态学习这个方式我可以去解决。那另外一种方式其实就是基于第一性原理,比如说我们自己也有这种自己产生的这个立场和 FP的这个系统,我们也可以用一些商用的系统,薛定谔这边 FP plus 这边的话,其实都是可以去作为一个我们产生数据和做一个预测的这样一个方式的。对,所以这块其实是一个这样,不管是就比如数据多还是少,他这个 AI 模型好还是不好,我们这个第一性原理的这个模型的话是可以作为一个保底的。那接下来的话其实就是一个传统的这样一个过程。就是我去合成,然后检测拿到更多的这个数据之后的话,我可以去进一步去 refine 我自己的,不管是我的立场也好,还是我的这个 AI 模型也好。那在这个有了更好的模型之后,我再去设计更好的分子,然后再用更好的模型去筛选出来更好的分子,然后再去合成和检测。这样整个循环的话,整个 AI 的模型或者是传统的这个计算化学的模型,它其实会越迭代越好。对,所以这个是这样一个流程。32 2022-12-13
-
对于现在有很多我们看到像英矽智能,他们这一块也在做一些,比如甚至他们这个靶点发现第一个已经进入临床。另外我们对于还有很多的一些靶点的话,我们包括前面有嘉宾,它是
对,感谢主持人这个问题。对,然后我觉得未成药或者男成药靶点其实是现在刚才其实也讲了,就是现在在内卷的时代,不仅是这个 AI 公司内卷,biotech也内卷,管线也内卷。所以就是说难成药为什么要靶点,其实是在内卷时代突破内卷的一个两方。但他们确实为什么未成药或者是难成药,他们也是有原因的。像刚才大家提到的最主要的一点其实就是数据很少,就是如果是它数据很多的话,一般来讲他可能就是已经做了很多年了,然后而且已经有药甚至上市了,对,都不是一二三级而上市了。那这个时候它其实就不算是一个难成药或者未成药,发现它已经是一个比较成熟的这个靶点了,这是一种。那我觉得还有一些其他的这种,各个数据模态的这个缺失也可能造成。比如说他这个难成药未成。比如说刚才大家讲到的,比如说有些靶点它可能是没有结构的。这种情况下的话,我们在原来比如在 alpha ford 2出来之前,我们可能是没有办法去确定它的这个结构,也就没有结构的话就没有办法基于它的结构我去设计分子。对,所以这个一整套其他的方法论的话,在这个是这个没有结构的这个情况下是没有办法用的。或者是即使有了结构,比如现在我们有了alpha ford之后,我预测了这个蛋白结构,刚才主持人也提到就说我是不是有这种蛋白动态的这个问题?比如说一个小分子接近一个蛋白之后,它会有binding pocket ,那这个东西是不是能看到或者说是不是能看到?比如说它在跟小分子结合的时候,他的构象发生了一个变化,构象发生了一个比较本质的一个变化,使得他原来没有可能看不到一些binding pocket ,现在能看到,然后结合上去了。我觉得这个其实也是一个问题。然后再包括这个其实就在归结到这里面的话,其实就是我没有蛋白和小分子结合在一块的这样一个complex 的这个数据。那没有这个数据的话,光有结构的这个数据其实也是不够的,我可以去做dopin,有很多这个软件都可以去做。但刚才裴老师其实也讲了,就是说我现在就是这么多家做同一个靶点,这个dopin仍然就是说前 50 前 100 都没有什么 overline 说明什么,这里面参数很多,而且确实就是大家对这个问题对这蛋白这边的话理解是不够的。所以我觉得这些问题可能都会造成这种难成药或者未成药靶点。那他一直之所以会成为难成药或者未成药靶点的这样一个原因,那这里面的话其实就是我们可能就需要各个击破了。比如说首先刚才讲到一个最主要问题,就比如数据少的这种问题怎么办?那实际上就是刚才也讲到了,可以有很多的不同的这种方法论可以解决。那不管是在小数据上,我去做这个 zero shock learning 或者小数据的这种学习,或者做 multitasking 就是多任务的这个学习。在算法和数据模态上面的这个增强,使得我可以在小数据的机制,它这个数据非常少甚至没有的这样一种情况下,我可以做到更好的这个泛化能力和更好的预测能力。那当然也有这种比如说极大的增强我们这个模型泛化能力的这种 case 比如说我们前一阵子在 GCM 上面发的一篇 paper 就是我们当时是跟阿斯利康这边合作,把这个设计了一个一整套新的这个算法基于蛋白的结构和小分子的结构这边去它的一些 local 的这个结构,一些局部的这个结构,我去预测它的这个结果到底是怎么样的。那这块的话其实就是解决了一个很多其他 AI 制药的一些相关的算法都没有解决的问题。就是说我的泛化能力,就刚才哪个老师也讲到了,就是说我现在可以训练很多模型,然后在我的训练集上表现很好。但实际上一到真实的情况,一到真实的药物研发的数据上面的话就来话。就是因为现在它的泛化能力其实相对来讲比较有限的,所以我们就是通过这个提取结构的一些信息,一些相关的 feature 在下游这边的话,可以做到一个更好的有更强的泛化能力的模型,而这些模型恰恰可以解决一些小样本的这样一个问题。那还有就比如说刚才讲到没有结构,那可能在一定程度上可以解决。就是说比如我现在没有结构,我也可以用alpha ford去预测一个大致的这个结构,然后我去做docking 或者怎么样。但这里面的话也有一个问题,就是说我现在假设蛋白结构是刚性的,那可能这个我直接去做 docking是可以的。但如果它柔性比较强的这种情况下怎么做现在是不知道。那再进一步。就比如说我现在有一个蛋白有个小分子之后,我想知道它们结合在一起是什么样?基此我去做一些基于结构的药物研发和药物设计以及药物分子的优化。那这种情况下怎么样去计算到?比如说我们这个 complex 这个其实也是,不只是我们也是所有的 AI 制药公司其实都在关注的一个点。那我们前一阵子做的这个T bind其实就是在一定程度上解决了这个问题,就是给我的蛋白质给我小分子之后,我可以在一定程度上可以去预测它的这个符合物的结构。然后基于这个结构我再去做优化的时候,我就可以有的放矢,做的更准。其实现在就下游的这种 AI 的这算法不管是筛选也好,优化也好,这边很多算法的话相对来讲已经比较成熟了。但是有的时候就是说这个 gap 比如说我现在没有这个 complex 或者没有结构或者数据,数据比较少。在这个最前端的时候这个数据模态的一个缺失会导致后面的话就是基本很难去做的。对,所以我觉得这个东西就是难成药未成药靶点这边的一个痛点或者挑战,而 AI 这边的话我觉得是有很大的潜力可以去解决这些问题的。32 2022-12-13
-
因为现在有这么个情况,你说 AI 码前几年确实是只要提到 AI 的话,就马上哇塞牛高大上。那现在 AI 也多了,有点这种感觉也开始内卷了。从 AI 的一个角度来
对,这个我现在可以简单去从这个大面上聊聊,然后可以结合一下这个技术场景。首先我觉得作为这个评判 AI 公司的这个标准的话,最直接简单的一个方法其实就是三个方面就是 AI 方面,就是算法、算力和数据。其实就这三个方面,那所以实际上我们会面对很多不一样的这个情况。那这里面刚才你也提到就是说数据这边,它可能是有多有少,它可能模态的话这边有是不太一样的这地方,那我们是不是可以用不同的算法或者不同的数据清洗方法能够做到。所以这块我觉得是从能力上面来讲的话,其实是有比较大的这个差别的。然后另外一个从结果上或者从那个能够 deliver 的这个东西上面来讲的话,这个刚才两位老师也提到了,就是一种是人家做到我也可以做到,人有但我可能做得更好。对,人有我优或者就是别人干脆就想不到。比如说我现在一个药化学家,我去做一个药物设计的时候,其实比较难想到一些特别好的这种分子,或者说可能有很多这个因为化学空间很大,所以有很多化学空间的这分子的话其实想不到的。那这种情况下 AI 可以想到,甚至可以设计出比药化学专家经验经验这边更好的分子。这个就是人无我有,就我可以做到一些人做不到的事情。那这个东西的话其实就是落实到,比如真实的这管线上。那就是说第一,比如说现在已经有要的这个管线,我是不是可以做到更好,比如说更好的这个差异化。刚才其实也有老师提到,比如说我做一些选择性,比如说我做别构位点,这个其实就是一个非常直接的一个 case 。那对于我们来讲,其实我们有一个管线其实就是这样的,做也是一个肿瘤相关的一个靶点。那么它这里面其实有相对来讲比较多的不同的这个突变类型。那这块其实跟刚才徐老师这边提到也是就是说,就是可能不同的突变类型这边的话,它可能需要它的结合口袋,它的这个位置以及比如它的大小形状这边其实是有变化的。那这种情况下,光靠我们人力原本的这种方式,我们去做这个药物设计的话其实是会比较受限的。那在这个时候话可能就是人工智能这边 coming to play 我去设计一堆分子之后,我挨个去筛。比如这个这个口袋那个口袋大概是怎么样去 feed 进去的,是不是可以都 feed 进去?那这种情况下的话可以就做到,就是原本可能就是没有办法做到,就是说这么多靶点我都可以去抑制。那现在的话我就可以去做到这件事情了,包括一些激酶类的这靶点。刚才也讲到,就是说我们一般可能不去选择做 ATP binding pocket 因为这个 binding pocket 这大家可能都有,如果我直接结合那个位点的话,可能会造成我这个它的激酶相对来说比较脏的。但这个时候其实我们也可以用类似人工智能方法,就是说我直接在筛选的过程中,我就考虑到它的不同的这个靶点,它可能在结构上面或者各种跟之前的这历史数据上面一细微的差别。然后根据这个东西,我们能去找到那些 highly selective 就是特别具有选择性的这些分子,然后去做。所以这个其实从两个方面,一个是从能力上面,从结果上面,这个是它的一个核心的东西。所以刚才您讲到就是说 AI 公司发展了很多,确实现在其实挺多 AI 公司,然后也都在做很多。不管是创新型的这个算法也好,创新型的管线也好,其实都有。那么我觉得去评判一个公司这边的核心竞争力的话,我觉得其实就主要是从技术上的话,其实主要从这两块。那当然还有比如从管线上面来讲,刚才徐老师也讲了,我们可能有很多不同的这个靶点的,或者是系统生物学这边,我们可能找到不同的新的靶点,那这个就是更像一个传统的biotech这样一个思路,我去做一些 differentiation 了。对这块我觉得就是大概是我理解的,就是说对于在这样一个内卷的环境中,对于一个 AI 的公司,它的核心竞争力和壁垒大概是什么样。好的。32 2022-12-13
-
因为我看一下咱们现在也有个项目是针对乙肝这一块的,乙肝这个治愈的一个方向。对这个潜在靶点,已知蛋白我们全球也是尝试的比较早的,那你这个东西的话对乙肝这里面的,从
这个我们做hbv的项目其实主要是因为,那个目前 hbv 的药虽然有一些吉利德的一些药还有那个上市的,但是目前来说我们还是需要更多的药。那么现在包括这个合一合类的那个抗乙肝的药目前处于临床期比较多,如果这块的有上市的话,其实对广大的乙肝患者是个福音,就是这是一个新机制的药。但我们考虑的就是比如那个北京生命研究所等ntcp 是吧,他发现乙肝的受体,那么他们也根据这个在做抗体药。那我们考虑就是说从这个新机制的角度考虑,就是我们考虑这个乙肝病毒cccdn的形成,那么它会导致这个乙肝难以根治。那所以从这个角度我们考虑是不是想办法把这个乙肝的cccdn的形成这块给它 block 一下。这样的话另在从一个新的基础上也可以产生一个药。而且从这个原理上来说,它是一个根基型的一个方案。就跟你说他就是阻止病毒那个潜伏在这个细胞核里边,那样否则的话你可能只能达到功能性治愈,而不能达到根治。所以从这个角度,我们去分析了他整个这个 ccdn 合成的那个通路。然后从里面选出了些 potential 的一些靶点。当然我们从各个方面,无论是从 AI 方面,我们用各种的就是有点像成涛说的,但这个不是一个多模态,就是我们从多个角度能来看他这个靶点都是 potential 的一个 target ,然后其次就是我们从结构的角度,从结构的角度发现这个蛋白,它的那个bionisite的也是个非常适合药物的bionisite的。那么从我的模型来上,从结构上它也是一个 target 当然就是还有从生物学上的,就是你那只能是因为人体太复杂,你得了解它的生物学,从生物学角度也有一些证据,有些 paper 还有公开发表的 paper,那么可能这证明这个靶点还是潜在的一个可要靶点,所以我们就那个就开始做,当然这个项目风险还是挺大的,因为这个我们选择的这个能不能成为一个靶点,成为一个乙肝的那个的 药物的靶点,还是目前还是有待验证的,希望我们能够把它验证出来。453 2022-12-13
-
话如果说对于这个数据方面的还有相关的一些因为确实很多也是做新药,很多时候不容易获得,你们是怎么样去解决好吧
刚才徐老师还有陈涛都对这个数据的问题有 comment,我觉得都非常好,都挺对的。然后我就再补充一些。就是关于数据的话,其实是这样。其实那个AI加药物研发,它是两个问题,一个是data driven的问题,就是我们就是我们标准的 AI ,还有一个就是 AI for science 的问题。刚才也提到过,就是我们其实这个有很多理论,他这个科学理论,其实是 AI 也可以用在这里面。那么这里面可能有一部分数据,有一部分它是怎么来跟这个原理的一个结合。然后在新药研发里面确实尤其是做first in class 新药研发,我们针对这个具体的一个疾病,一个靶点,如果是新的话,那是没有数据的。如果数据特别多,那你做的就不是first in class best in class了是吧?而是做的是Me-too。其实现在很多的那个 AI 的算法其实都是一种 me too 的算法,它做出来的就是学习现有的药物去,然后去设计个新药。那么大家就会问这个角度,大家就会问那你什么小白专家的问题,其实问的问题是问的 me too 的这种角度问题。如果从 first in class 角度来说,专家如果一个专家能够说,我想这个first in class 结构这种专家是非常非常少的,非常非常罕见的。所以就是如果你从原始创新的角度来说,这个 AI 其实能够提供给人的 hint 是专家想不到的很多。而且确实即使专家想到了,也需要用计算方法来进行验证。那比如我们跟一些公司合作的时候,那么其实我们帮他设计的过程中,他们也会很好玩,他自己也想设计一些分子人设计。设计完了,他就说既然你们你有一套流程帮我来看看这个分子对不对?你帮我验证一下,然后他们有的还是还上瘾,就是不停地想这个新分子扔给我们的模型看看行不行。跟他们回到数据问题,我觉得还有一个就是因为做药是非常难的。在这个地方那个尤其是你做创新药那个是难得不得了。这个你成功率是非常非常低,即使你用 AI 来辅助,这个成功率还是很低。那么这里面我觉得负样本数据特别重要,即使是这个负样本数据是非常少的,就比如你因为 AI 设计了一轮,那么这个时候你反馈效果不怎么样,但是你这个时候你把负样本加进去虽然不多,可能第二轮的效果就会很好。那么这个第一轮数据就跟我们那个大炮瞄准校正一样,先放一两炮,看看这个到底打的准不准。因为这个AI药无论是任何计算方法的成功率是吧,在我们这个学科领域都是非常不准的。我举个例子,就是在新冠肺炎刚爆发的时候,很多人用分子对接去针对那个 3 CL 就是组蛋白酶去做虚拟筛选。至少我见到的论文只不下几十篇,每一篇都能用同样的靶点,同样的数据库,他们每个人给出的结果都是不一样的。就是你排名前 100 的 50个分子,没有一篇文章是有重合的,甚至一个重复的分子都没有。这说明什么问题呢?说明这个领域参数太多了,无论是你软件的参数还是人为对这个蛋白处理的时候的一些人名的参数,都会非常大的影响这个结果。这也是我们技术它是目前就是不是说一个稳定的技术,目前还没到这种地步,不是不能做全自动全,自动的话其实也是非常的 random 的一个结果,那其实要把这个用得好,要把 AI 的模型用的好过,我觉得不存在这个数据问题。还有就是这里面涉及到很多很多 know how 的问题,还有这个就是你的经验的问题。还有刚才我讲到这个负样本数据特别有用的问题,然后我们怎么在数据不足或者数据抑制性很多,不平衡这种各种清洗不好的这种状况下去怎么去处理这些这东西,我觉得这些自己的方法,尤其是你对这个原理的了解是非常重要的。如果来一个你不了解原理的方法一算,那么他到底相不相信他的结果呢?你无从判断,你要了解这个模型它的适用范围在哪里,它是用什么样的数据训练出来的?有的模型它特别的那个表观性能好,但一使用就一塌糊涂,全部是过滤和模型。这个时候我觉得你愿意用一个稳定的不是那么准的模型,不要用那种就是训练很准,但实际上在真实世界里根本不起作用的模型。其实这些都是非常非常缺给需要经验的地方,我先说这些。56 2022-12-13