一个是我们在刚才也有人提到了数据方面的问题,我们的数据是越多越好还是精准化这是一方面?另外一方面我们在整个算法的一个设计上,像类似这种是需要有哪些实操性的一个建议的?

药企战略新药项目
王波 2022-12-08
分享
段宏亮
0
数据这一块的话其实是它的精准程度相对而言是没有那么重要的,因为它总的来说这个化学反应数据,因为经过几大出版社的整理,它是非常规范的一个数据化、不太存在一些脏数据,所以在这种数据质量保证的前提下的话,它的数据量是越大越好的。哪怕是我们去非常精准地去研究某一类反应,比如说某一类金属偶联反应、Heck反应的话,虽然是我们单纯针对Heck反应,比如说可能能拿到一万、两万这样一个数据量,看起来非常非常的精准,如果我们仅仅用这一万两万的Heck反应数据来做的话,其实它的那样的结果是不太不太理想,因为它所有学到反应知识仅仅是局限在这样一个一两万的Heck反应里边,对其它的一些基本的化学反应知识、基础有机的一些知识它并没学习到,所以一个比较好的流程应该是我们拿到上千万级的这样一个非常通用的、没有针对性的一些有机化学反应,进行一个预训练的这样一个学习,然后的话我们再针对Heck反应进行一个特殊的有针对性的人员强化学习,这样的话就可以达到一个既学习一些基础的语句化学知识,因为能够针对某一个特定的环节反应类型的话,做一个非常那个精准的一些安排,这样来弄,不可以把一些基础的这样化学知识给它抛弃掉。
 
我们在用化学反应来做这样一个 AI 的产品的时候,其实产品最终是要商业化落地的,所以跟我们单纯的这样、来数据鼓捣模型的话,除了这些之外的话,还要考虑一些更加接地气的一些行为,比如说可能需要我们一些做过湿实验的有机化学家或者药物化学家牵扯进来,这样的话它就可以告诉我们一些在那个数据里边告诉不到的一些信息。就像我们之前提到的一些,比如说一个反应,它是在负 78 度的这样一个低温环境下进行这样一个反应的话,多数情况下它搜索起来是比较难的,或者是工业化落地应用的时候会有困难的,这些在数据里面是接触不到的,这样的需要一些产业专家或者是有机化学家来告诉我们如何去应用。
 
再一个,有些反应可能比如一些硝化反应、一些加氢反应,可能它非常之危险,如果可以避开的话,我们还是希望能够避开的。比如说氰化钠的反应,它是剧毒的,操作不当了可能会有生命危险。这样一写东西在数据里里面它仍然也不会标识出来的,这些东西的话都需要我们的一些业界的专家来指导我们的 AI 算法专家来进行一些数据之外或者是模型 AI 之外的一些工作。另外一个需要非常接地气的一个东西,我们一个产品最终商业化应用、最终的实验室里合成起来这样一个商品的话,就不得不考虑它的一个成品成本价格的问题,所以的话可能我们就需要考虑这个试剂,它到底是易不易得,它的价格是不是便宜这个东西到底是一公斤是几百块钱还是一克就要几万块钱,这一些就是一些实实在在的一些操作、执行层面的一些问题的话,可能这些东西的话在一些典型有机化学反应数据库里面可能也是拿不到的,我们在做的过程当中可能也需要自己在结合市场终端把这样一些信息给大家再加入进来,这可能是我们需要考虑的一些比较接地气的一些问题。
评论(0
登录后参与评论
    相关问答