我们现在就是在这种发现新的一个靶点,我们这样的一个数据库方面,我们相关的一些获取的话,还有它的数据库从你们角度来说,这个怎么样去构建这样的一个数据库,来服务 AI 的创新?

AI新药开发
王波 2022-12-09
分享
任峰
0
是这样,说我们这个靶点发现的我们叫PandaOmics这个人工智能的平台,它的里面的数据库都包含了 1000 万个组学数据,这里面有这个转录组、基因组、蛋白组和各种其它的组学数,然后还有 4000 万个文献专利的信息,还有政府的经费支持的项目的信息。所以我们的数据库很全,还有 200 万个小分子和抗体药的信息,我们有几千万个分子片段的信息在这个库里面,所以我们的库其实是很大的。用于靶点发现,我们主要是通过组学数据,尤其是转入组,去做这个靶点发现,同时用文献专利我们叫 text base 的那数据去对这些找到的新靶点进行验证。

那个组学数据,我们主要是通过一些公开的数据库收集来的,这个像刚才陈总说的一样,那些数据是在那但是你如何把它说标准化统一化,而且把它整理成你自己机器可读的这种格式,它需要大量的时间人力物力。我们其实有二十几个生信的员工从2014 年开始,我们一直在收集这些数据,把这些数据按照我们的格式标准化的格式去做成我们的机器可读的格式,对我们的这个算法进行训练和优化,所以我们目前的数据 95% 以上都是这些公开的数据来源,但是以后我觉着可能我也非常同意陈总和赖总的说法,就是以后的 AI 的竞争,从目前的算法之间的竞争可能慢慢以后要过渡到数据之间的竞争,你可能以后的 AI 公司都要有自己的一些独有的数据,所以这样的话才能让你不光是在算法方面处于领先,而且让你在数据的方面处于一个更领先的地位。
 
所以从这个角度来讲,英矽智能我们也是目前正在建立机器人实验室,通过机器人实验室来帮助我们做更多我们需要对训练 AI 的模型需要用到的数据有针对性的收集,产生这些数据来帮助我们去更好的就是优化我们的模型。目前我们大多数都公开的,以后我会我们会有更多的越来越多的这个自己自有的数据。

评论(0
登录后参与评论
    相关问答