AI 本身是数据算力算法这三个是三要素。那对于咱们现在因为也需要大量的数据，我们对于这个数据我们怎么获得？

AI新药开发

王波 2022-12-09

陈亮

毫无疑问，一讲到 AI ，数据库成为一个非常敏感非常热的话题。刚才我看到的底下这个这留言，很多人就在问到这个数据哪里来的，公共的是哪里来的等等。那么我们讲我们大湾生物的，大湾生物本身它这个主要集中于生物 cmc 平台。

所以比如说我们现在在做的是通过这个 AI 来在寻找高产的细胞株，所以我们在说通过细胞影像来做，所以这细胞影像本身实际上 public 是没有这份这次这些information ，所以我们实际上是我们自己创造的这个这样的一个数据库，这是第一个，第二个就是我们通常你要数据库，你要高通量，所以我们实际上也是有 IP 保护的，如何来在短时间内找出大量，迄今为止我们已经有 8000 万，快一个亿了，8000万的细胞的影像被处理过吗，是 18 个 T 左右，是这样情况。我们从商务角度来说。那么这个数据库实际上是我们在大湾生物在用人工智能应用生物制药，特别在这个细胞株平台上，是它一个天然的一个屏障。换句话说，今天其它人要做的话，比如说你买人的影像，你到公安局可以买海关去买，你的 X 光片你到医院去买，那么任何一个人想要做的话都是要 start scratch，不管你多有钱多有经验，都是从 0 开始做这样工作。

所以在我们大湾生物在生物制药这一摊的数据库不光是细胞株，培养基也是一样，培养基的话这个我们也是自己创造的，那么未来我们还有一些做的项目的话，我们已经预测这些东西是 public 基本上是找不到的，都是需要我们自己来做。所以实际上对我们这个 AI 加生物的公司来说是很大的一个挑战。所以你还没开工之前，你必须要想清楚如何能够在短时间内能够有一个我们叫 clean data ，就是比较有效的 customize data 这是很重要的一个东西，这是第一个。第二个我想也是 clarify 下一个idea ，就是 concept ，通常打交道大数据的时候一想到就是几亿个数据、几十亿的数据。那么这是不一样的，实际上完全要看你这个项目它的这个我们从逻辑上来说它的相关度少，如果它中间的一些 relationship 一些关系，或者你像用 AI 来找的关系已经是比较明显的，那实际上你的数据量未必要大。那么有些数据就是关系是非常的微小，所以你数据量必须要大通量。比如说我举个例子，今天你说要区别一个亚洲人和欧洲人，你估计举个例子就 AI 就能学出来了。今天你说一个双胞胎，你如何把这个哥哥和弟弟姐姐和妹妹把它分开，那估计要很大的数据量才能做出来。所以这个完全在看你的项目当中，你的这种关系量是否明显才能决定这个事情，所以这个是我们从数据库的这个角度来讲。

本网站未发布麻醉药品、精神药品、医疗用毒性药品、放射性药品、戒毒药品和医疗机构制剂的产品信息

AI 本身是数据算力算法这三个是三要素。那对于咱们现在因为也需要大量的数据，我们对于这个数据我们怎么获得？

55期：关于AI那些事