8月18日,2022年武汉数字经济与医疗健康投资论坛暨「创投W+」项目投融资路演在武汉基金产业基地成功举办。
会上,华大松禾生科基金管理合伙人曾晓玉发表了《DNA存储,打开IT与BT的融合空间》主题演讲。
以下为演讲实录:
大家下午好!非常感谢武汉汉阳区和清科主办方的邀请,今天给大家分享一下DNA存储这样一个比较新的产业话题,它是怎样做到BT与IT的融合。
为什么出现DNA存储
我们可以看到在2040年,全球将会有3*1024bits的存储需求。*的闪存制造商将会提供109kg,就是百万吨的硅晶圆产出。但是届时整个硅晶圆的供应量是107kg至108kg,还有两到三个数量级的缺口。
对于DNA存储来讲,我们不用芯片,不用硅基的介质,用全新的生物介质来看,1gDNA的存储量相当于420亿个USB的存储,从存储的介质来讲,差了几个数量级。所以我们可以预见到未来几个世纪,有几十公斤的DNA就可以满足对于冷数据存储的要求了。
DNA存储有很大的产业优势,这是由它的三个特性决定,一个是它的高密度,第二个是超稳定,第三个是低能耗的方案。
从存储密度来看,DNA就压缩0和1的数字文件信息量来讲,从10-19bit cm到10-13bit cm对比硬盘是有六个数量级,是它的百万分之一。稳定性,大家也知道DNA是在一个介质里面,对水和氧气是很敏感的,但是它是非常稳定的,我们可以知道历史保存最久的是160万年以前猛犸象的牙齿里面,可以读出完整的DNA片段。第三个,能耗低,只要你把它放到一个很稳定的存储空间里面,它所需的能耗是非常低的,这个也可以达到*电子设备几个数量级的优势。
任何一个新的发现、新的技术手段首先是要经过假设,因为工具和技术的发展,使技术得以实现,到满足条件,然后正式启航。1959年,由一个天才的物理学家诺贝尔学奖的费曼提出来,DNA可以作为信息存储的假设。一直到70年代末80年代初,读取和书写DNA的方法也被提取出来。所以DNA的应用,会把它看成读、写、存三个维度。
DNA存储正式启航是到1988年,从最早的设想已经过去了接近30年。哈佛大学的戴维斯*次设计并合成了一个包含18个核苷酸的DNA片段,并且把它转移到大肠杆菌之中。到2012年以后,DNA存储相关的应用就越来越多地报道了。首先是2012年以合成DNA片段的形式存储了5万字的书和一些影像信息。到2017年,一个巨头微软和华盛顿大学在DNA里面存储了200MB各种类型数据的文献。一直以来,DNA存储微软都是很深的介入,而且走得非常深。2012年,高通量DNA合成技术取得了突破,所以全球都在新的领域里面蓬勃发展。
我们看到中国的身影是在2021年到2022年,国内多个团队在DNA存储方面取得了非常多的技术突破,首先是高校方面我们看到天津大学构建了*存储信息的人工染色体,清华大学开发了基于镜像的DNA存储技术,包括今年天宫所创建了二步循环法的DNA合成技术。然后是华大生命研究院也在双编码的技术上面,在《自然》杂志的子刊上发布了一些很高分的文章。
DNA存储是怎么实现的
它其实是有六个步骤,从编码到合成、储存、检索、测序、解码。主要原理就是把数据文件的01,01有四个编列组合,对应成DNA里面的AGCT四个碱基,做一个编码。将原始数据01的序列转化成DNA分子的碱基序列,通过人工合成把已知的AGCT合成DNA的片段,合成片段之后再把它存储。它以适当的形式,不管是粉状、溶液状、胞内都可以作为存储,存储在基因库里面。如果是需要数据调用的时候,我们首先要做一个检索,找到目标DNA的序列,再通过一些PCR的引物把相应的序列从库里面检索出编码DNA,为下一步测序做准备。第五步就是测序,现在基本上可以用高通量的测序。第六步,把经过测序的序列DNA,把它的碱基AGCT,再把它映射回数字的01、01里面,这个就是一个完整的DNA存储的数据。也因为这样的过程,它才能够实现很高密度的存储,而且保存时间非常长,是一个非常好的冷数据的储存介质。
任何产业都离不开工具和技术的创新,可以看到合成技术就是写的技术发展。在1960年到2000年40年的时间,是化学合成法,这是一代的技术。2004年到现在,现在已经技术成型了,有一些通量高成本低的合成技术,包括了也有一些微阵列、半导体等等,有一些上市公司都在做一些合成仪。到现在又出现新一代的生物酶合成的方法、写的方法,这是第三代生物酶的方法。
为什么这个很新的存储介质,还没有大规模应用和商用?这六步里面,其中有两个步骤是特别关键的,就是合成和测序,是来自*层的生物学工具,也是最重要的成本来源。经过20来年的时间,测序成本变得非常低了。从世纪初的1亿美金下降到1000美金,测序现在已经应用到医疗和健康里面。但是合成来讲,成本下降还是非常平缓,还有很大的技术难点要突破。美国情报研究发展局预测到希望2024年整个合成成本1GB,降到1个美元,到2030年,1TB降到1个美元,有三个数量级的成本下降。
因为成本下降才带来了产业化的突破,在医疗生物其他应用的加速之下,我们看到国内的合成和测序的新兴公司都已经开始涌现了,越来越多的从合成生物到DNA存储,到泛基因合成的公司进入到专业的投资人眼中。
整个DNA存储仍然面临非常多的挑战,因为它在六个步骤里面,前面、后面是编码和解码,这里面我们面临的挑战就是要降低成本、提高速度,而且要让信息密集化。中间的合成、测序和储存,每个步骤都有不同的难度。
合成是一个瓶颈,因为在合成过程中的错误率,难以合成更大片段的DNA,或者是一个核苷酸里面有一些重复的序列或者是富含C或G,就让某些人工合成的序列难以合成。还有它会比较昂贵,另外还有一些化学污染、耗时等等。在测序这一步里面,大家研究了这么多年,华大智造整个测序成本已经实现了突破。
到了存储方面也面临一些挑战,比如说自动化、高成本,以及存在污染的潜在风险。刚才讲到整个DNA存储实现的范式。
有哪些应用场景
在大数据存储方面是冷数据存储,80%的冷数据存储性能需求低,要求成本低,存储时间长,这里面跟DNA存储是非常匹配的。大家头脑风暴的时候,说未来人类的星际旅行,可以把数据化的信息存储到DNA里面,带到外太空,这是很科幻的事情。
另外一个新型的数据加密,DNA也可以用于个人加密存储的私密信息或者一些重要物品的防伪。一般我们会建议在离线设备上加密,它会比传统的计算机有更无可替代的优越性,比如说隐藏在眼镜里面等等。
在精准医学方面,有分子追踪系统,比如说用于医学上找到基于酶促反应追踪单个分子反应物分子的DNA轨迹等等,华盛顿大学和微软也开始发行了新型的条形码“豪猪”分子标签系统,它非常适合定位和追踪。在精准医学方面,我们也可以用于DNA计算,包括计算肿瘤,这里面能够把肿瘤和正常的分离出来,这还是一些早期的研究。
总的来看这个市场规模分析,*的就是大规模冷数据的存储,可以替代现在投资非常昂贵高能耗的IDC存储。目前中国IDC在全球市场占10%,整个市场规模是1100多亿。如果能够被DNA存储替代,按照5%的市场渗透率和部分商业化来看,我们预计2026年的时候DNA存储在数据存储IDC的市场细分规模也能够达到1000多亿。
第二个类型是数据加密,可以把数据放到眼镜里面。这个网络安全的投入全球有接近万亿的市场,复合增长率是10%,以预计1%的市场渗透率和商业化来讲,DNA存储加密的市场规模也有100多亿。
另外就是分子标签,比如说微软的豪猪系统,它有100多亿。我们预计到五年之后,整个全球的市场有1800多亿的规模。
可以发现在我们的预测模型里面中国有最高的年化增长率。这是一个国外媒体讲的,中国在这个方面是属于异军突起,因为最早虽然在美国开始,但是中国在技术和产业上有一些突破,发展是非常快的。
从每个新的技术到大规模商业应用的产生,大概需要十年左右的时间。所以我们在这个时间节点来回顾过去展望未来,我觉得DNA它因为具有生物和数字的双重属性,是可以把BT和IT作为非常好的融合的介质和手段,是有非常好的想象空间。
非常感谢主办方邀请,让我们有机会给大家介绍、展示一下目前的研究。我们所在的机构,松禾投了很多创新技术,在自动驾驶、半导体领域都做了非常多的投资。华大的拟上市公司华大智造,跟咱们武汉有非常深的渊源和感情。
以上是我今天的介绍和分享,谢谢大家!