新型DNA存储技术全球数据都能存在一个咖啡杯中？

2021-06-30 13:43:24 文汇报

全球数据都能存在一个咖啡杯中?一杯星巴克中杯是354毫升，世界人口目前七十多亿，这能存的下吗?

答案是：理论上可以。

近日，麻省理工学院(MIT)科学家研发出一种新型DNA存储技术，该技术可从大规模数据库中检索和标记DNA数据文件，实现了将数据存储为DNA形式的可能。

当地时间6月10日，相关论文发表在NatureMaterials上，通讯作者是MIT生物工程学教授马克·巴斯(MarkBathe)。

论文题为《在档案文件存储系统中使用布尔搜索的随机存取DNA存储器》(RandomaccessDNAmemoryusingBooleansearchinanarchivalfilestoragesystem)。

这项研究意味着照片、音频、文档和其他文件都可存储为DNA的形式，有望彻底改变人类存储数据的方式。

据了解，当前全球大约有10万亿字节的数据，大部分数据存储在占地面积庞大的数据中心里。这些数据中心比足球场还大，光是建设和维护成本就得10亿美元。

以DNA形式储存数据的灵感来自于包含遗传信息的DNA分子，该团队认为DNA分子有望以极高密度去存储大量数据信息。马克·巴斯表示，理论上一个咖啡杯即可存储全球所有的数据。

据悉，DNA的密度是闪存的1000倍，一旦制造出DNA聚合物，它就不会消耗任何能量，把DNA写下来之后，即可进行永久存储。

该团队表示，他们可将图像和文本页面编码为DNA，但是要突破从众多DNA片段的混合物中挑选出所需文件，即检索功能的技术壁垒。

据悉，研究人员以DNA形式存储数据需要一种约6微米大的二氧化硅颗粒，然后把数据文件固定在二氧化硅颗粒中，接下来用短DNA序列对文件进行标记。

其中，每个颗粒都标有与文件内容相对应的单链DNA“条形码”。用这种方法能从最多1020张图像中准确提取出单个图像。

北京大学第三医院博士生导师、国家妇产疾病临床医学研究中心副主任李默告诉DeepTech，这带来的好处非常显著，应用潜力也很巨大。

包括提高大规模数据存储的效率、节省公共资源、极大提升信息运输与流通速度等，还包括对诸多专业领域的促进，如以核酸为代表的生命科学在交叉学科的应用、机密信息的安全储备、以及环境保护等。

以DNA形式存储的数据，可以放在手掌里

在数字化时代，文本、照片或任何其他形式的信息，都是由0和1通过二进制编码而成的。类似的，我们也可将这些信息用四种核苷酸A、T、C、G编码为DNA，例如把G和C表示为0，A和T表示为1。

作为一种存储介质，DNA具有高稳定性和高密度的优点，高稳定性意味着DNA的合成和测序比较容易，高密度指的是每个核苷酸只有两个比特大小，即大约1立方纳米。因此以DNA形式存储的数据，其体积之小甚至能放在手掌中。

但是，西湖大学特聘研究员郭天南告诉DeepTech，目前DNA存储数据的访问速度尚远不及硬盘，数据读写成本较高，该成果的优势在于数据存储的稳定性，因此较适合于冷数据。

为了考察新方法的读取速度，MIT团队将20个不同的图片编码到大约3000个核苷酸长的DNA片段中，大小相当于大约100个字节。

这些图片包含猫、老虎、飞机和人物照等，因此研究人员给每张图都设置了相对应的条形码。

当提取特定图像时，首先需要移除DNA样本，然后添加与一定的标签，比如老虎照片对应的标签是“猫科动物”“橘色”和“野生”，猫照片对应的标签是“猫”“橘色”和“家养”。

研究人员用荧光、或磁性颗粒来标记这些引物(primer)，为的是方便从样本中取出、并识别对应的匹配物。这时，需要的文件就可以被删除，而剩下的DNA文件毫无损伤，并能被完整地放回原处。

该检索过程还支持布尔逻辑(Booleanalgebra)搜索查询，比如从“总统和18世纪”可以搜出乔治?华盛顿的结果，和我们日常使用的百度搜索、谷歌搜索很相似。在概念验证阶段，搜索速度是每秒1KB，搜索速度由每个胶囊的数据大小决定。

中国科学院生物学博士、助理研究员李雷告诉DeepTech，事实上这等于提供了一种更加便捷的检索策略，使得我们在查找信息的时候，可以更加容易找到具体的信息点，而不是像过去那样通过PCR(polymerasechainreaction聚合酶链反应)来在全DNA上进行搜索。换句话，这种新策略使得数据定位更加容易，可以针对性地提取信息。

另据悉，该团队使用哈佛医学院(HarvardMedicalSchool)遗传学和医学教授史蒂芬?埃利奇(StephenElledge)开发的10万个序列中的单链DNA序列作为条形码，如果在每个文件上放置两个这样的标签，就可以唯一地标记10^10个不同的文件，也就是100亿。

这意味着，每个文件上有4个标签，就可以唯一地标记10^20个文件。故此，哈佛医学院遗传学教授乔治?丘奇(GeorgeChurch)将该成果描述为“知识管理和搜索技术的巨大飞跃”。

目前，该团队已成立一家名为CacheDNA的初创公司，该公司目前正在开发DNA长期存储技术，届时相关技术既能用于数据的长期存储，也可用于短期存储。

但是，该成果仍有可优化的空间。比如，这种新技术成本非常高昂，写1PB数据(100万GB)需要花费1万亿美元。

如果想比普通用于存储数据的磁带更具竞争力，该团队认为成本还需要降低约6个数量级。他们认为，这预计能在10年或20年内实现，因为过去几十年存储信息的成本一直在大幅下降。

另一个主要瓶颈，是这种技术难以从其他文件中挑选出想要的文件。假设成本问题已经解决，我们就能在DNA中写入1EB甚至1ZB数据，然而这时就有无数的文件、图像或电影和其他东西，要想找到目标文件简直就像大海捞针。

当下，人们通常使用PCR来检索DNA文件，每个DNA数据文件都包含一个与特定PCR引物结合的序列。要想提取特定文件，就得把该引物添加到样本中以查找和扩增所需序列。

然而，这种方法的一个缺点是引物和脱靶DNA序列之间可能存在串扰，导致不需要的文件被拉出。此外，PCR检索过程需要酶，最终会消耗池中的大部分DNA，因为所有其他DNA都没有被放大，这是能做的就是把它扔掉。

西湖大学特聘研究员郭天南告诉DeepTech，这种新方法的优势主要在于克服了传统方法对PCR扩增的依赖，减小了PCR扩增中可能产生的技术噪音。并且，这种方法尽量减小对未读取数据的损害，即未读取的DNA可以有效回收并且再次按需读取。

针对COVID-19检测、人类基因组测序等，我们迫切需要低成本、大规模存储解决方案。如果DNA合成可以变得足够便宜，那么就能可以实现存储更大的文件。

另据悉，该团队计划将这种DNA封装技术用于存储“冷”数据，即保存在档案中的不经常访问的数据。

对此李雷认为这主要是因为DNA存储技术不成熟，具体地说是DNA保存技术。DNA很容易发生降解，除了会受到温度影响，化学因素比如储存DNA的溶液等都会致其发生降解，而一旦降解，这些物质就彻底成为杂乱无章的信息。此外反复访问同样会对DNA进行处理，最终导致DNA自身的不稳定。

李默认为，该技术的“数据检索”环节依赖于荧光激活分类，限制了数据检索及读取的速度与效率，因此该技术不适用于读取“热数据”，即存储后被高频次访问的数据，并且读取速度较传统硬盘也不具备优势。但如日后能在这些环节有所突破，则将是另一次质的进步。

标签：全球数据 DNA 存储技术咖啡杯数据库

新型DNA存储技术全球数据都能存在一个咖啡杯中？

今日热点

热点排行

最近更新

新型DNA存储技术 全球数据都能存在一个咖啡杯中？

今日热点

热点排行

最近更新

新型DNA存储技术全球数据都能存在一个咖啡杯中？