您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
2022年8月5日更新 你身体里的DNA 能存下整个宇宙的数据
碱基,核苷酸,信息2022年8月5日更新 你身体里的DNA 能存下整个宇宙的数据
发布时间:2020-12-06加入收藏来源:互联网点击:
恐龙灭绝6000多万年后,科学家们获得了一块有史前蚊子的琥珀,从蚊子血中获得了恐龙的基因,从而让遥远的生物复活。
讲这个故事的《侏罗纪公园》,至今仍位列全球电影票房前十。这个系列故事的原理很简单:DNA存储了恐龙的生物信息,科技让它重新表达。
现在,用DNA想象另一个故事:在宇宙长河中,人类世纪也寂灭了。另外一种智慧生物出现,TA们去探究远古的人类文明。有什么会承载人类文明的记忆?气温异变,地球上的庞大数据中心徒留遗迹。
冻土中有一份DNA,它很轻,只有1公斤,看起来是一些被封装在胶囊里的白色粉末。读取后,里面却记载了地球上曾有的巨量信息。视频、文字、代码展现了人类历史进程中的无数发明和文艺作品。
于是那个遥远文明的痕迹在宇宙间再次展开。
这是另一个科幻设定了。背后的技术正是目前被关注的一个前沿方向:DNA存储信息。
在大自然里,DNA负责存储遗传信息。单个人体细胞的平均直径是5到200微米,这其中的DNA可以包含一个人全部的遗传信息:30亿对碱基。
那为什么不能用碱基存储别的信息?这个科幻般的设想,正在走出实验室,被当作信息存储的未来方案。
01、基因组数据太多了,怎么办?
本来是生物学家想解决生物学发展的问题。
11年前,一群生物信息学家在德国的一家酒店里讨论数据存储问题。NickGoldman也在其中,那是他在欧洲生物信息所(EBI)担任高级科学家的第二年。
大规模的基因组测序正在进行,随之产生的数据规模快速增长。存储、压缩这些数据是个麻烦事,现有的技术方案看起来不太行。
据估计:人类基因组需要高达2-40EB的存储容量。这可能超过一个世界级科技公司的云存储量全世界苹果用户存储在谷歌云上的数据总量大约是8EB。这8EB数据,每月存储费需要2.18亿美元。(1EB=102^3GB)
生物学家们陷入了沮丧。
NickGoldman拿着存储了莎士比亚所有十四行诗、一张照片和我有一个梦想演讲片段的DNA|来源:EBI
有人灵光乍现:是什么东西阻止了我们用DNA来储数据呢?
看起来是一句玩笑话,但是生物学家们意识到了这不仅仅是个玩笑,他们拿起手边的餐巾纸,用圆珠笔认真计算起可行性。
DNA存储遗传信息的原理并不复杂,它由四种核苷酸A、T、G、C组成,彼此两两对应,组成双螺旋结构。核苷酸的序列,记录了遗传信息。
在数字世界,所有的信息本质上是0和1组成的数据串。想要DNA存储数字信息,简单理解,原就是将0和1的编码序列转换成核苷酸的序列。DNA存储的优势在于密度大,大约在你眼前逗号这么大小,1立方毫米的DNA,就可以容纳9TB(1TB=1024GB)的信息。
用DNA存储数据,也并不是完全新的想法,之前就有科学家尝试过。不过属于科学和艺术的先锋跨界实验。
1988年,艺术家Joe Davis和哈佛大学的研究员,将一副名为小维纳斯(Micro Venus)的图案存储到DNA短链中。
存储进DNA的小维纳斯(microvenus)图片来源:相关论文
这个图案编码简易,白色的地方标记为0、黑色的线条部分标记为1,文件大小只有35bits,用了28个核苷酸长度的DNA链条来存储。
在那次酒店讨论的2年之后,2013年,Goldman团队发表了研究成果。这次,他们存储了5种不同格式的文件,一共有0.75MB。为了确保信息读取不出错,科学家存储的时候,每份信息按照四倍冗余的量来存储。
五个文件分别是:
- 154首莎士比亚的14行诗(ASCII编码格式)
- 提出DNA双螺旋结构的论文(PDF版)
- 一张照片(JPEG格式)
- 马丁;路德金我有一个梦想演讲其中26秒片段(MP3格式)
- 一串霍夫曼密码
这些年,DNA存储容量的上线不断被突破。2019年,美国一家创业公司Catalog在DNA中存储了16GB的维基百科。这个公司表示自己正在建设世界上第一个基于DNA的大规模数字数据存储和计算平台。
02、编码和解码,要处理的事情很多
在一些生物学家看来,用DNA来存储是一件非常顺滑的事。大自然的编码语言非常类似于我们在计算机领域使用的二进制语言。在硬盘上我们使用0和1来代表数据,而DNA中,我们拥有4种形式的核苷酸,A、C、T和G。在瑞士联邦理工学院的生物学家RobertGrass说。
DNA存储的关键之一是用四个核苷酸去映射0和1两个数字。
方案可以很简单。比如:A对应00,C对应01,G对应10,T对应11。然后再按照所需要的核苷酸序列,像串珠子一样,把核苷酸们串成一串。(这就是DNA合成)需要读取信息的时候,再运用基因测序技术,把这一串核苷酸序列读取出来,再翻译成0和1的字符串。这个流程就是编码DNA合成测序解码。
这个听起来像是把大象装进冰箱的流程,操作起来需要考虑的问题还有很多。不然科学家就不必一直研究新的编码方案了。
在自然界存在的DNA中,A和T,C与G两两配对,在一条DNA中,CG与AT的存在比例基本均匀,为50%左右。如果C和G的含量过高,可能会让DNA链产生一些复杂的物理结构。这就会让DNA测序(解码)变得复杂。
DNA存储的步骤|来源:DNADataStorageAlliance
而且在串珠子(也就是合成DNA链条)的过程中,错误率不可避免。目前大约每合成100个碱基就会出现一个错误。这是由目前的化学合成技术带来的瓶颈,每合成一个碱基,有99.9%以上的正确率。但是当碱基串变长,0.01%的概率相乘,错误就难以避免。
目前人工合成DNA的单链的长度一般不超过100个碱基,极限在300个碱基左右。而在自然界的DNA动辄有几千个碱基对。
也就是说,虽然DNA的存储能力很强,但它们不得不以很多条短链的方式存在。如果存储的信息量比较大,这些DNA短链就像一本散装的书。它可以存储很多信息,存在形式却是一张张标着页码的纸。
当然,可以将一条条DNA短链拼接成长链。这就意味着增加了一道工序。在测序的过程中,又需要把长链打断成短链。这是因为目前技术还不能一次性读取长链。
在测序的过程中,也存在错误率。尽管目前的错误率已经低至10^-3数量级,比起商业硬盘的读写错误率,仍相差至少9个数量级。
正确率受到合成和测序这两项技术的影响,科学家想到设计编码方案来避免:在编码中增加纠错机制。这样,哪怕碱基合成和测序中出现了错误,依旧能够保证被存储进DNA的内容能够被正确读取出来。
03、走出实验室,还要考虑速度和成本
DNA存储也正在尝试走出实验室。
2020年10月,微软、西部数据和基因测序巨头Illumina、DNA合成初创公司Twist Bioscience等联合成立了DNA数据存储联盟。
这是世界上第一个该领域的学术和产业链联盟。这个联盟希望制定技术和格式标准,最终建立一个可以通用的商业系统。
微软研究院在2015年就成立DNA存储的项目,并聘请了华盛顿大学的计算机科学与工程学院的副教授KarinStrauss担任高级首席研究经理(Senior Principal Research Manager)。
上一篇:2022年8月5日更新 全球基站大PK:华为名次毫无悬念
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |