查看原文
其他

技术控独家揭秘:$100 WGS 灵感来源留声机?

基因江湖 2023-04-28

Editor's Note

基因江湖的第一篇转载:
今天$100WGS刷屏,笔者朋友一技术控按捺不住,扒了全文,分享其中3大关键技术要点,供大家享用。感兴趣可以关注其号,名为高深,高深莫测。
欢迎大家投稿,包括个人与厂家,接受所有知识类分享,拥有署名及版权,笔者乐意推荐。

The following article is from o高深o的基因世界 Author o高深o

最近1个月测序界的上游是越来越热闹了。中下游那就更不用说了,一直都是乌央乌央的,就跟疫情以前北上广早高峰的地铁一样。。。


除了国内炒得比较多的华大&illumina的专利纷争、illumina发力长读长、铭毅智造发布新的国产高通量测序仪等新闻;国外其实还有很多值得关注的新鲜事。


在大洋彼岸,随着illumina的一些专利到期,以及更多入(zi)局(ben)者(jia)的加入,不仅有之前听得比较少的几个测序仪初创公司(像Element bioscience、Omniome那些)拿出了自己的测序仪产品,近日竟然又来一个“爆”款。


Startup Ultima Genomics Emerges With $600M in Funding, New Sequencer, Claims of $100 Genome


这是国外genoWeb报道的标题:一家拿着6个亿USD的初创公司,Ultima Genomics(以下简称UG)号称可以做到100美元成本的全基因组测试了!Amazing!说到这个成本,大家就知道为什么可以称为“爆”了。


国内的同行专家lizimo也已经迅速介绍了这家公司的情况和此次发表的文章。可戳下面看转载。


【转】100美元基因组!终极基因组学,横空出世!


本人在好奇心驱动下,去下了预印版文章看看,给大家一起扒一扒,讲一讲。

点击下面链接可以下载原文,感兴趣的盘友一起练习英语阅读吧


以下内容主要关注UG其仪器本身的技术创新点,并与目前市场上主流厂家做一些简要的类比,方便大家可以更容易理解。至于产出的WGS实验数据方面,看起来还是不错的(除了duplication rate有点高...)。这部分不是太专业,就不给大家说了。


根据文章,UG认为他们的测序平台创新点有以下三个,那就依次看一下吧:


Open fluidics and optics system

1、  开放式的流体设计以及光学系统


说人话版:采用大晶圆(200mm直径)作为反应的载体,加上特殊喷嘴在晶圆上面喷洒反应试剂,减少了反应的死体积,从而减少试剂损耗;光学系统是对整个旋转的晶圆进行连续扫描,速度贼快,因此上单个碱基的测序cycle时间仅为2min。

大晶圆的(单位数据产出)成本也相对较低,未来还有提高进一步数据量的可能。



上图是UG发布的原型机的流体以及光学示意图,途中的大圆盘就是晶圆,上面承载着已经克隆N次(以便放大信号)且可以被扩增延长的待测核酸片段,对应的就是现在主流NGS机器上用到的测序芯片(flow cell)。因为这个面积贼大,所以可以做到10000M的reads(原文是写“ produces approximately 10 billion reads per run”)。


圆盘的圆心上方,是一个加入液体的喷嘴,这就相当于是主流NGS的流体管路及加样针的部分。通过喷嘴喷洒,圆盘旋转,加入的试剂会在圆盘上变成薄薄的一层(10um),加上没有管路残留和清洗的必要,所以试剂用量是非常的省。


此图的右上方是一个摄像头,可以在圆盘旋转的过程中进行连续的拍照(我怀疑应该叫“摄像”),以便读出反应后的光学信号来识别响应的碱基。因为是一次连续“读取”整个圆盘的信号,所以速度很快。




Mostly natural sequencing chemistry

2、  大部分是天然的测序化学


说人话版:与一般主流做法不同(点名可逆末端终止法...),参与反应的不仅有修饰的核苷酸,而且大部分(~80%)其实是天然核苷酸(dNTP),以保证合成的快速而且无反应切除后残留在DNA链上的“瘢痕”,影响下一步的反应效率(纯天然无添加就是好)。


熟悉二代测序的盘友们都知道,目前主流的2家高通量测序厂家(就不点名i家和M家了),在测序化学上都是用修饰过的核苷酸来反应,以便反应“慢”下来,可以留足够的时间拍照识别(这一循环时接上去的)碱基。


UG用了这个“Mostly natural sequencing-by-synthesis (mnSBS) ”的测序化学体系,在一个cycle里面掺入了大部分的天然核苷酸,还有少量(<20%)的修饰核苷酸(仅带有荧光标记,非终止non-terminated的)。在反应时,待测链会接上0、1或者N个单一种类的核苷酸(dA、dT、dC、dG)来延长待测链;一但反应开始,少部分的修饰核苷酸加上去以后,就可以有荧光信号产生,让该数据点产生光学信号。



由上图可以知道,不同的碱基是标记不同波长的荧光,而同一个种类的碱基接上1个还是N个,可以从这个曲线中反推得到。所以通过看荧光信号的波长和强度,就可以知道这一段加上去是“什么”和“多少个”单一的核苷酸了,根据A-T\G-C的匹配原则,待测链的序列也就知道了。


这个化学体系的好处就是绝大部分是“纯天然无添加”,反应相当地快(因为没有加入终止子“刹车”,反应+拍照过程一共是2min),也因为没有可逆末端终止子切来切去带来的“化学瘢痕”,影响后续反应效率。当然,对于这么大面积的晶圆的拍照速度,也真的是超快!






Neural network-enabled base-calling

3、  神经网络算法实现碱基识别


说人话版:(由于测序化学体系的独创性)整张200mm晶圆上拍照后,数据量极大,而且有很多因素影响ATCG碱基的识别,因此需要用神经网络算法来学习、训练,以获得准确的碱基识别模型,达到准确测序的结果。


根据上面的流体、光学和测序化学的部分介绍,大家应该能想象到,要准确的把一个点上加了什么碱基、加了多少个碱基,一直持续准确的记下来,这是需要算法上有很多的校正才行。


因为影响因素有很多,包括:每个待测序列是否都是跑得齐("dephasing")、晶圆上不同点(不同待测序列片段)的空间定位、不同的标记核苷酸反应效率、随机信号噪声等等。


为了让识别效果是准确的,UG使用了神经网络法,就是拿大量已知数据去训练算法,然后不断拿真实数据去验证和修正算法。最后他们实现的效果是:

对于上1-2个碱基的准确识别率是99.5%,如果是连续8个同样的碱基,则准确率降为90%,如下图所示。




---------------画外音----------------------


整体了解下来,UG的这个原型机设计还是蛮巧妙的。让我想起了当年的留声机+黑胶唱片...




在这平台上UG是实现了多快好省的大规模测序


多:用大晶圆实现了10000M的reads的同时测序(横向相比较,目前商品化的高通量测序仪应该最多是5000M);
快:一个cycle是2分钟,做300个cycle说是~20小时(没明说是PE还是SE,感觉会是SE);
好:质量能达到Q30 达到>85%的水平;
省:试剂成本看着是真滴低,因为都打到100USD的全基因组成本上去了。
值得注意的是,这个肯定是只算试剂成本啊,大家也不能过度解读了。当大家说起第一个人类基因组花了好多亿美元的时候,那可不是仅算试剂成本啊。。。

Anyway,这肯定是一个很有前景、值得期待的测序技术体系。我看他们叫Ultima Genomics,也真是取名取得很好啊,难道这就是“终极的基因组测序体系”?

还记得功夫里面的终极杀人王火云邪神说过,“天下武功唯快不破”!在实现如此高通量的测序下,还做得这么快,确实很厉害。我看i家和M家都得密切关注动向才行。


不过话说回来,在实现超大规模测序上,M家的T系列(T7、T10、T20)其实也很早突破了数千兆reads同时测序的水平,而且测序速度也确实做到很快了。M家主要通过的是“浸泡式反应”+“高速拍照”的路径来实现。如果大家去细致地了解一下,就会发现,其实UG的一些做法,其实也跟M家的做法本质上是差不多的。当然了,这里不是说谁抄的谁,我只是判断:
在目前技术没有本质飞跃的前提下,大规模测序的最好的技术路线就是去优化 测序化学体系,以及提高光学系统的效率!

这就好比练武功,练得一招一式要说重要,其实不重要,重要的是内涵。。。哦不是,是内力。这就是张无忌、扫地僧这些人牛x的原因。

最后“高深”的问题来了:简简单单地说了这么些,你们都看懂了吗?
如果看懂了,我是不是要找UG要一下广告费

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存