技术控独家揭秘：$100 WGS 灵感来源留声机？

基因江湖 2023-04-28

Editor's Note

基因江湖的第一篇转载：

今天$100WGS刷屏，笔者朋友一技术控按捺不住，扒了全文，分享其中3大关键技术要点，供大家享用。感兴趣可以关注其号，名为高深，高深莫测。

欢迎大家投稿，包括个人与厂家，接受所有知识类分享，拥有署名及版权，笔者乐意推荐。

The following article is from o高深o的基因世界 Author o高深o

最近1个月测序界的上游是越来越热闹了。中下游那就更不用说了，一直都是乌央乌央的，就跟疫情以前北上广早高峰的地铁一样。。。

除了国内炒得比较多的华大&illumina的专利纷争、illumina发力长读长、铭毅智造发布新的国产高通量测序仪等新闻；国外其实还有很多值得关注的新鲜事。

在大洋彼岸，随着illumina的一些专利到期，以及更多入(zi)局(ben)者(jia)的加入，不仅有之前听得比较少的几个测序仪初创公司（像Element bioscience、Omniome那些）拿出了自己的测序仪产品，近日竟然又来一个“爆”款。

Startup Ultima Genomics Emerges With $600M in Funding, New Sequencer, Claims of $100 Genome

这是国外genoWeb报道的标题：一家拿着6个亿USD的初创公司，Ultima Genomics(以下简称UG)号称可以做到100美元成本的全基因组测试了！Amazing!说到这个成本，大家就知道为什么可以称为“爆”了。

国内的同行专家lizimo也已经迅速介绍了这家公司的情况和此次发表的文章。可戳下面看转载。

【转】100美元基因组！终极基因组学，横空出世！

本人在好奇心驱动下，去下了预印版文章看看，给大家一起扒一扒，讲一讲。

点击下面链接可以下载原文，感兴趣的盘友一起练习英语阅读吧

以下内容主要关注UG其仪器本身的技术创新点，并与目前市场上主流厂家做一些简要的类比，方便大家可以更容易理解。至于产出的WGS实验数据方面，看起来还是不错的（除了duplication rate有点高...)。这部分不是太专业，就不给大家说了。

根据文章，UG认为他们的测序平台创新点有以下三个，那就依次看一下吧：

Open fluidics and optics system

1、开放式的流体设计以及光学系统

说人话版：采用大晶圆（200mm直径）作为反应的载体，加上特殊喷嘴在晶圆上面喷洒反应试剂，减少了反应的死体积，从而减少试剂损耗；光学系统是对整个旋转的晶圆进行连续扫描，速度贼快，因此上单个碱基的测序cycle时间仅为2min。

大晶圆的（单位数据产出）成本也相对较低，未来还有提高进一步数据量的可能。

上图是UG发布的原型机的流体以及光学示意图，途中的大圆盘就是晶圆，上面承载着已经克隆N次（以便放大信号）且可以被扩增延长的待测核酸片段，对应的就是现在主流NGS机器上用到的测序芯片（flow cell）。因为这个面积贼大，所以可以做到10000M的reads(原文是写“ produces approximately 10 billion reads per run”)。

圆盘的圆心上方，是一个加入液体的喷嘴，这就相当于是主流NGS的流体管路及加样针的部分。通过喷嘴喷洒，圆盘旋转，加入的试剂会在圆盘上变成薄薄的一层（10um），加上没有管路残留和清洗的必要，所以试剂用量是非常的省。

此图的右上方是一个摄像头，可以在圆盘旋转的过程中进行连续的拍照（我怀疑应该叫“摄像”），以便读出反应后的光学信号来识别响应的碱基。因为是一次连续“读取”整个圆盘的信号，所以速度很快。

Mostly natural sequencing chemistry

2、大部分是天然的测序化学

说人话版：与一般主流做法不同（点名可逆末端终止法...），参与反应的不仅有修饰的核苷酸，而且大部分（~80%）其实是天然核苷酸（dNTP)，以保证合成的快速而且无反应切除后残留在DNA链上的“瘢痕”，影响下一步的反应效率（纯天然无添加就是好）。

熟悉二代测序的盘友们都知道，目前主流的2家高通量测序厂家（就不点名i家和M家了），在测序化学上都是用修饰过的核苷酸来反应，以便反应“慢”下来，可以留足够的时间拍照识别(这一循环时接上去的)碱基。

UG用了这个“Mostly natural sequencing-by-synthesis (mnSBS) ”的测序化学体系，在一个cycle里面掺入了大部分的天然核苷酸，还有少量(<20%）的修饰核苷酸（仅带有荧光标记，非终止non-terminated的）。在反应时，待测链会接上0、1或者N个单一种类的核苷酸(dA、dT、dC、dG)来延长待测链；一但反应开始，少部分的修饰核苷酸加上去以后，就可以有荧光信号产生，让该数据点产生光学信号。

由上图可以知道，不同的碱基是标记不同波长的荧光，而同一个种类的碱基接上1个还是N个，可以从这个曲线中反推得到。所以通过看荧光信号的波长和强度，就可以知道这一段加上去是“什么”和“多少个”单一的核苷酸了，根据A-T\G-C的匹配原则，待测链的序列也就知道了。

这个化学体系的好处就是绝大部分是“纯天然无添加”，反应相当地快（因为没有加入终止子“刹车”，反应+拍照过程一共是2min），也因为没有可逆末端终止子切来切去带来的“化学瘢痕”，影响后续反应效率。当然，对于这么大面积的晶圆的拍照速度，也真的是超快！

Neural network-enabled base-calling

3、神经网络算法实现碱基识别

说人话版：（由于测序化学体系的独创性）整张200mm晶圆上拍照后，数据量极大，而且有很多因素影响ATCG碱基的识别，因此需要用神经网络算法来学习、训练，以获得准确的碱基识别模型，达到准确测序的结果。

根据上面的流体、光学和测序化学的部分介绍，大家应该能想象到，要准确的把一个点上加了什么碱基、加了多少个碱基，一直持续准确的记下来，这是需要算法上有很多的校正才行。

因为影响因素有很多，包括：每个待测序列是否都是跑得齐("dephasing")、晶圆上不同点(不同待测序列片段)的空间定位、不同的标记核苷酸反应效率、随机信号噪声等等。

为了让识别效果是准确的，UG使用了神经网络法，就是拿大量已知数据去训练算法，然后不断拿真实数据去验证和修正算法。最后他们实现的效果是：

对于上1-2个碱基的准确识别率是99.5%，如果是连续8个同样的碱基，则准确率降为90%，如下图所示。

---------------画外音----------------------

整体了解下来，UG的这个原型机设计还是蛮巧妙的。让我想起了当年的留声机+黑胶唱片...

在这平台上UG是实现了多快好省的大规模测序：

多：用大晶圆实现了10000M的reads的同时测序（横向相比较，目前商品化的高通量测序仪应该最多是5000M）；

快：一个cycle是2分钟，做300个cycle说是~20小时(没明说是PE还是SE，感觉会是SE)；

好：质量能达到Q30 达到>85%的水平；

省：试剂成本看着是真滴低，因为都打到100USD的全基因组成本上去了。

值得注意的是，这个肯定是只算试剂成本啊，大家也不能过度解读了。当大家说起第一个人类基因组花了好多亿美元的时候，那可不是仅算试剂成本啊。。。

Anyway，这肯定是一个很有前景、值得期待的测序技术体系。我看他们叫Ultima Genomics，也真是取名取得很好啊，难道这就是“终极的基因组测序体系”？

还记得功夫里面的终极杀人王火云邪神说过，“天下武功唯快不破”！在实现如此高通量的测序下，还做得这么快，确实很厉害。我看i家和M家都得密切关注动向才行。

不过话说回来，在实现超大规模测序上，M家的T系列（T7、T10、T20）其实也很早突破了数千兆reads同时测序的水平，而且测序速度也确实做到很快了。M家主要通过的是“浸泡式反应”+“高速拍照”的路径来实现。如果大家去细致地了解一下，就会发现，其实UG的一些做法，其实也跟M家的做法本质上是差不多的。当然了，这里不是说谁抄的谁，我只是判断：

在目前技术没有本质飞跃的前提下，大规模测序的最好的技术路线就是去优化测序化学体系，以及提高光学系统的效率！

这就好比练武功，练得一招一式要说重要，其实不重要，重要的是内涵。。。哦不是，是内力。这就是张无忌、扫地僧这些人牛x的原因。

最后“高深”的问题来了：简简单单地说了这么些，你们都看懂了吗？

如果看懂了，我是不是要找UG要一下广告费

细数，哪些驻津央企大佬出席了这场香艳饭局？

毫无意外，再创新高！

天津版“周公子”晒与多位国企大佬的香艳酒局，喊着想看十万加曝光文章

穷追猛打！别让油的关注度被稀释转移

特朗普遇刺13大疑问，深刻揭示犹撒本质

技术控独家揭秘：$100 WGS 灵感来源留声机？

您可能也对以下帖子感兴趣

细数，哪些驻津央企大佬出席了这场香艳饭局？

毫无意外，再创新高！

天津版“周公子”晒与多位国企大佬的香艳酒局，喊着想看十万加曝光文章

穷追猛打！别让油的关注度被稀释转移

特朗普遇刺13大疑问，深刻揭示犹撒本质

生成图片，分享到微信朋友圈

技术控独家揭秘：$100 WGS 灵感来源留声机？

您可能也对以下帖子感兴趣