Kids First 长读测序试点计划: 应用新技术研究儿童癌症和结构性出生缺陷

贡献者:

致电加里梅拉, 哲学博士; 布罗德研究所

肖恩·利维, 博士; 哈德森阿尔法生物技术研究所

人类基因组很复杂, 和非常大的. 据国家人类基因组研究所称, 单个染色体的大小范围为 50 到 300 百万碱基对 (DNA分子, 始终以 A-T 或 C-G 形式配对, 形成两股绞合线). 整个人类基因组包含超过 3 十亿碱基对.

解码和检查驱动细胞行为的完整遗传信息的能力对于医学科学来说非常重要, 并且几乎成为可能 2 几十年前，随着人类参考基因组的完成, 人类基因中发现的所有基因组信息和多样性的标准化参考和汇总. 研究癌症时, 出生缺陷, 和罕见疾病, 科学家可以将个体的基因序列与标准化参考基因组进行比较，以检测 DNA 序列的变异或变化, 然后可以指出这些疾病和失调的可能原因.

生成单一的尚不可行, 连续序列 (或“读”) 一个人的整个基因组. 取决于测序中心和所使用的技术, 研究的标准是对周围的内容进行“短读” 100-150 一次碱基对, 然后通过计算将它们拼接在一起形成整个基因组序列 (全基因组测序).

短读以随机顺序生成，需要重新组装到基因组中，以便尝试识别研究人员感兴趣的差异. 这类似于完成拼图游戏. 人们需要将所有的部分都放在适当的位置才能看到全貌. 但通过短读长测序, 这个拼图可以有数亿个碎片需要组装.

尽管面临这样的挑战, 短读长测序是检查生物医学研究基因组数据最容易获得且最具成本效益的方法. 大致在 15 短读长测序问世已有多年, 良率和准确率稳步提升. 测序成本大幅下降, 实现更大规模的生物学研究. 数据的更大公开性使科学家能够开发新工具，从数据中提取不断增加的价值. 短读长测序是基因测序的标准方法，因为它已明确成为许多工作的灵活工具.

但这并不一定意味着它是正确的工具 每一个 工作.

短读的一个根本限制是它们……很短, 因此能力有限. 它们在检测 DNA 序列的大变化方面表现不佳 (所谓的结构变体, 包括删除, 重复, 倒转, 或易位往往比短读本身更长), 以及检测重复区域的变化，这使得短读拼图组装变得更加困难.

长的-读取由特殊类型的测序仪产生. 长读长有数千个碱基对长，可用于照亮基因组中短读长无法访问或组装的位置. 它们帮助研究人员探索基因组的结构变异并改进组装 (组装拼图更容易 100 比切成一块大的块 1,000 小件).

直到几年前, 长读长测序仍然太昂贵, 太不准确, 并且很难用于大量人类基因组的常规测序. 但最近这种情况开始发生重大变化.

长读长测序供应商 (太平洋生物科学公司 – PB, 和牛津纳米孔 – 光网络终端) 发布的仪器版本与之前的迭代相比大幅提高了长读产量. 准确率大幅提升，测序成本下降一个数量级. 更高的数据可用性再次促进了新颖软件方法的开发，以利用改进并提供新的分析功能. 在演唱会, 这些变化使得长读长测序数据能够以人类患者研究所需的规模生成和处理.

现在, 根据其长读长测序试点计划, NIH 共同基金的 Gabriella Miller Kids First 儿科研究计划 (孩子第一) 正在努力利用这些快速发展的技术来揭示儿童癌症和结构性出生缺陷背后的遗传结构变异.

两个 Kids First 基因组测序中心, 哈德森阿尔法生物技术研究所和布罗德研究所, 成立的前提是带来最合适、最先进的测序技术, 以高度支持的方式, 致“儿童第一”计划中选定的调查员. 长读长试点计划是正在进行的短读长测序工作的延伸，旨在为 Kids First 研究人员和更广泛的研究社区提供最佳的可用资源，以揭示这些非常独特的队列和样本的新颖见解或更高分辨率的数据. 目前有七项研究参与儿童首次长读试点计划.

由首席研究员博士领导. 贝勒医学院的 Sharon Plon 和 HudsonAlphia 测序是一个对 BASIC3 队列进行长读长测序的项目. 该项目希望通过使用长读长全基因组测序分析种系结构变异，提高我们对儿科癌症易感性的集体理解.

首席研究员博士. 西奈山伊坎医学院的 Bruce Gelb 正在领导一项研究，涉及博德研究所生成的长读长全基因组序列, 专注于先天性心脏病 (冠心病). 他的团队希望利用长读长测序来识别结构变异和基因重复，这些变异和基因重复可能是某些患者患上冠心病的一个促成因素.

阅读质量持续进步, 读取长度, 数据生产的成本效率给我们带来了一个有趣的转折点. Oxford Nanopore 技术不断提高化学反应和读数准确性，同时保持生成数十万至数百万碱基对长度的读数的能力. Pacific Biosciences 继续提高其平台的产量和质量. 还有 循环共识测序 (CCS) Pacific Biosciences 的方法可以被认为结合了传统短读长测序的最佳功能，通过多次检测相同的测序来提高读长准确性. CCS 允许在一次读取中检测到数千个碱基对, 但检测到读取 7 到 12 重复次数, 为该片段开发高度准确的测序.

与长读长技术相关的挑战之一是它们都需要非常高质量的 DNA 样本. 在加载到定序器机器上之前, DNA分子必须从细胞中提取出来, 物理和化学破坏的过程，也可以破坏脆弱的核苷酸链. 提取过于粗糙可能会将 DNA 撕成小碎片，不适合长读长测序. Kids First DRC 及其测序中心合作伙伴正在与研究人员合作提供样本，以确保这些样本具有足够的质量，以最大限度地发挥长读长技术的优势.

Gabriella Miller Kids First 计划对支持长读长测序的承诺有助于将注意力集中到可能被低估或无法通过单一技术检测到的基因组或变异类别领域. 组合时, 长读和短读的努力将相互促进，以推进这些儿科疾病背后的途径的发现. 值得注意的是，一种技术不会取代另一种技术或完全替代另一种技术. 这是一个为调查人员提供更多工具和工具箱的机会.