跳至主要内容
搜索

我们的数据处理

Kids First 数据资源是一种基因组数据资源,有助于发现儿科癌症和结构性出生缺陷的潜在遗传原因.

Kids First 数据资源的结构

孩子第一 学习 是由一组研究人员为了研究特定条件而提交的一组参与者. 研究由加布里埃拉米勒儿童优先研究计划选择 (NIH) 有关这些研究的原始研究项目的信息可在他们的网站上找到 这里. 已在 Kids First Portal 上发布的这些研究的生物样本和文件现在可供世界各地的研究人员进行二次研究.

A 参与者 是参加“儿童优先”研究并同意分享生物样本和数据以供研究和发现的个人. 参与者只能参加一项“儿童优先”研究. 并非所有参与者本身都会受到研究兴趣条件的影响 – 例如, 一些研究招募了没有这种症状的父母和兄弟姐妹.

A 生物样本 是来自参与者的生物材料的集合. 每个生物样本只能属于一个参与者. 一名参与者可能拥有多个生物样本,这些生物样本会出现在 Kids First Portal 中 – 例如, 肿瘤组织样本以及生殖系组织样本,例如源自唾液的血液或口腔细胞.

A 数据文件 是根据生物样本信息生成的数字计算机文件. 在“儿童第一”的背景下, 这些通常是从生物样本中提取的 DNA/RNA 衍生的基因组测序文件. 单个生物样本可能有多个数据文件 – 例如, .bam 格式的对齐读取和 .g.vcf 格式的变体. 此外, 单个数据文件可能与多个生物样本相关联 – 例如, 来自一系列相关参与者的 .vcf 格式的联合调用变体.

识别跨研究的参与者 – 临床本体论

Kids First 数据资源中心支持根据我们的跨疾病发现任务对参与者进行跨研究比较. 因为“儿童优先”研究来自全国各地不同的研究小组, 分配给参与者的描述性术语并不通用. 心脏病专家可能会使用这个术语 自闭症谱系障碍 参考心脏状况 房间隔缺损, 虽然心理学家可能会推断这意味着 自闭症谱系障碍, 没有任何给定的上下文.

为了解决诸如此类的问题, Kids First 数据资源中心使用临床本体论来标准化各个研究的描述性语言. 我们使用两个本体 – 这 人类表型本体论 (羟基磷灰石) 对于表型和 MONDO 疾病本体论 (世界) 用于诊断. 本体分配唯一的, 区分不同条件的数字代码: 您研究的 ASD 可能是 生命值:0001631 或者 生命值:0000729. 本体以层次结构组织, 其中非常具体的条款 (例如 生命值:0001631 房间隔缺损生命值:001636 法洛四联症) 更广泛的加入, 不太具体的术语 (生命值:0030680 心血管系统形态异常). 使用本体代码在研究中构建“Kids First”参与者的虚拟队列,支持广泛或特定的搜索. 了解更多信息, 请参阅“参与者”选项卡页面.

合并跨研究的数据文件 – 共享生物信息学工作流程

Kids First 数据资源中心通过使用一组标准化生物信息学工作流程支持数据文件的交叉研究分析. 无论单个工作流程的输出与哪项 Kids First 研究相关联,都会对组合分析进行协调.

Kids First 数据资源中心支持四种生物信息学工作流程.

  • Kids First DRC 比对和 GATK HaplotypeCaller 工作流程 遵循中概述的广泛最佳实践 用于变体发现的数据预处理. 它使用 bam/fastq 输入并对齐/重新对齐到 bwa 索引的参考 fasta, HG38版本. 对生成的 bam 进行重复数据删除并重新校准基本分数. 计算污染并可选地使用 GATK4 vbeta.1-3.5 HaplotypeCaller 创建 gVCF.
  • Kids First DRC 联合基因分型工作流程 使用现有的 gVCF, 可能来自 GATK 单倍型,用于识别种系短变体 (单核苷酸多态性 + 插入缺失) 创建家族联合变异调用 (通常是母亲-父亲-孩子). 佩迪的职责是提出家庭关系定义和性别分配方面的任何潜在问题.
  • Kids First DRC 体细胞变异工作流程 使用 Strelka2 获取对齐的补记输入并执行体细胞变异调用, 突变体2, 柳叶刀, 和 VarDict Java, 使用 Control-FREEC 估计 CNV, CNV试剂盒, 和GATK, 使用 Manta 进行 SV 调用. 对于全基因组测序数据, 该工作流程还将预测额外的染色体 DNA (cDNA) 使用 AmpliconArchitect 体细胞变异调用结果用热点进行注释, 使用 gnomAD AF 分配总体频率, 使用变异效应预测器计算基因模型 (视觉诱发电位), 然后使用纪念斯隆凯特琳癌症中心的修改版本添加了额外的 MAF 输出 (MSKCC) VCF2MAF.
  • Kids First DRC RNA-Seq 工作流程 将 RNA 读数传递给 STAR 进行比对. RSEM 使用比对输出进行基因表达丰度估计,rMATS 使用比对输出进行差异选择性剪接事件检测. 此外, Kallisto 用于量化, 但使用伪比对来估计原始数据的基因丰度. Fusion Calling 使用 Arriba 和 STAR-Fusion 检测工具在 STAR 对齐输出上执行. 融合调用的过滤和优先级由 annoFuse 完成. 工作流程的指标由 RNA-SeQC 生成. 工作流程的连接文件由 rMATS 生成.

有兴趣将您自己的数据与 Kids First 的数据结合起来? 每个 Kids First DRC 生物信息学工作流程均可在 GitHub 和 CAVATICA 上获取,供用户自己分析, 允许调查人员将自己的数据“带入”数千个统一的 Kids First 样本中,以进行更大规模的分析.

数据访问层 – 注册与控制

用户可以浏览 Kids First Portal 中的所有可用文件, 他们可能必须申请访问感兴趣的特定数据文件. Kids First DRC 生成的文件分为两大类. 任何在 Kids First Portal 上创建帐户的用户都可以立即访问和分析注册访问文件. 受控访问文件在授予访问权限之前需要 dbGaP 批准. 有关申请访问的更多信息, 请参阅我们的 dbGaP 页面.

这两个级别的访问都要求用户接受 Kids First DRC 免责声明, 条款 & 状况, 和隐私政策, 因为他们同意在创建 Kids First Portal 帐户后遵循.

Kids First 生物信息工作流程 注册-访问文件 受控访问文件
比对和 GATK 单倍型调用者
  • 不适用
  • 对齐读取
  • gVCF 格式的种系变体
联合基因分型工作流程
  • 不适用
  • 基于三重奏的联合称为种系变体
体细胞工作流程
  • 删除了预测的种系变异的带注释的 SNV
  • 拷贝数变体
  • 结构变体
  • 带有预测种系变异标记的带注释的 SNV
RNA 测序工作流程
  • 量化基因表达
  • 称为基因融合
  • 对齐读取
  • 未对齐读取
关闭菜单