共同基金支持许多数据协调中心 (DCC), 例如 Kids First 数据资源中心, 提供源自数百项研究的精选数据以及从数千名人类受试者收集的样本. 基因组中产生了令人难以置信的数据类型多样性, 表达, 蛋白质组学, 宏基因组, 和成像水平, DCC 支持广泛的科学发现工作.
然而, 目前临床或生物医学研究人员利用共同基金产生的资源的能力很差. 很难跨界搜索 全部 共同基金数据集, 并且资源不易组合使用. 各个 DCC 还需要增强的受保护数据访问支持, 长期数据存储, 训练, 与灵活的数据分析平台互联, 共同基金计划生命周期结束后的数据和数据门户可用性.
共同基金数据生态系统 (CFDE) 成立于早年 2019 解决最终用户以及 DCC 本身面临的挑战. 协助共同基金 DCC, CFDE 通过对互操作性进行有针对性的投资来支持个性化 DCC 需求, 身份验证/访问受保护的数据, 训练, 程序生命周期支持, 以及评估数据可查找性的实际障碍, 无障碍, 互操作性, 和可重复使用性 (公平的). CFDE 还协调每月一次的虚拟会议 “异花授粉” 连接共同基金内外 DCC 的研讨会.
CFDE 的一项关键投资是跨 DCC 数据发现. 每个 DCC 都拥有许多资产 (数据文件) – 例如, 基因组序列, 宏基因组数据, RNA测序, 生理和代谢数据——而且很难发现这些资产 穿过 DCC. 而且, 描述文件内容的信息不以标准化格式提供. 这可以防止 DCC 使用彼此的数据, 使数据不易被其他人发现, 并挑战互操作性. 改善联邦, CFDE 创建了一个中央门户,其中包含从 DCC 托管的数据派生的清单集合. 该门户仍在开发中, 但它最终将描述每个 DCC 的所有资产,并通过这个集中式界面使它们可被发现.
这种方法的优点是生态系统的形成不需要通过中央存储库提供数据资产本身: 只有描述这些资产的库存才是集中的. 对所有共同基金资产进行编目是从许多孤立的存储库中解放数据的简单而有效的方法, 因此大大提高了所有共同基金数据的公平性. 这种形式的数据联合还可以扩展到其他机构资助的项目, 并轻松连接到其他 NIH 生态系统: 库存系统可用后, 任何人都可以使用.
CFDE 还与七桥基因公司合作,将门户网站连接到他们的 Cavatica 平台, 为了支持自定义数据分析工作流程. Cavatica 是七桥产品,提供用户友好的界面,适合初级和中级用户使用 Kids First 数据进行生物信息学分析. Cavatica 提供图形用户界面,可轻松访问 Kids First 数据或导入文件以在可视化编辑器中使用,从而使用点击界面实现可定制的分析工作流程. Cavatica 工作台旨在供可能不熟悉命令行或软件编程的临床医生或非生物信息学研究人员使用. 对于具有编程经验的更高级用户, Cavatica 还提供构建新工具和管道的能力.
Cavatica 的开发人员目前在 CFDE 的支持下获得资助,将他们的界面直接连接到 CFDE 门户. 该系统预计将于年底初步实施 2021, 旨在使用户能够创建来自共同基金 DCC 的数据的购物车列表, 将这些文件导入到 Cavatica 工作台中, 并使用他们的系统进行分析.
CFDE 还与 Kids First 和其他共同基金 DCC 合作制定培训计划,以使最终用户能够使用 CF 数据集, 以加速基础和临床研究. 本次培训计划, 可以在 https://training.nih-cfde.org/, 将为广泛的用户提供使用 CFDE 技术以及特定 DCC 的指南. 我们现有的培训包括 CFDE 门户指南以及有关如何使用 Kids First 门户的信息, 并将很快扩展到包括 Cavatica 的数据分析.