Kids First Data Resource es un recurso de datos genómicos que permite realizar descubrimientos sobre las causas genéticas subyacentes del cáncer pediátrico y los defectos congénitos estructurales..
Estructura del recurso de datos Kids First
Los niños primero estudiar Es una cohorte de participantes enviada por un solo grupo de investigadores con el propósito de investigar una condición particular.. Los estudios son seleccionados por el programa de investigación Gabriella Miller Kids First (NIH) y la información sobre los proyectos de investigación originales que subyacen a estos estudios está disponible en su sitio web aquí. Las muestras biológicas y los archivos de estos estudios que se publicaron en el portal Kids First ahora están disponibles para investigaciones secundarias por parte de investigadores de todo el mundo..
A partícipe es una sola persona que se inscribió en un estudio de Kids First y ha dado su consentimiento para compartir muestras biológicas y datos para investigación y descubrimiento.. Un participante solo puede inscribirse en un estudio de Kids First. No todos los participantes se ven afectados por la condición de interés de su estudio. – Por ejemplo, algunos estudios inscriben a padres y hermanos que no padecen la afección.
A muestra biológica es una colección de material biológico de un participante. Cada bioespécimen sólo puede pertenecer a un único participante.. Un participante puede tener varias muestras biológicas que están representadas en el Portal Kids First. – Por ejemplo, una muestra de tejido tumoral, así como una muestra de tejido de la línea germinal, como sangre o células bucales derivadas de la saliva.
A archivo de datos es un archivo informático digital generado a partir de información derivada de una muestra biológica. En el contexto de Kids First, A menudo se trata de archivos de secuenciación genómica derivados de ADN/ARN extraídos de una muestra biológica.. Una sola muestra biológica puede tener varios archivos de datos. – Por ejemplo, lecturas alineadas en formato .bam y variantes en formato .g.vcf. Además, un único archivo de datos puede estar asociado con múltiples muestras biológicas – Por ejemplo, variantes llamadas conjuntas en formato .vcf derivadas de una familia de participantes relacionados.
Identificación de participantes en los estudios – Ontologías clínicas
El Centro de recursos de datos Kids First respalda las comparaciones de estudios cruzados de los participantes de acuerdo con nuestro mandato de descubrimiento de enfermedades cruzadas.. Porque los estudios de Kids First se derivan de diferentes grupos de investigadores de todo el país., Los términos descriptivos asignados a los participantes no son universales.. Un cardiólogo puede utilizar el término TEA para referirse a la condición del corazón comunicación interauricular, mientras que un psicólogo podría inferir que eso significa desorden del espectro autista, sin ningún contexto dado.
Para abordar cuestiones como éstas, El Kids First Data Resource Center utiliza ontologías clínicas para estandarizar el lenguaje descriptivo en todos los estudios individuales.. Usamos dos ontologías. – el Ontología del fenotipo humano (HPO) para los fenotipos y la Ontología de enfermedades MONDO (MUNDO) para diagnósticos. Las ontologías asignan únicas, Códigos numéricos que distinguen las condiciones entre sí.: el TEA que investigas podría ser caballos de fuerza:0001631 o caballos de fuerza:0000729. Las ontologías están organizadas en una estructura jerárquica., en los cuales términos muy específicos (como caballos de fuerza:0001631 comunicación interauricular y caballos de fuerza:001636 tetralogía de Fallot) se unen a más amplios, términos menos específicos (caballos de fuerza:0030680 Morfología anormal del sistema cardiovascular.). La creación de cohortes virtuales de participantes de Kids First en todos los estudios utilizando códigos de ontología admite búsquedas amplias o específicas.. Para más información, ver la página de la pestaña Participantes.
Combine archivos de datos entre estudios – Flujos de trabajo bioinformáticos compartidos
El Kids First Data Resource Center admite el análisis cruzado de archivos de datos mediante el uso de un conjunto de flujos de trabajo bioinformáticos estandarizados.. Los resultados de un único flujo de trabajo se armonizan para un análisis combinado independientemente del estudio de Kids First con el que estén asociados..
- El Alineación Kids First DRC y flujo de trabajo GATK HaplotypeCaller sigue las mejores prácticas generales descritas en Preprocesamiento de datos para el descubrimiento de variantes. Utiliza entrada bam/fastq y se alinea/realinea con una referencia fasta indexada por bwa., versión hg38. El bam resultante se elimina y la puntuación base se recalibra. Se calcula la contaminación y se crea un gVCF opcionalmente usando GATK4 vbeta.1-3.5 HaplotypeCaller.
- El Flujo de trabajo conjunto de genotipado de Kids First DRC utiliza gVCF existentes, probablemente del haplotipo GATK para identificar variantes cortas de la línea germinal (SNP + indeles) para crear llamadas variantes llamadas conjuntas familiares (típicamente madre-padre-hijo). Peddy se postula para plantear cualquier problema potencial en las definiciones de relaciones familiares y la asignación de sexo..
- El Flujo de trabajo de variantes somáticas de Kids First DRC toma entradas alineadas y realiza llamadas de variantes somáticas usando Strelka2, Silenciar2, Lanceta, y VarDict Java, Estimación CNV usando Control-FREEC, kit CNV, y GATK, y llamadas SV usando Manta. Para datos de secuenciación del genoma completo, el flujo de trabajo también predecirá ADN extra cromosómico (ADNec) utilizando AmpliconArchitect Los resultados de las llamadas de variantes somáticas están anotados con puntos de acceso, frecuencias de población asignadas usando gnomAD AF, modelos genéticos calculados utilizando Variant Effect Predictor (PEV), Luego agregó una salida MAF adicional utilizando una versión modificada del Memorial Sloan Kettering Cancer Center. (MSKCC) vcf2maf.
- El Flujo de trabajo Kids First DRC RNA-Seq pasa lecturas de ARN a STAR para su alineación. RSEM utiliza el resultado de alineación para la estimación de la abundancia de la expresión genética y rMATS para la detección diferencial de eventos de empalme alternativo.. Además, Kallisto se utiliza para la cuantificación., pero utiliza pseudoalineaciones para estimar la abundancia de genes a partir de los datos sin procesar. La llamada Fusion se realiza utilizando las herramientas de detección Arriba y STAR-Fusion en las salidas de alineación STAR.. annoFuse realiza el filtrado y la priorización de llamadas de fusión. Las métricas para el flujo de trabajo son generadas por RNA-SeQC. Los archivos de unión para el flujo de trabajo son generados por rMATS.
- El Kids First Long Reads Workflow accepts input from either the Pacific Biosciences (PacBio) or the Oxford Nanopore Technologies (ONT) long reads platforms. Outputs include alignments, small variants from the software tool Nanocaller, and structural variants from Sniffles, Sentieon LongReadSV, and pbsv.
Interesado en combinar sus propios datos con los de Kids First? Cada uno de los flujos de trabajo bioinformáticos de Kids First DRC está disponible en GitHub y CAVATICA para los análisis propios del usuario., permitiendo a los investigadores "aportar sus propios datos" a las miles de muestras armonizadas de Kids First para un análisis aún más amplio..
Niveles de acceso a datos – Registrado vs Controlado
Mientras que los usuarios pueden explorar todos los archivos disponibles en Kids First Portal, Es posible que tengan que solicitar acceso a archivos de datos específicos de interés.. Los archivos generados por Kids First DRC están organizados en dos categorías amplias. Los archivos de acceso al registro están disponibles para acceso y análisis inmediatos por parte de cualquier usuario que cree una cuenta en el Portal Kids First.. Los archivos de acceso controlado requieren la aprobación de dbGaP antes de que se les conceda el acceso. Para más información sobre cómo solicitar acceso, vea nuestra página en dbGaP.
Ambos niveles de acceso requieren que los usuarios acepten las exenciones de responsabilidad de Kids First DRC, Términos & Condiciones, y política de privacidad, como acordaron seguir al crear su cuenta en Kids First Portal.
El primer flujo de trabajo bioinformático de Kids | Archivos de acceso a registro | Archivos de acceso controlado |
Alineación y llamador de haplotipos GATK |
|
|
Flujo de trabajo de genotipado conjunto |
|
|
Flujo de trabajo somático |
|
|
Flujo de trabajo de secuenciación de ARN |
|
|
Long Reads Workflow |
|
|