Nuestro procesamiento de datos

Kids First Data Resource es un recurso de datos genómicos que permite realizar descubrimientos sobre las causas genéticas subyacentes del cáncer pediátrico y los defectos congénitos estructurales..

Estructura del recurso de datos Kids First

Los niños primero estudiar Es una cohorte de participantes enviada por un solo grupo de investigadores con el propósito de investigar una condición particular.. Los estudios son seleccionados por el programa de investigación Gabriella Miller Kids First (NIH) y la información sobre los proyectos de investigación originales que subyacen a estos estudios está disponible en su sitio web aquí. Las muestras biológicas y los archivos de estos estudios que se publicaron en el portal Kids First ahora están disponibles para investigaciones secundarias por parte de investigadores de todo el mundo..

A partícipe es una sola persona que se inscribió en un estudio de Kids First y ha dado su consentimiento para compartir muestras biológicas y datos para investigación y descubrimiento.. Un participante solo puede inscribirse en un estudio de Kids First. No todos los participantes se ven afectados por la condición de interés de su estudio. – Por ejemplo, algunos estudios inscriben a padres y hermanos que no padecen la afección.

A muestra biológica es una colección de material biológico de un participante. Cada bioespécimen sólo puede pertenecer a un único participante.. Un participante puede tener varias muestras biológicas que están representadas en el Portal Kids First. – Por ejemplo, una muestra de tejido tumoral, así como una muestra de tejido de la línea germinal, como sangre o células bucales derivadas de la saliva.

A archivo de datos es un archivo informático digital generado a partir de información derivada de una muestra biológica. En el contexto de Kids First, A menudo se trata de archivos de secuenciación genómica derivados de ADN/ARN extraídos de una muestra biológica.. Una sola muestra biológica puede tener varios archivos de datos. – Por ejemplo, lecturas alineadas en formato .bam y variantes en formato .g.vcf. Además, un único archivo de datos puede estar asociado con múltiples muestras biológicas – Por ejemplo, variantes llamadas conjuntas en formato .vcf derivadas de una familia de participantes relacionados.

Identificación de participantes en los estudios – Ontologías clínicas

El Centro de recursos de datos Kids First respalda las comparaciones de estudios cruzados de los participantes de acuerdo con nuestro mandato de descubrimiento de enfermedades cruzadas.. Porque los estudios de Kids First se derivan de diferentes grupos de investigadores de todo el país., Los términos descriptivos asignados a los participantes no son universales.. Un cardiólogo puede utilizar el término TEA para referirse a la condición del corazón comunicación interauricular, mientras que un psicólogo podría inferir que eso significa desorden del espectro autista, sin ningún contexto dado.

Para abordar cuestiones como éstas, El Kids First Data Resource Center utiliza ontologías clínicas para estandarizar el lenguaje descriptivo en todos los estudios individuales.. Usamos dos ontologías. – el Ontología del fenotipo humano (HPO) para los fenotipos y la Ontología de enfermedades MONDO (MUNDO) para diagnósticos. Las ontologías asignan únicas, Códigos numéricos que distinguen las condiciones entre sí.: el TEA que investigas podría ser caballos de fuerza:0001631 o caballos de fuerza:0000729. Las ontologías están organizadas en una estructura jerárquica., en los cuales términos muy específicos (como caballos de fuerza:0001631 comunicación interauricular y caballos de fuerza:001636 tetralogía de Fallot) se unen a más amplios, términos menos específicos (caballos de fuerza:0030680 Morfología anormal del sistema cardiovascular.). La creación de cohortes virtuales de participantes de Kids First en todos los estudios utilizando códigos de ontología admite búsquedas amplias o específicas.. Para más información, ver la página de la pestaña Participantes.

Combine archivos de datos entre estudios – Flujos de trabajo bioinformáticos compartidos

El Kids First Data Resource Center admite el análisis cruzado de archivos de datos mediante el uso de un conjunto de flujos de trabajo bioinformáticos estandarizados.. Los resultados de un único flujo de trabajo se armonizan para un análisis combinado independientemente del estudio de Kids First con el que estén asociados..

El Kids First Data Resource Center admite cuatro flujos de trabajo bioinformáticos.

El Alineación Kids First DRC y flujo de trabajo GATK HaplotypeCaller sigue las mejores prácticas generales descritas en Preprocesamiento de datos para el descubrimiento de variantes. Utiliza entrada bam/fastq y se alinea/realinea con una referencia fasta indexada por bwa., versión hg38. El bam resultante se elimina y la puntuación base se recalibra. Se calcula la contaminación y se crea un gVCF opcionalmente usando GATK4 vbeta.1-3.5 HaplotypeCaller.
El Flujo de trabajo conjunto de genotipado de Kids First DRC utiliza gVCF existentes, probablemente del haplotipo GATK para identificar variantes cortas de la línea germinal (SNP + indeles) para crear llamadas variantes llamadas conjuntas familiares (típicamente madre-padre-hijo). Peddy se postula para plantear cualquier problema potencial en las definiciones de relaciones familiares y la asignación de sexo..
El Flujo de trabajo de variantes somáticas de Kids First DRC toma entradas alineadas y realiza llamadas de variantes somáticas usando Strelka2, Silenciar2, Lanceta, y VarDict Java, Estimación CNV usando Control-FREEC, kit CNV, y GATK, y llamadas SV usando Manta. Para datos de secuenciación del genoma completo, el flujo de trabajo también predecirá ADN extra cromosómico (ADNec) utilizando AmpliconArchitect Los resultados de las llamadas de variantes somáticas están anotados con puntos de acceso, frecuencias de población asignadas usando gnomAD AF, modelos genéticos calculados utilizando Variant Effect Predictor (PEV), Luego agregó una salida MAF adicional utilizando una versión modificada del Memorial Sloan Kettering Cancer Center. (MSKCC) vcf2maf.
El Flujo de trabajo Kids First DRC RNA-Seq pasa lecturas de ARN a STAR para su alineación. RSEM utiliza el resultado de alineación para la estimación de la abundancia de la expresión genética y rMATS para la detección diferencial de eventos de empalme alternativo.. Además, Kallisto se utiliza para la cuantificación., pero utiliza pseudoalineaciones para estimar la abundancia de genes a partir de los datos sin procesar. La llamada Fusion se realiza utilizando las herramientas de detección Arriba y STAR-Fusion en las salidas de alineación STAR.. annoFuse realiza el filtrado y la priorización de llamadas de fusión. Las métricas para el flujo de trabajo son generadas por RNA-SeQC. Los archivos de unión para el flujo de trabajo son generados por rMATS.
El Los niños primero leen el flujo de trabajo acepta la entrada de las Biosciencias del Pacífico (Pacbio) o las tecnologías de Nanopore de Oxford (ONT) Long lee plataformas. Las salidas incluyen alineaciones, Pequeñas variantes de la herramienta de software Nanocaller, y variantes estructurales de Sniffles, Sentieon Longreadsv, y PBSV.

Interesado en combinar sus propios datos con los de Kids First? Cada uno de los flujos de trabajo bioinformáticos de Kids First DRC está disponible en GitHub y CAVATICA para los análisis propios del usuario., permitiendo a los investigadores "aportar sus propios datos" a las miles de muestras armonizadas de Kids First para un análisis aún más amplio..

Niveles de acceso a datos – Registrado vs Controlado

Mientras que los usuarios pueden explorar todos los archivos disponibles en Kids First Portal, Es posible que tengan que solicitar acceso a archivos de datos específicos de interés.. Los archivos generados por Kids First DRC están organizados en dos categorías amplias. Los archivos de acceso al registro están disponibles para acceso y análisis inmediatos por parte de cualquier usuario que cree una cuenta en el Portal Kids First.. Los archivos de acceso controlado requieren la aprobación de dbGaP antes de que se les conceda el acceso. Para más información sobre cómo solicitar acceso, vea nuestra página en dbGaP.

Ambos niveles de acceso requieren que los usuarios acepten las exenciones de responsabilidad de Kids First DRC, Términos & Condiciones, y política de privacidad, como acordaron seguir al crear su cuenta en Kids First Portal.

El primer flujo de trabajo bioinformático de Kids	Archivos de acceso a registro	Archivos de acceso controlado
Alineación y llamador de haplotipos GATK	n / A	Lecturas alineadas Variantes de la línea germinal en formato gVCF
Flujo de trabajo de genotipado conjunto	n / A	Variantes de línea germinal llamadas conjuntas basadas en tríos
Flujo de trabajo somático	SNV anotados con variantes de línea germinal previstas eliminadas Variantes de número de copia Variantes estructurales	SNV anotados con variantes de línea germinal previstas marcadas
Flujo de trabajo de secuenciación de ARN	Expresión genética cuantificada Llamadas fusiones genéticas	Lecturas alineadas Lecturas no alineadas
Long lee el flujo de trabajo	n / A	Lecturas alineadas Variantes de nucleótidos simples Variantes estructurales

Empezando

Exploración de datos

Analizando datos

Nuestro procesamiento de datos

Estructura del recurso de datos Kids First

Identificación de participantes en los estudios – Ontologías clínicas

Combine archivos de datos entre estudios – Flujos de trabajo bioinformáticos compartidos

Niveles de acceso a datos – Registrado vs Controlado

Acerca de

Recursos

Noticias

Instituciones asociadas a Kids First

Consulta de créditos de nube

Los niños primero: Hernia diafragmática congénita
Los niños primero: Defectos cardíacos congénitos
Los niños primero: Sarcoma de Ewing - Riesgo genético
Los niños primero: Hendidura Orofacial - Ascendencia europea
Los niños primero: Desnervación craneal sindrómica
Los niños primero: Escoliosis idiopática adolescente
Los niños primero: Trastornos del desarrollo sexual
Los niños primero: Hendidura Orofacial - latinoamericano
Los niños primero: Neuroblastoma
Los niños primero: Encondromatosis
Los niños primero: Leucemia familiar
Los niños primero: Hendidura Orofacial - Ascendencia africana y asiática
Los niños primero: Nueva susceptibilidad al cáncer en las familias (desde BASIC3)
Los niños primero: Osteosarcoma
Los niños primero: Microsomía craneofacial
Los niños primero: Defectos renales y del tracto urinario
Los niños primero: microtia - Hispano
Los niños primero: Intersecciones del cáncer & SBD
Los niños primero: Atresia esofágica y fístulas traqueoesofágicas
niño primero: hemangiomas (FACE)
Los niños primero: Craneosinostosis no sindrómica
Los niños primero: Neoplasias mieloides
Los niños primero: Leucemia & Defectos cardíacos en el síndrome de Down
Los niños primero: TODOS de células T
Los niños primero: Síndrome de Cornelia de Lange
Los niños primero: Extrofia vesical, epispadias, Complejo
Los niños primero: Defectos de nacimiento de lateralidad
Los niños primero: Síndrome de CARGA
Los niños primero: Hendiduras orofaciales - Filipinas
Los niños primero: Trastornos del espectro alcohólico fetal
Los niños primero: Tumores intracraneales de células germinales
Los niños primero: Defectos estructurales del tubo neural
Los niños primero: Defectos cerebrales estructurales recesivos
Los niños primero: Cromosoma 18 Defectos de nacimiento estructurales
Red de tumor cerebral infantil (CBTN)