Objetivos

Con el fin de alcanzar un progreso significativo en el reto planteado en AIR Genomics se ha propuesto investigar las arquitecturas de Deep Learning y su implementación dentro de pipelines bioinformáticos. En este contexto se han investigado las diferentes posibilidades tanto a nivel de arquitecturas como de fases de análisis en las que se puede integrar la IA. Con afán de establecer el contenido del proyecto, así como el alcance del mismo, se enumeran a continuación los objetivos marcados:

O1

Investigar en nuevos algoritmos de inteligencia artificial aplicados a la genómica: Con especial énfasis en el análisis de datos de secuenciación masiva en la práctica clínica, se analizarán previamente las técnicas usadas actualmente por la comunidad genómica y los retos que plantean, y se propondrá el diseño de nuevos modelos y algoritmos que permitan superar las dificultades halladas.

O2

Analizar la aplicabilidad de tecnologías computacionales basadas en IA en el bloque de análisis de calidad de las lecturas secuenciadas y el filtrado de estas: El análisis de la calidad de las muestras es un primer paso esencial en el preprocesamiento de los datos. Permite eliminar posibles errores y contaminaciones debidos a la tecnología empleada y/o al diseño y construcción de la librería.

O3

Estudiar e investigar algoritmos basados en inteligencia artificial para el bloque de mapeado o alineamiento respecto al genoma de referencia: Este objetivo permitirá superar los retos que actualmente plantean, en esta segunda fase del pipeline, los métodos clásicos de programación dinámica (e.g. el algoritmo de Smith-Waterman).

O4

Analizar los potenciales usos de la IA en el proceso de detección de variantes genéticas y obtención de genotipo: tradicionalmente se han utilizado en esta fase algoritmos de inferencia bayesiana. En este sentido, se plantea la investigación en nuevos algoritmos, tanto para la detección de pequeñas variantes de un único nucleótido (SNPs, INDELs) como para la detección de variantes de carácter germinal y somático.

O5

Estudiar la aplicación de algoritmos inteligentes en la detección de variantes estructurales: Las variantes estructurales son especialmente complejas, ya que suelen abarcar más de 50 nucleótidos de longitud y están presentes en una gran cantidad de patologías. Los algoritmos clásicos muestran debilidades a la hora de capturar este tipo de patrones en los datos de secuenciación, por lo que se pretende investigar y diseñar nuevos algoritmos que contribuyan a mejorar esta fase.

O6

Analizar las principales técnicas IA aplicadas a la anotación, priorización e interpretación de las variantes detectadas: En la práctica clínica es esencial asociar un conjunto de síntomas o fenotipos con las características genéticas de un individuo, y actualmente resulta muy complejo llevar a cabo esta asociación y priorización del conjunto de variantes obtenido dentro del paradigma del big data actual.

O7

Investigar en otras tecnologías fuera del ámbito de la IA (técnicas de registro distribuido, cloud computing, etc.) que contribuyan a la mejora del análisis de datos de secuenciación masiva, la creación y diseño de pipelines automatizables y reproducibles, o el aprovechamiento de recursos computacionales: Entre las tecnologías inicialmente candidatas destacan las técnicas de registro distribuido o DLT (e.g. Blockchain), que potenciarán el uso y transferencia de datos genómicos entre distintos agentes, o la computación en la nube o cloud computing, que permitan optimizar el procesamiento de las muestras y la ejecución del pipeline.

O8

Difundir los resultados obtenidos en las investigaciones sobre la aplicación de algoritmos de IA en el análisis de datos de secuenciación masiva: La diseminación de los resultados alcanzados en las investigaciones realizadas, contribuirá a incrementar la colaboración ya existente entre la comunidad científica, y la transferencia y generación de conocimiento en el ámbito de la genómica.