| CICESE

61/2017 Los datos de secuenciación genómica necesitan ser investigables tanto en la teoría como en la práctica

Ensenada, Baja California, México, 26 de septiembre de 2017. Cuando tienes una cantidad enorme de datos, por ejemplo de secuenciaciones masivas de material genético de microorganismos para realizar estudios ambientales, ¿qué herramientas vas a usar para analizar esas series de datos y cómo aseguras que los datos mismos sean investigables, fáciles de buscar y que estén disponibles más allá de una publicación científica?

El tema es muy novedoso en ciencia. La gran cantidad de información generada por las plataformas de secuenciación de última generación ha impulsado un sano debate sobre las mejores prácticas para el análisis de datos, al mismo tiempo que incrementa la demanda de nuevas herramientas (como la metagenómica y la metatranscriptómica) que nos permiten evaluar la diversidad genética y el potencial funcional de los microorganismos, eliminando, al mismo tiempo, la necesidad de aislarlos, lo que permite abordar e interpretar importantes cuestiones ecológicas.

Lo anterior será discutido esta semana en el 4º Taller de Bioinformática que organizó el CICESE del 25 al 29 de septiembre bajo el tema “Análisis de metagenomas y metatranscriptomas ambientales”, en el cual participan profesores de la Universidad de California en Davis ofreciendo conferencias y entrenamiento en sesiones dirigidas a estudiantes de posgrado e investigadores interesados en el tema y que tienen conocimientos básicos en herramientas de bioinformática y de biología molecular.

Uno de estos profesores, el Dr. Titus Brown, de la Escuela de Medicina Veterinaria de UC-Davis, ofreció la conferencia “Trabajando con varios genomas a la vez: qué tenemos que hacer cuando tenemos todos los datos”.

Comenzó diciendo que nuestra capacidad para generar datos (secuenciaciones masivas de genomas, ya sea con metagenómica no dirigida -de shotgun- o con metatranscriptómica -secuenciación completa del material genético obtenido directamente del medio ambiente-) es eficazmente infinita. Por lo tanto, se debe evaluar qué significa esto para la investigación.

Presentó cifras de cómo ha ido creciendo la tasa de secuenación de DNA de 2001 a la fecha, y del crecimiento que se espera al 2025. Cuando se obtuvo el primer genoma completo de una persona (un humano posee poco más de 3 mil millones de bases nitrogenadas -nucleótidos-, las cuales deben determinarse para conocer su DNA), la capacidad de secuenciación mundial anual no llegaba a un tera de pares de bases (Tbp) -un billón, o sea un millón de millones-. Hoy se calcula que esta capacidad está a la mitad entre un peta y un exa de pares de bases (Pbp y Ebp) -entre mil billones y un millón de billones-, que equivalen a conocer el genoma completo de casi cada persona del planeta.

Y el número sigue creciendo. ¿A qué velocidad? De continuar la tasa de crecimiento histórico esta cifra podría duplicarse cada siete meses, pero una estimación más moderada prevé que se duplique cada 18 meses. De cualquier forma, una pregunta interesante es ¿con qué herramientas se van a analizar estos datos?

En este universo de información los datos investigables son en este momento eficazmente invisibles. Por ello la perspectiva, desde su punto de vista, es que los datos necesitan no solamente ser investigables en teoría, sino en la práctica. Y que además es importante generar datos fáciles de buscar y disponibles para búsquedas casuales.

Por ello aboga por una ciencia abierta. En su laboratorio de UC-Davis todos los métodos son desarrollados de manera abierta y muchos son utilizados ampliamente antes de haber sido sometidos o publicados. La lógica que sigue es que cuando los datos dejan de ser una limitante, los métodos se vuelven críticos. Así, la amplia diseminación y evaluación mejoran si se realiza por canales que no son los tradicionales (artículos científicos). De hecho, es a través de blogs y twitter como todo mundo se entera de las nuevas técnicas que desarrollan.

A manera de conclusiones dijo que: 1) La biología está cambiando de ser una ciencia de datos pobres a una muy rica -en datos-, y eso la vuelve muy interesante. 2) que la inversión en nuevas herramientas de procesamiento y análisis es una prioridad creciente para aquellos que quieren tomar ventaja del nuevo tipo de datos que están surgiendo. 3) que los métodos son un “bien común” cuya importancia está creciendo en la ciencia de grandes datos, y 4) que debe haber más entrenamiento y educación en el campo de la ciencia de datos.

En la apertura del 4º Taller de Bioinformática, el director general del CICESE, Guido Marinone Moschetto, destacó que en el comité organizador figuren investigadores de cinco departamentos académicos de este centro (Acuicultura, Microbiología, Biotecnología Marina, Innovación Biomédica y Ciencias de la Computación), y aseguró que los trabajos que se desarrollarán del 25 al 29 de septiembre aportarán un beneficio tanto a investigadores como a los estudiantes de posgrado que asisten.

Además de Titus Brown, participan también como profesores los doctores Harriet Alexander y Phillip Brooks, quienes abordarán tres grandes temas en los días que dura en taller: Análisis de metagenomas; Análisis de transcriptomas bacterianos, e Introducción a QIIME para el análisis de amplicones.

A nombre del comité organizador, la Dra. Asunción Lago Lestón, dijo que con este taller “se pretende dar una visión reciente de las técnicas y programas más usados en el análisis de datos metagenómicos, aprendiendo estrategias de obtención y organización de los datos procedentes de secuenciación masiva, los principios básicos para el análisis de calidad de las secuencias, métodos de asignación taxonómica y agrupamiento de genes, ensamblado, clasificación y caracterización funcional, modelos estadísticos para la estimación de la diversidad microbiana y la metodología y métricas que nos permitan comparar las comunidades microbianas”.