A lo largo de la historia de la humanidad, uno de los grandes retos del ser humano es el entender lo que nos rodea y eventualmente modificarlo para nuestro beneficio, desde los grupos recolectores que seleccionaban aquellas plantas comestibles y medicinales hasta nuestros días, donde nos preguntamos acerca de la posibilidad de la existencia de vida en otros planetas. En este sentido, en los últimos 20 años diversos grupos científicos se plantearon el reto de descifrar TODOS los genes contenidos en los cromosomas de todos los seres vivos que habitan el planeta, es decir, el GENOMA de cada organismo.
Este reto planteo diversas estrategias de automatización a nivel experimental para hacer más rápido y eficiente la dilucidación de dichos genes y no es sino hasta 1995 cuando el grupo de Craig Venter publica el primer organismo de vida libre completamente secuenciado, la bacteria Haemophilus influenzae (la responsable de la diversas enfermedades, entre ellas la gripe, la neumonía o la meningitis). En los siguientes años harían públicos los datos de los genomas de otros organismos, tales como la levadura (Saccharomyces cerevisiae), un organismo que produce metano (Methanococcus jannaschii), la bacteria que forma parte de nuestra flora bacteriana (Escherichia coli K-12) y las primeras versiones del genoma del Humano. Así, empieza la era genómica y que ha revolucionado la forma como analizamos los datos hoy en día.
A la distancia del primer organismo secuenciado, un recuento breve se puede realizar y que nos muestra la necesidad nuevos enfoques para comprender mejor nuestro entorno. Por ejemplo, en el sitio web del Instituto de Salud de los Estados Unidos (NIH, por sus siglas en inglés) se encuentran disponibles los más 100,000 proyectos concluidos o en proceso para determinar el orden de los genes en diversos organismos, tanto bacterias, hongos, plantas, mamíferos e inclusive virus (https://www.ncbi.nlm.nih.gov) o en la base de datos Uniprot (http://www.uniprot.org), donde se pueden consultar las más de 100 millones de proteínas depositadas y anotadas, tanto a nivel experimental y con enfoques teóricos. Estos números son muestra de la cantidad de información que se ha generado en los últimos 25 años y que seguramente seguirá incrementándose con la llegada de mejores métodos de secuenciación. Si a esto le agregamos la exploración y secuenciación de las comunidades microbianas o metagenómas (ver http:// https://metagenomics.anl.gov), las cifras se elevaran indudablemente.
En este universo de información, se ha identificado principios comunes, tales como que todas las bacterias organizan sus genes en pequeños paquetes para ser expresados coordinadamente (operones), la existencia de reguladores maestros o que la historia evolutiva de los organismos inferida con un pequeño conjunto de genes desde hace más de 50 años es consistente con nuevos marcadores moleculares.
En nuestro grupo de trabajo, hemos explorado una pequeña parte de estos miles de datos, haciendo preguntas puntuales acerca de un conjunto de proteínas que regulan la expresión de los genes. Dichas comparaciones nos han mostrado la existencia de principios comunes de cómo los organismos regulan su expresión genética, de que la proporción de los elementos regulatorios esta en función del número de genes de cada organismo o que el repertorio de reacciones enzimáticas asociadas al metabolismo están influenciadas por el estilo de vida de los organismos.
A esta área se le conoce como Genómica comparativa ya que consiste en tomar los datos de un organismo de referencia y preguntar cómo se conserva o difiere en los organismos restantes. Así, se puede inferir la función de los genes considerando otras características, tales como la vecindad de los mismos o si la organización de las proteínas que son codificadas en dichos genes se mantiene o es distinta, permitiendo generar nuevas preguntas de investigación.
Uno de los retos a los que nos enfrentamos es a la generación de nuevos paradigmas de investigación a partir de los miles de datos que se obtienen a cada día y en el cual, necesitamos de la interacción entre las ciencias computacionales y la biología.