En el contexto de la era postgenómica y con la disminución de los costos (de 10 mdd a mil dolares en 15 años) para leer o secuenciar el ADN nos enfrentamos con un reto importante de Big Data en términos de adquisición, almacenamiento, análisis y distribución de datos. La velocidad de los equipos de secuenciación ha causado que el genoma de los humanos secuenciados a la fecha (Figura 1), vaya más rápido que la Ley de Moore. Además, estos análisis no consideran los datos de metagenómica y genómica de otros organismos, tales como las bacterias, plantas y animales. Esta cantidad de información genera diversos retos para identificar aquellos genes de interés biotecnológico o de salud y abre diversas preguntas acerca de considerar organismos modelo para tomarlos como referencia en dichos estudios.
Desde esta perspectiva, la bacteria Escherichia coli K-12 es el organismo modelo más estudiado desde el punto de vista de la biología molecular y del cual se conoce su genoma completo, el cual está compuesto por aproximadamente cuatro millones pares de bases (A, T, G y C) y contiene poco más de cuatro mil trescientos genes. Sin embargo, aproximadamente un tercio de sus genes no tiene una función asociada. A pesar de tener métodos robustos de análisis de secuencias automatizados, para saber la función molecular de un gen (ej. una enzima que corte carbohidratos o un transportador de membrana), este podría no tener información sobre su rol biológico dentro de la célula.
Como se ha descrito en otros artículos de la revista Quiu (véase Las proteínas también son promiscuas) los factores de transcripción (FTs) son proteínas que regulan la expresión genética, es decir, controlan cuándo uno o varios genes están apagados o encendidos. Estas proteínas han sido ampliamente estudiadas por distintos grupos de investigación, debido a su importancia de regulación en la la célula: desde el metabolismo de azúcares, hasta su programa de respuesta al estrés por un ambiente ácido. Sin embargo, del total de los 300 FTs identificados hasta la fecha, aproximadamente 100 no se conoce su función biológico. Es decir, estas proteínas son el resultado de una predicción y por lo tanto, deberían ser consideradas como hipotéticas como reguladores. Este dato es importante debido a que si consideramos que alrededor de un tercio de proteínas sumamente estudiadas en la bacteria modelo, entonces la cantidad de proteínas que no conocemos su función en el universo de secuencias generadas por estudios genómicos y/o metagenómicos se amplifica.
Por otra parte, se ha evidenciado que los genes que se coexpresan, es decir, se prenden o apagan de manera coordinada en ciertas condiciones, tienen una alta probabilidad de tener funciones biológicas asociadas. Para medir la expresión genética, se cuantifica la cantidad de ARN mensajero de un gen, bajo cierta condición de crecimiento; por ejemplo será distinto el paisaje de expresión genética de un organismo creciendo a -10° C comparado a su crecimiento a 40° C; o a un pH neutro, que a uno ácido. Esta información ha sido depositada y organizada en bases de datos (BDs), como Array Express (AE) o Gene Expression Omnibus (GEO). Asimismo, hay otras BDs, que recopilan información de otras BD, como Colombos (colombos.net), que es un compendio datos de expresión global, de organismos procariotes. El set de datos más grande en Colombos, es el de E. coli K-12, con más de 4000 condiciones de crecimiento.
En nuestro grupo de investigación, estamos interesados en identificar la función probable de las proteínas reguladoras o FTs. La propuesta es analizar los datos de expresión global, en dicha bacteria para asignarle la función a las proteínas. Para este fin, se evaluó el perfil de expresión de los 300 FTs obtenidos de la base de datos Colombos al cual se le realizó un análisis de agrupamiento (clustering) con base en el perfil de la expresión entre genes en diferentes condiciones (Figura 2). Con los resultados de este método, se obtuvieron grupos de genes con perfiles de expresión similares y que se analizaron bajo el lente de la biología modular, que analiza a las interacciones entre los componentes que forman a la célula; en este caso, los circuitos genéticos que permiten coordinar la expresión genética de manera robusta a través de la evolución.
Posteriormente hicimos un análisis de enriquecimiento funcional para obtener las vías metabólicas y los procesos biológicos sobrerrepresentados en cada cluster. Esto se realizó utilizando datos de anotación funcional y de relaciones evolutivas de las proteínas. Con este enfoque, se pudieron analizar los módulos biológicos de cada cluster. En general, la propuesta es que los reguladores hipotéticos están asociados a módulos funcionales dónde están directamente involucrados aquellos reguladores con función conocida. Cabe mencionar que este enfoque puede ser aplicado a otros organismos.
Referencia asociada
Stephens ZD et al . 2015. Big Data: Astronomical or Genomical?. PLoS Biol. 13:e1002195. doi: 10.1371/journal.pbio.1002195.