En el 2021 se reportaron 1641 bases de datos en biología, tales como NONCODE, Rfam,  COG, SMART, RCSB PDB,  KEGG, PAGER-COV, BiG-FAM y CNCDatabase. Hay bases de datos especializadas en proteínas, nucleótidos, enzimas, en función, entre otras. Aquí surgen las preguntas ¿Para qué tantas bases de datos especializadas?, ¿Realmente es necesario tener tantas? Cada disciplina biológica necesita de herramientas propias de su área para poder realizar estudios de una manera más eficiente, por lo que las bases de datos orientadas a un área particular pueden ser útiles en diferentes aspectos. Existe un mar de información biológica situada en las bases de datos que aún requieren ser analizadas para obtener información útil desde el punto de vista biológico.  ¿Te imaginas buscar algo con los ojos vendados? o ¿Intentar encontrar un objeto dentro de todo el vasto océano? Si las bases de datos especializadas no existieran, buscar datos a partir de una sola sería similar a esto.

¿Qué son las base de datos biológicas?

Las bases de datos son colecciones o bibliotecas que contienen información sobre organismos [1], tales como secuencias genómicas o de proteínas. En el 2003 se logró la secuenciación de alta calidad, precisa y completa del genoma humano; este era el objetivo principal del proyecto del Genoma Humano; y es comparable con la llegada del primer hombre a la luna. A partir de esto, y de la secuenciación masiva de otros organismos, se generó una acumulación importante de información biológica de esta índole, solamente para el 2014, el GenBank contaba con más de 150,000 Megabases. El cúmulo de información, que va aumentado a ritmos exponenciales, trae consigo la necesidad de administrarla, por lo que a medida que esta aumenta, crece también la cantidad de base de datos biológicas [2,3]. 

Gracias a las bases de datos, los investigadores tienen a disponibilidad el uso de información sobre la estructura y función tanto de los genes como de las proteínas del genoma humano, así como de sus variaciones; también de los organismos modelo y de otros seres vivos. Esto ayuda a mejorar la interpretación de los experimentos, así como a acelerar los descubrimientos [2,3]. Según Zou, et al. las bases de datos tienen como objetivo compartir, organizar y almacenar datos de forma estructurada para facilitar el uso de estos, también busca la integración e intercambio de datos de manera automatizada a través de programas de computadora.

¿Cómo se clasifican las bases de datos?

De acuerdo con la revista Nucleic Acid Research existen 1641 bases de datos que pueden ser clasificados en 7 categorías: La primera consiste en secuencias, estructuras y regulación transcripcional de ácidos nucleicos; la segunda de estructura y secuencia de proteínas; la tercera es acerca de enzimas, redes metabólicas y redes de señalización; la cuarta abarca virus, bacterias, protozoos y hongos; la quinta integra al humano y genómica comparativa; la sexta es sobre variación genómica humana, enfermedades y fármacos; la séptima sobre plantas; y finalmente la octava sobre otros temas basados en proteómica [4]. Como se verá, cada una de las bases de datos fue creada para un objetivo o problemática particular.

Bases de datos sobre la pandemia y SARS-CoV-2

A partir de la contingencia se generaron 7 bases de datos sobre la pandemia y SARS-CoV-2, como resultado de los esfuerzos realizados para hacer frente a este problema de salud mundial, algunos de estos son CoV3D, COVID19 Drug Repository, DockCoV2, etc [4]. La base de datos Mouse Tumor Biology, es un compendio completo y curado por expertos de modelos de cáncer humano en ratones, y se creó porque que los investigadores no se adherían a los estándares de anotaciones existentes al describir los modelos o no tenían en cuenta el efecto de los antecedentes genéticos en la biología tumoral, provocando entorpecimiento en la recopilación de información o confusión en el análisis de los resultados [5]. Otro ejemplo, es AMRFinder que utiliza la base de datos de referencia de genes de AMR, y que se generó debido al importante problema de salud pública que refleja la resistencia a los antimicrobianos y por la necesidad de herramientas que sean accesibles para análisis rápidos. Así como estas bases de datos se pueden citar muchas otras [6]. 

Con base en lo anterior, las bases de datos se crearon para resolver problemas en una disciplina específica, lo que ayuda a hacer búsquedas más dirigidas, rápidas y fáciles. Sin embargo, no siempre es sencillo saber a cuál de todas las bases de datos acudir, la mayoría no está disponible públicamente, o muchas veces para responder acertadamente es necesario consultar más de una, entre otros problemas. Además de esto, la gran cantidad de bases de datos trae consigo problemas de interoperabilidad, es decir integrar y conectar la información albergada en dichas bases. Cada base de datos tiene su propia terminología y son estructuradas de acuerdo con criterios diferentes, por lo que integrarlos no es tarea fácil. Los investigadores han hecho esfuerzos para integrar una gran cantidad de bases, a pesar de ello, se requiere cierto grado de experiencia para realizar búsquedas más complejas [7]. 

Las bases de datos especializadas se crearon a partir de una necesidad particular en un área particular, con ellas se pueden responder preguntas más dirigidas o bien encontrar las respuestas de una manera más fácil. Si respondemos a los cuestionamientos presentados al principio, tener tantas bases de datos especializadas sirven para hacer búsquedas más eficientes; sin embargo, aún existen problemas que tienen que ser abordados para su integración y acceso para los usuarios.

 

Figura asociada tomada de: https://digitalworldbiology.com/products/exploring-biological-databases

Referencias asociadas

  1. Helmy, et al (2016). Ten simple rules for developing public biological databases.
  2. Baxevanis & Bateman (2015). Current protocols in bioinformatics50, 1-1.
  3. Zou, et al (2015). Genomics, proteomics & bioinformatics13, 55-63.
  4. Rigden & Fernández (2021). Nucleic acids research49, D1-D9.
  5. Krupk, et al (2017). Cancer research77, e67-e70.
  6. Feldgarden, et al (2019). Antimicrobial agents and chemotherapy63, e00483-19.
  7. Esnayra & National Research Council. (2000). Workshop Summary. Washington (DC): National Academies Press (US).