Capítulo 87. El proyecto ENCODE.

Tras la consecución en 2001 del primer borrador del genoma humano la comunidad científica se encontró con un reto aún mayor que la consecución del propio genoma. Teniamos un mapa con 3000 millones de pares letras sobre la mesa (las bases A, C, G y T) y apenas conocíamos nada de la información biológica que contenía ese mapa. En aquel momento se estimaba que sólo un 1-3% de todo el genoma contenía genes, unos 25.000-30.000 según las cifras de la época, y al resto del genoma se le denominaba coloquialmente "ADN basura".

En Septiembre de 2003 se lanzó el proyecto piloto ENCODE, un consorcio internacional de cientos de científicos que tomó el 1% del genoma y se dedicó a rastrearlo en profundidad y tratar de definir que regiones del genoma tienen funcionalidad. Lo que en la jerga del gremio se denomina anotar el genoma. Esto, básicamente, es coger el genoma y delimitar qué partes corresponden a un gen, qué partes tienen funciones reguladoras, que genes están mas activos en los distintos tipos celulares, que partes de los genes contienen la información para generar proteínas, qué proteínas se generan, dónde empiezan esas regiones, qué partes se han conservado mas durante la evolución de la especie humana, cuáles son específicas de humana, dónde empiezan y acaban esas regiones, etc, etc. En 2007, tras 4 años de trabajo la fase piloto del proyecto ENCODE publicó sus resultados en Nature y permitió poner a punto y optimizar los métodos automáticos de anotación de genomas.

Una vez superada la fase piloto de ENCODE el proyecto paso a la fase principal: la anotación exhaustiva de todo el genoma humano. El pasado 6 de Septiembre la revista Nature publicó los resultados del proyecto. Son varios artículos describiendo cómo funciona y cual es la estructura de nuestro propio material genético a partir de datos obtenido en 147 tipos celulares diferentes. Es complejo resumirlo en poco espacio pero quedaros con la idea de que, ahora, sabemos que el 80.4% del genoma participa al menos una vez en algún tipo de evento biológico en al menos 1 tipo celular. Se han censado 20.687 genes que codifican una media de 3.9 proteinas diferentes. Tambien se han anotado ~30.000 genes que no codifican proteínas y esto es solo una pequeña parte de todo lo que se ha descrito. Parece que el anteriormente llamado "DNA basura" no lo es tanto. Tiene funciones reguladoras fundamentales para la dinámica estructural y funcional del genoma y, además, presenta asociaciones significativas con variantes genómicas ya descritas y asociadas a enfermedades. ENCODE apunta a que para entender y curar enfermedades complejas, como el autismo o el cáncer, tendremos que tener un conocimiento profundo de cómo nuestras células regulan la actividad de su propio material genético. No es sólo un problema de genes y proteínas.

Si teneis mas interés por el proyecto ENCODE podeis acceder a un resumen de sus aportaciones via web. Si teneis iPad, la revista Nature ha sacado una aplicación gratuita que desgrana las conclusiones del estudio. Espero que os parezca interesante.


PD. Este post es un homenaje a los muchos científicos del proyecto ENCODE que han dedicado mucho tiempo a tratar de comprender nuestro genoma. Tres de ellos son Iakes, Joe Code y Michael, estupendos colegas y compañeros de faenas y de almuerzos. ¡Enhorabuena y gracias a los tres por vuestro trabajo!




Comentarios

Publicar un comentario