BIOTECNOLOGÍA. ESMFold2 y el Atlas ESM: cuando la inteligencia artificial reescribe el libro de la vida

biotecnología, inteligencia artificial, ESMFold2, Atlas ESM, AlphaFold3

La herramienta de IA diseñó ligandos contra la proteína 4 asociada a los linfocitos T citotóxicos (CTLA-4). Crédito: Molekuul/Science Photo Library

El nuevo atlas de código abierto, generado por una herramienta de IA llamada ESMFold2, aumenta enormemente el universo de proteínas conocido.

27 mayo 2026.- El universo de las proteínas conocidas acaba de sufrir una expansión sin precedentes. Hoy, investigadores del Biohub de la Chan Zuckerberg Initiative —el instituto biomédico creado en San Francisco por Mark Zuckerberg y su esposa, la médica y educadora Priscilla Chan— han presentado el Atlas ESM: una base de datos de más de mil millones de estructuras proteicas predichas y miles de millones de secuencias adicionales, generado por una nueva herramienta de inteligencia artificial llamada ESMFold2.

¿Qué es ESMFold2?

ESMFold2 es un modelo de predicción de estructuras proteicas de código abierto que traduce el conocimiento sobre patrones evolutivos, codificado en el modelo de lenguaje ESMC, en modelos tridimensionales de proteínas y sus interacciones con resolución atómica. En términos más sencillos: la herramienta funciona de forma análoga a como los grandes modelos de lenguaje procesan texto, pero en lugar de palabras, "lee" secuencias de aminoácidos y predice con qué forma tridimensional se pliegan esas cadenas en el espacio.

El sistema se apoya en ESMC (Evolutionary Scale Modeling Cambrian), un modelo de lenguaje entrenado en aproximadamente 2.800 millones de secuencias procedentes de una amplia diversidad de formas de vida, incluyendo organismos adaptados a entornos extremos, y más de 20.000 tipos de proteínas presentes en el cuerpo humano.

ESMFold2 está basado en un modelo de "lenguaje proteico" que el equipo de Rives presentó en 2024, entrenado en miles de millones de proteínas de todo el árbol de la vida, y que incluye secuencias metagenómicas procedentes del suelo, los océanos y otros entornos que no están representados en la base de datos de AlphaFold.

El Atlas ESM: la mayor fotografía del universo proteico

El Atlas ESM eclipsa la base de datos de AlphaFold en más de 800 millones de entradas, y supera en unos 300 millones al anterior atlas ESM. La magnitud de este salto cuantitativo es difícil de dimensionar: hasta ahora, AlphaFold —la herramienta de Google DeepMind que hace apenas unos años revolucionó la biología estructural— era el referente indiscutible. El nuevo atlas no solo lo supera en volumen, sino que abarca territorios que aquél ni siquiera tocaba.

El atlas contiene 1.100 millones de estructuras proteicas predichas, así como información sobre las secuencias de 6.800 millones de proteínas. La mayoría de estas proceden de secuencias metagenómicas que hasta ahora estaban muy escasamente caracterizadas. Las secuencias metagenómicas son fragmentos de ADN recogidos directamente del medioambiente —una cucharada de tierra, una muestra de agua marina, el interior del intestino humano— sin necesidad de cultivar los organismos en laboratorio. Durante décadas, esta "materia oscura" de la biología ha permanecido como una colección de letras genéticas sin rostro: sabíamos que existían esas proteínas, pero ignorábamos su forma, y por tanto, su función.

Rendimiento: ¿mejor que AlphaFold3?

El equipo de Rives afirma que ESMFold2 supera a los métodos existentes, incluyendo AlphaFold3, en la determinación de la estructura correcta de complejos de proteínas en interacción, incluyendo moléculas de anticuerpos uniéndose a sus dianas moleculares.

En las evaluaciones comparativas, ESMFold2 mostró un rendimiento favorable frente a Chai-1 de Chai Discovery, Boltz-1 del MIT y AlphaFold 3 de Google DeepMind. Los modelos están disponibles bajo la permisiva licencia MIT, tanto para uso comercial como no comercial. Este punto —la licencia abierta— no es un detalle menor, sino uno de los aspectos más celebrados por la comunidad científica.

Aplicaciones actuales: del ordenador al laboratorio

La verdadera prueba de fuego para cualquier herramienta de predicción estructural no es el benchmark informático, sino si las proteínas diseñadas con ella realmente funcionan cuando se sintetizan en el laboratorio. En ese sentido, los resultados presentados son especialmente prometedores.

En experimentos descritos en el preprint publicado hoy, los investigadores usaron ESMFold2 para diseñar proteínas de unión (binders) contra cinco dianas centrales en cáncer e inmunología —una búsqueda computacional completada en días, en lugar de varios meses o años. Los binders validados en laboratorio exhibieron alta afinidad, especificidad y estabilidad —propiedades críticas para la utilidad clínica— y mostraron una similitud mínima con secuencias de bases de datos públicas, lo que sugiere que el modelo está produciendo soluciones de novo, en lugar de recuperar binders ya conocidos.

ESMFold2 diseñó binders de alta afinidad contra cinco dianas asociadas a enfermedades en cáncer e inmunología: quinasas de tirosina implicadas en el crecimiento tumoral (EGFR y PDGFRβ) y puntos de control inmunitario que explotan las células cancerosas para evadir al sistema inmune.

El horizonte: por qué esto importa más allá del laboratorio

Rives espera que el atlas ayude a los científicos a establecer conexiones entre las partes conocidas y desconocidas del universo proteico. La metáfora es poderosa: durante siglos, los astrónomos han cartografiado el cielo observable; ESMFold2 y el Atlas ESM hacen algo similar con el espacio molecular de la vida, iluminando rincones que hasta ahora permanecían en la oscuridad.

Las implicaciones prácticas se despliegan en varios frentes:

Descubrimiento de fármacos. Conocer la estructura de proteínas asociadas a enfermedades es el primer paso para diseñar moléculas que las inhiban o modulen. La capacidad de ESMFold2 para diseñar anticuerpos funcionales en días —en lugar de meses— podría acelerar de manera sustancial los primeros estadios de la investigación farmacéutica.

Biología de la microbiota y el medioambiente. La inclusión masiva de secuencias metagenómicas abre la puerta a comprender las proteínas de los microorganismos que habitan el suelo, el océano o el intestino humano, con potenciales aplicaciones en biotecnología verde, biorremediación y medicina de precisión.

Ciencia abierta y democratización. La naturaleza de código abierto de ESMFold2 y su licencia MIT para uso comercial y no comercial significa que cualquier laboratorio del mundo —no solo los grandes consorcios tecnológicos— puede utilizarlo, adaptarlo y construir sobre él.

Un campo en ebullición

Conviene situar este lanzamiento en su contexto. ESMFold2 entra en un campo cada vez más concurrido, en el que modelos de proteínas de código abierto y propietarios compiten avanzando a una velocidad vertiginosa. AlphaFold, RoseTTAFold, Chai-1, Boltz-1 y ahora ESMFold2 conforman un ecosistema de herramientas en rápida evolución. La competencia, en este caso, es una buena noticia para la ciencia.

Lo que diferencia a ESMFold2 no es solo su rendimiento, sino la combinación de tres factores: apertura total del código, una base de datos pública sin precedentes en escala, y una demostración experimental —proteínas que realmente funcionan— que va más allá del papel. Si la predicción estructural fue el gran salto de la última década, el diseño proteico racional podría ser el de la próxima. ESMFold2 acaba de abrir esa puerta un poco más.