La Tribuna, inteligencia artificial, Crónica del Henares
![]() |
Los valores en los que se fundó el movimiento de código abierto (colaboración, intercambio de conocimientos y el intercambio abierto de software) están siendo subvertidos por algunas empresas de IA |
Muchas empresas están abusando de la etiqueta de «código abierto». La comunidad científica, que prioriza la transparencia y la replicabilidad, debe resistir esta tendencia.
09 abril 2025.- Hace aproximadamente 50 años, el Homebrew Computer Club, un grupo de entusiastas y aficionados a la informática, comenzó a reunirse en Menlo Park, California, fomentando una cultura de colaboración, intercambio de conocimientos y la libre distribución de software. Estos valores, que contribuyeron a forjar el movimiento del código abierto, ahora están siendo subvertidos por algunas empresas de inteligencia artificial (IA).
Muchos modelos fundamentales de IA se etiquetan como de "código abierto" porque su arquitectura, incluyendo la estructura y el diseño de las redes neuronales, es de libre acceso. Sin embargo, se divulga poca información sobre cómo se entrenaron los modelos. Como director ejecutivo de la Iniciativa de Código Abierto (OSI), con sede en Palo Alto, California, mi prioridad desde 2022 ha sido aclarar el verdadero significado del término en la era de la IA.
Décadas de acceso gratuito a software no propietario, como R Studio para computación estadística y OpenFOAM para dinámica de fluidos, han acelerado el descubrimiento científico. El software de código abierto protege la integridad de la investigación al garantizar la reproducibilidad. Además, fomenta la colaboración global, permitiendo a los científicos compartir libremente datos y soluciones.
Las licencias convencionales de código abierto se basan en el código fuente, que es fácil de compartir con total transparencia, pero los sistemas de IA son diferentes. Se basan en gran medida en datos de entrenamiento, a menudo de fuentes privadas o protegidas por leyes de privacidad, como la información sanitaria.
A medida que la IA impulsa descubrimientos en campos que van desde la genómica hasta la modelización climática, la falta de un consenso sólido sobre qué es y qué no es IA de código abierto resulta preocupante. En el futuro, la comunidad científica podría encontrar su acceso limitado a sistemas corporativos cerrados y modelos no verificables.
Para que los sistemas de IA se alineen con el software de código abierto típico, deben defender la libertad de usar, estudiar, modificar y compartir sus modelos subyacentes. Aunque muchos modelos de IA que usan la etiqueta "código abierto" son gratuitos para usar y compartir, la incapacidad de acceder a los datos de entrenamiento y al código fuente restringe severamente un estudio y modificación más profundos. Por ejemplo, un análisis de OSI encontró que varios modelos de lenguaje grandes populares, como Llama2 y Llama 3.x (desarrollados por Meta), Grok (X), Phi-2 (Microsoft) y Mixtral (Mistral AI), son incompatibles con los principios de código abierto. Por el contrario, modelos como OLMo, desarrollado por el Allen Institute for AI, una organización sin fines de lucro en Seattle, Washington, y proyectos liderados por la comunidad como CrystalCoder de LLM360, un modelo de lenguaje diseñado para realizar tareas de programación y lenguaje natural, defienden mejor la visión de código abierto de OSI.
Incluso si Meta, X o Microsoft promocionan sus grandes modelos de lenguaje como gratuitos para usar y compartir, sus datos de entrenamiento y código fuente siguen siendo opacos. Cuando las razones legales o técnicas impiden la distribución de datos, los desarrolladores deben revelar las fuentes, las características y los métodos de preparación de los conjuntos de datos de entrenamiento en nombre de la organización que ha definido durante mucho tiempo el estándar de la industria del código abierto.
La principal razón por la que algunas empresas podrían estar haciendo un mal uso de la etiqueta de código abierto es eludir las regulaciones propuestas por la Ley de IA de 2024 de la Unión Europea, que exime al software libre y abierto de un escrutinio estricto. Esta práctica —las empresas afirman ser abiertas mientras restringen el acceso a componentes clave como la información sobre los datos de entrenamiento— se denomina «openwashing».
Para combatir esta tendencia, en 2022, OSI inició un proyecto plurianual para desarrollar una definición de IA de código abierto (OSAID), recopilando aportaciones de creadores de contenido, especialistas legales, legisladores y consumidores afectados por la IA. Organizamos talleres en América, Europa, Asia y África, lo que dio lugar a OSAID 1.0 (véase go.nature.com/4hh49dv ), el primer estándar formal para sistemas de IA verdaderamente abiertos.
Un desafío clave para definir la IA de código abierto se refiere a la disponibilidad de los datos de entrenamiento. La OSI introdujo el concepto de «información de datos», que exige la publicación de todos los datos cuando sea legalmente posible. Sin embargo, si no pueden distribuirse por razones legales o técnicas, la información de datos exige que los desarrolladores revelen las fuentes, las características y los métodos de preparación de los conjuntos de datos de entrenamiento. Esto preserva la transparencia, permitiendo a los investigadores evaluar la calidad de los datos y, de ser necesario, replicar el proceso de entrenamiento con datos alternativos prácticamente equivalentes.
Para avanzar en el debate sobre los datos subyacentes que alimentan los sistemas de IA, OSI y la organización sin fines de lucro con sede en Ámsterdam Open Future publicaron un libro blanco en febrero (véase go.nature.com/4j2mxs5 ) en el que se pide una transición de los "datos abiertos" a un modelo de datos comunes más inclusivo.
Los investigadores y quienes dependen de la IA para el trabajo empírico pueden comenzar consultando OSAID 1.0, un documento dinámico. Deben evaluar rigurosamente los modelos de IA disponibles públicamente y comprobar si los desarrolladores están publicando todos los detalles, datos y herramientas necesarios para construir un sistema de IA análogo.
Los gobiernos y las agencias de financiación tienen un gran poder para impulsar a las comunidades científicas hacia la adopción de herramientas y técnicas de IA que fomenten una auténtica apertura y replicabilidad. Por ejemplo, los Institutos Nacionales de Salud de EE. UU. exigen a los beneficiarios que publiquen datos y software relacionados con la investigación bajo una licencia abierta, y países como Italia exigen el uso de software de código abierto para la administración pública. Al adoptar los estándares adecuados, las autoridades públicas pueden garantizar que el uso de la IA en la ciencia resulte útil y no perjudicial.
Autor: Stefano Maffulli
COMENTARIOS