OpenEuroLLM: El ambicioso plan de Europa para la soberanía digital con IA de código abierto

La irrupción de los modelos de lenguaje grandes (LLMs) ha marcado un hito en la agenda de soberanía digital de Europa. El lanzamiento de OpenEuroLLM, un ambicioso programa destinado a desarrollar una serie de LLMs de código abierto que abarquen todos los idiomas de la Unión Europea (UE), representa un paso audaz hacia la independencia tecnológica. Este proyecto no solo cubre los 24 idiomas oficiales de la UE, sino que también considera aquellos de los países en proceso de adhesión, como Albania, asegurando así su viabilidad a futuro. La iniciativa, liderada por figuras destacadas como Jan Hajič y Peter Sarlin, busca posicionar a Europa como un actor clave en el panorama global de la inteligencia artificial. Pero, ¿qué implica realmente este proyecto y cuáles son sus desafíos?.

OpenEuroLLM: Una Iniciativa Paneuropea

OpenEuroLLM es una colaboración entre unas 20 organizaciones, co-dirigida por Jan Hajič, un lingüista computacional de la Universidad Carolina en Praga, y Peter Sarlin, CEO de Silo AI, una empresa finlandesa de IA adquirida por AMD. Este proyecto se alinea con la creciente prioridad de Europa por la soberanía digital, buscando acercar la infraestructura y las herramientas críticas a casa. La mayoría de los gigantes de la nube están invirtiendo en infraestructura local para asegurar que los datos de la UE permanezcan dentro de sus fronteras. Incluso OpenAI ha lanzado una oferta que permite a los clientes procesar y almacenar datos en Europa.

Un Presupuesto a Consideración

El presupuesto declarado para la construcción de los modelos es de 37.4 millones de euros, con aproximadamente 20 millones provenientes del programa Digital Europe Programme de la UE. Si bien esta cifra puede parecer modesta en comparación con las inversiones de las grandes corporaciones de IA, el presupuesto real es mayor si se consideran los fondos asignados a trabajos relacionados. Además, el proyecto cuenta con la colaboración de los centros de supercomputación EuroHPC en España, Italia, Finlandia y los Países Bajos, cuyo presupuesto asciende a unos 7 mil millones de euros.

Desafíos y Críticas

La gran cantidad de participantes de diversos ámbitos (académico, investigación y corporativo) ha generado dudas sobre la viabilidad de los objetivos del proyecto. Anastasia Stasenko, cofundadora de Pleias, cuestiona si un consorcio tan extenso puede tener el mismo enfoque medido que una empresa privada de IA. Stasenko señala que los éxitos recientes de Europa en IA provienen de equipos pequeños y enfocados como Mistral AI y LightOn, empresas que asumen la responsabilidad directa de sus decisiones.

Un Comienzo con Ventajas

Desde 2022, Hajič ha coordinado el proyecto High Performance Language Technologies (HPLT), que busca desarrollar conjuntos de datos, modelos y flujos de trabajo gratuitos y reutilizables utilizando computación de alto rendimiento (HPC). Aunque este proyecto finaliza a fines de 2025, se considera un “predecesor” de OpenEuroLLM, ya que la mayoría de los socios de HPLT participan también en este nuevo proyecto. Según Hajič, OpenEuroLLM es una participación más amplia, pero más centrada en los LLMs generativos, lo que significa que no parte de cero en términos de datos, experiencia, herramientas y experiencia en computación.

El Camino Hacia Modelos de IA Transparentes

El objetivo principal del proyecto es crear “una serie de modelos básicos para la IA transparente en Europa”. Estos modelos deben preservar la “diversidad lingüística y cultural” de todos los idiomas de la UE, tanto actuales como futuros. Esto se traducirá en un LLM multilingüe central diseñado para tareas de propósito general donde la precisión sea primordial, así como en versiones “cuantificadas” más pequeñas para aplicaciones donde la eficiencia y la velocidad son más importantes. El proyecto busca la máxima competencia en todos los idiomas, aunque alcanzar la igualdad en todos ellos podría ser un desafío, especialmente con los idiomas con escasos recursos digitales. En cuanto a los datos, el trabajo del proyecto HPLT será fundamental, con la versión 2.0 de su conjunto de datos ya disponible.

La Soberanía Digital como Meta Final

El proyecto OpenEuroLLM enfrenta desafíos significativos, desde la coordinación de múltiples participantes hasta la gestión de un presupuesto limitado en comparación con los gigantes de la industria. Sin embargo, su objetivo final es la soberanía digital de Europa. La creación de LLMs construidos por y para Europa, con un enfoque en la transparencia y la diversidad lingüística, representa un paso crucial hacia la independencia tecnológica. Aunque no se convierta en el modelo número uno a nivel mundial, contar con un modelo sólido y con todos los componentes basados en Europa ya sería un resultado positivo. La iniciativa, liderada por expertos como Jan Hajič y Peter Sarlin, busca consolidar a Europa como un actor clave en el ámbito de la inteligencia artificial, promoviendo un futuro digital más autónomo y culturalmente rico.