Ir al contenido
_
_
_
_

La IA aprenderá euskera tras invertir 10,5 millones los Gobiernos de España y el País Vasco: “Está en peligro de extinción digital”

Las dos administraciones firman un convenio para crear un corpus lingüístico que garantice el futuro del idioma

El euskera es una lengua “en peligro de extinción digital”. Ese diagnóstico, reflejado con la claridad de los avisos sobre los que hay que actuar urgentemente, se recoge en un convenio firmado entre el gobierno de España y el del País Vasco para asegurar el futuro de la lengua vasca en el mundo de la Inteligencia Artificial, según recoge este viernes el Boletín Oficial del Estado (BOE). El convenio firmado entre las dos administraciones explicita paso a paso la hoja de ruta para asegurar la supervivencia online de este idioma en teléfonos inteligentes, tablets, o programas de Inteligencia Artificial. Así, se invertirán 10,5 millones hasta 2028. Se diseñará un esquema de trabajo que pueda servir a otras lenguas minoritarias. Y se creará un corpus lingüístico del que puedan beber programadores y desarrolladores interesados en que sus herramientas se pueden relacionar con los usuarios en vasco. ¿El objetivo? “Incrementar la presencia del euskera en el ámbito digital, con especial foco para su uso en Inteligencia Artificial”.

Para llegar hasta ese punto, hay que recopilar miles de horas de audios y millones de segmentos de texto. Luego hay que etiquetarlos, para que sean reconocibles por programas y programadores. Y una vez archivados, hay que usarlos para entrenar a los algoritmos de aprendizaje supervisado. El objetivo es que aprendan patrones y hagan predicciones con precisión. Tener un corpus lingüístico para que investigadores y desarrolladores puedan acelerar la creación de sistemas de reconocimiento de voz en vasco, de aplicaciones (apps) de traducción automática para el euskera, y de asistentes conversacionales.

“De esta forma, teléfonos móviles, tabletas, relojes inteligentes, aplicaciones o asistentes digitales tendrán la capacidad de interactuar con los usuarios en euskera, y los usuarios de las herramientas de IA podrán utilizarlas en esta lengua”, se lee en el convenio firmado por Óscar López, ministro para la Transformación Digital y de la Función Pública, y Mikel Jauregi, consejero de Industria, Transición Energética y Sostenibilidad del Gobierno vasco.

Cuando el Ejecutivo autónomo presentó en febrero de este año la iniciativa Euskorpus, el lehendakari, Imanol Pradales, puso en valor esta estrategia con las siguientes palabras: “Tenemos claro que el euskera formará parte de la construcción del nuevo entorno digital. Seremos protagonistas en ese nuevo mundo o estaremos condenados a un papel secundario que ni nos corresponde, ni deseamos”. Detrás de Euskorpus está una asociación “sin ánimo de lucro” llamada Euskorpora, en la que participan como socios privados como Vicomtech, Euskaltel, Kutxabank, Petronor, Iberdrola o CAF y el grupo Mondragón, además de la academia de la lengua vasca Euskaltzaindia.

La creación del corpus digital del euskera se ejecutará en tres fases que concluirán, sin haberse definido un plazo concreto, con “la transferencia y explotación de los recursos lingüísticos que se vayan compilando y de los modelos base de código abierto que se desarrollarán a las empresas, a la sociedad y a otras plataformas de datos europeas”, según consta en el plan estratégico de Euskorpus.

En la parte vasca del proyecto, la Consejería de Industria aportará cinco millones de euros en dos años, a los que se sumarán 550.000 euros que aportarán los departamentos de Cultura y de Ciencia y Universidades. Euskorpus ha recibido críticas de la oposición. El portavoz parlamentario de Bildu, Pello Otxandiano, ha criticado que se haya “ignorado a agentes que han sido fundamentales en el desarrollo de tecnologías del lenguaje en los últimos años”, en alusión explícita al centro de investigación Hitz de la universidad pública EHU, el clúster Langune y Elhuyar. “Es un error estratégico dejar de lado el importante conocimiento acumulado en este ámbito tanto en el sector público como en el privado que han sido clave en un sector en el que, además, podríamos ser referentes a nivel europeo”, lamentó el dirigente abertzale.

El “fin común” que los dos gobiernos pretenden satisfacer con el presente convenio es “el interés general de las partes en desarrollar actuaciones que potencien la promoción, generación y desarrollo activo y metódico de corpus digital en euskera para su conservación, mantenimiento, evolución y explotación al servicio de la transformación digital de las lenguas minoritarias, tanto por las empresas, como por la sociedad y la Administración a través de modelos de lenguaje entrenados específicamente en euskera, de los modelos de la familia ALIA y otros”.

Alia es un gran modelo de lenguaje en español, impulsado por el gobierno y entrenado también en catalán, gallego, valenciano y vasco. Los grandes modelos más conocidos, como los usados por ChatGPT, Gemini o Copilot, han sido entrenados en inglés, por lo que pueden presentar ciertas lagunas al presentar resultados a los usuarios. El objetivo de Alia es precisamente atacar estas carencias: que el modelo conozca las frases hechas y todo el contexto posible de España y sus lenguas.

Los planes del Gobierno para Alia quedaron reflejados en la Estrategia de Inteligencia Artificial 2024, el documento que ordena las actuaciones en este ámbito para 2024 y 2025 y que se presentó el año pasado. La estrategia le dedica 10 millones de euros al modelo y prevé ampliar el corpus lingüístico del que se nutrirá, alcanzando un mínimo de cuatro billones de palabras. Se está alimentando con todo tipo de documentos oficiales, desde diarios de sesiones del Congreso de los Diputados hasta repositorios de revistas científicas en español. El predecesor de López al frente de Transformación Digital, José Luis Escrivá, dijo sobre Alia en una entrevista en EL PAÍS que “abrirá las puertas a una nueva generación de productos tecnológicos enriquecidos con el vasto patrimonio lingüístico del castellano y las lenguas cooficiales de España”.

El Ministerio de Transformación Digital contempla el desarrollo de modelos de hasta 175.000 millones de parámetros, los mismos que usó la primera versión de ChatGPT. El equipo liderado por López ha trabajado con el Ministerio de Cultura para encontrar la fórmula que garantice la protección de los derechos de autor de los textos usados en este sistema. El objetivo es que el modelo fundacional sea transparente y abierto, características que no comparte, por ejemplo, ChatGPT.

Sin embargo, el modelo desarrollado por el Gobierno usó durante su fase de entrenamiento obras obtenidas sin pagar derechos de autor. En la propia descripción de la familia de modelos Alia, en el apartado en el que se describen los corpus de texto empleados durante el proceso, se especifica que una de las fuentes a las que se recurrió fue Common Crawl, un repositorio en el que se vuelcan todas las obras existentes en internet sin pagar licencias y usado también por los gigantes tecnológicos.

Cuando EL PAÍS adelantó esta información en septiembre, el gobierno defendió que su actuación está amparada por la normativa vigente, ya que el apartado 3 del artículo 4 de la Directiva de Mercado Único Digital establece que se podrá acceder a trabajos “a condición de que el uso de las obras (...) no haya sido expresamente reservado por sus titulares de derechos de forma adecuada”.

Es decir, los autores y creadores de contenidos que no quieran que su obra sea usada para entrenar modelos de IA deben seguir un complejo proceso para protegerlas en cada soporte online en el que figuren, tanto suyos como de terceros. Eso incluye establecer un mecanismo que hace que los robots que rastrean y recopilan archivos de internet (como Common Crawl) detecten automáticamente que la obra en cuestión está protegida y no la toquen.

En el momento de publicación de este artículo, el gobierno no había aclarado si ha firmado o pretende firmar convenios similares referentes a lenguas como el gallego o el catalán.

Tu suscripción se está usando en otro dispositivo

¿Quieres añadir otro usuario a tu suscripción?

Si continúas leyendo en este dispositivo, no se podrá leer en el otro.

¿Por qué estás viendo esto?

Flecha

Tu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.

¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.

En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.

Rellena tu nombre y apellido para comentarcompletar datos

Más información

Archivado En

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
_
_