El consejero de Políticas Digitales, Jordi Puigneró, presenta el programa AINA sobre el fomento digital del catalán, financiado con fondos Covid / GENCAT

Política

El Govern destina fondos Covid al fomento digital del catalán

La Consejería de Políticas Digitales da prioridad al proyecto AINA, presupuestado en 13,5 millones, para ser financiado por las ayudas Next Generation EU

10 diciembre, 2020 13:16

María Jesús Cañizares @MJesusCanizares

El Govern quiere financiar con los fondos europeos Next Generation EU un proyecto digital para fomentar la lengua catalana mediante inteligencia artificial. Se trata del proyecto AINA, que ha presentado hoy el consejero de Políticas Digitales y Administración Pública, Jordi Puigneró, junto a la directora general de Sociedad Digital, Joana Barbany, el director asociado del Barcelona Supercomputing Cente (BSC), Josep Maria Martorell, y la investigadora y colíder de la unidad de Minería de Datos del BSC, Marta Villegas, responsable del proyecto.

Dotar el catalán de recursos digitales y lingüísticos para que se convierta en una lengua competitiva en el mundo digital y asegurar así su supervivencia futura es el objetivo de AINA, que generará corpus y modelos informáticos de la lengua catalana para que las empresas que crean aplicaciones basadas en inteligencia artificial (IA), como asistentes de voz, traductores automáticos o agentes conversacionales, puedan hacerlo fácilmente en catalán.

El proyecto AINA tiene un presupuesto global de 13,5 millones de euros para el período 2020 a 2024 y es uno de los proyectos priorizados por el Departamento de Políticas Digitales para ser financiado con los fondos europeos Next Generation EU. De momento, el proyecto arranca con una aportación inicial de 250.000 euros que la Consejería ha asignado el BSC para ampliar los corpus de la lengua catalana y así obtener modelos lingüísticos que abarquen las diferentes variantes y registros.

El corpus más grande en lengua catalana

El BSC ya dispone de un primer corpus textual del catalán, consistente en 1.770 millones de palabras, reunidas en 95 millones de frases. Es el más grande que se ha hecho nunca de la lengua catalana, se ha obtenido a base de descargar textos de diferentes fuentes digitales (páginas web, archivos, etc), limpiarlos y borrar duplicidades.

Con toda esta información, el siguiente paso será entrenar redes neuronales multicapa porque "aprendan el catalán" y generen modelos de la lengua, modelos del habla y modelos para la traducción. Estos modelos, explica el Govern, son muy costosos de hacer para que necesitan gran capacidad de cálculo (lo que se está construyendo en base al primer corpus textual utilizará 9.000 horas de GPU), y serán las bases sobre las que se podrán desarrollar aplicaciones basadas en IA, como asistentes de voz, predictores y correctores lingüísticos, xatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones para el análisis de sentimientos o motores de traducción y subtitulación automática, entre otros.

Esto debe permitir que el catalán dé un salto cualitativo y cuantitativo en el ecosistema digital. De hecho, el mundo digital es hoy una oportunidad y un reto para la lengua catalana.

El corpus más grande en lengua catalana

Más en Política