Marta Villegas, Investigadora jefe del proyecto MarIA del Barcelona Supercomputing Center / PABLO MIRANZO

Marta Villegas, Investigadora jefe del proyecto MarIA del Barcelona Supercomputing Center / PABLO MIRANZO

Vida tecky

MarIA: el proyecto para enseñar español a las máquinas diseñado en Barcelona

Investigadores del Barcelona Supercomputing Center crean modelos de inteligencia artificial que entienden el lenguaje igual que un ser humano

6 febrero, 2022 00:00

"Alexa, ¿qué tiempo hará hoy?"."Hoy se prevén nubes intermitentes, con máximas de 15 grados y mínimas de seis grados". Las conversaciones entre máquinas y humanos se han vuelto tan cotidianas que a menudo pasan desapercibidas las tecnologías de procesamiento del lenguaje detrás de estas rutinas.

Tecnologías como las que desarrollan un equipo de 18 investigadores del Barcelona Supercomputing Center (BSC) liderado por Marta Villegas. Se trata de MarIA, un proyecto en abierto pensado para mejorar el conocimiento de la lengua española por parte de los sistemas de inteligencia artificial (IA). El objetivo: diseñar aplicaciones cada vez más sofisticadas. "De Star Trek", como bromea la jefa de la unidad de minería de textos del BSC.

Impulso del Gobierno

"MarIA es un conjunto de recursos para crear aplicaciones de IA donde intervenga el lenguaje español. Eso incluye desde corpus masivos de datos hasta distintos modelos generados con estos corpus. En este caso, ya contamos con cuatro modelos con diferentes arquitecturas y tamaños", explica la responsable del proyecto.

El proyecto está financiado íntegramente por el Gobierno a través del plan de tecnologías del lenguaje, que cuenta con una dotación de seis millones de euros y está impulsado por la secretaría de Estado de Digitalización e Inteligencia Artificial dirigida por Carme Artigas. "Hay otros modelos en otras lenguas, pero en España hemos contado con esta gran financiación. No creo que exista un plan equivalente en otro país europeo. De esto podemos presumir", asevera Villegas.

Biblioteca Nacional de España

Ahora bien, ¿cómo aprende MarIA? En base al gigantesco archivo del dominio .es custodiado por la Biblioteca Nacional de España. La institución alberga una copia masiva de todas las webs con esta extensión. En total, aproximadamente 59 terabytes de información que contienen unos 135 mil millones de palabras.

"Imagina la cantidad de datos que esto representa. Pero ahora queremos que los nuevos modelos incorporen datos de otras fuentes para que sean más heterogéneos y representativos de la lengua, como publicaciones científicas, prensa o la Wikipedia", declara.

Marta Villegas, Investigadora jefe del proyecto MarIA del Barcelona Supercomputing Center / PABLO MIRANZO

Marta Villegas, Investigadora jefe del proyecto MarIA del Barcelona Supercomputing Center / PABLO MIRANZO

¿Cómo aprende una máquina?

A MarIA se la entrena para que aprenda a contextualizar el uso del vocabulario. "Lo que hace la red neuronal es aprender cómo se combinan las palabras, calcular las probabilidades de concurrencia de las palabras de una lengua", resume Villegas. Antes, sin embargo, el potente superordenador MareNostrum depura las bases de datos para suprimir contenidos superfluos, demasiado breves o con errores tipográficos.

"Para ello le vas enseñando textos y textos... y la red va aprendiendo. Hay varias maneras de entrenarla, pero en general se enmascaran aleatoriamente algunas palabras y se pide al sistema que adivine qué palabra iría allí. Otra manera es dada una secuencia de palabras, que adivine la siguiente. Así la red va actualizando los pesos y parámetros y acaba teniendo el modelo final de la lengua", detalla la especialista.

"Un sinfín de aplicaciones"

Las aplicaciones de esta IA experta en lengua española son muchas y variadas: desde la mejora de las funciones de corrección o predicción del lenguaje --como las de WhatsApp o Google--, hasta los resúmenes de textos complejos --que ya han empezado a realizarse en base al proyecto MarIA--, las herramientas anti-SPAM y los chatbots, que se han popularizado durante la pandemia. Por no hablar del perfeccionamiento de la traducción automática.

"Hay un sinfín de aplicaciones. Por ejemplo, que podamos comunicarnos con las máquinas en castellano y no programando. En vez de usar una secuencia sql para interrogar una base de datos, poder decirlo en lenguaje natural, sin comandos. Ir al cajero del banco y poder hablar en vez de clicar botones: quiero el dinero en billetes de 50, o de 20 euros", ejemplifica Villegas.

El superordenador MareNostrum / PABLO MIRANZO

El superordenador MareNostrum / PABLO MIRANZO

Hacia un modelo multilingüe

La clave es que los modelos generados por el proyecto MarIA ofrezcan una capacidad de respuesta en español más precisa y similar al habla humana. Una meta que podría extenderse tanto a otras lenguas españolas como a un enfoque plurilingüe.

"Lo más interesante es no solo extenderlo a otras lenguas del Estado, desde luego, sino también hacer modelos multilingües. Si una empresa quiere hacer un asistente o chatbot, querrá atender en todas las lenguas del Estado. En vez de crear un modelo por lengua, quizá en un entorno como el nuestro es mejor tener un modelo multilingüe. Tiene un rendimiento mejor y, además, los que somos bilingües cambiamos de idioma con facilidad", explica la investigadora.