
Meta quiere recuperar la ambición que impulsó la bíblica torre que, según el relato del Génesis (11:1-9), la humanidad quiso construir para llegar al cielo. “Son un solo pueblo y todos ellos tienen la misma lengua. (…) Ahora, nada de lo que se propongan les será imposible. Vamos, bajemos y allí confundamos su lengua, para que nadie entienda el lenguaje del otro”, reaccionó Jehová. La compañía de Mark Zuckerberg, la multinacional de Facebook, Instagram y WhatsApp quiere conjurar esta maldición y mantener el liderazgo en las comunicaciones personales, para lo que ha desarrollado, un modelo de inteligencia artificial (IA) capaz de traducir de forma instantánea comunicaciones de voz a voz o de texto a voz y viceversa en hasta 101 idiomas, imitando la expresión y el tono de los interlocutores.
El modelo, llamado SEAMLESSM4T, “supera a los sistemas existentes”, según la investigadora principal Marta Costa-Jussà, de la división de inteligencia artificial de Meta (FAIR, Foundational AI Research), y se pondrá a disposición del público siempre que no se utilice con fines comerciales.
SEAMLESSM4T puede reconocer hasta 101 idiomas (escritos o hablados) y es capaz de traducirlos a 36 en formato de voz y a 96 en un archivo de texto. De acuerdo con los resultados de Costa-Jussà, “traduce con entre un 8% y un 23% más de precisión [de acuerdo con la Bilingual Evaluation Understudy] que los sistemas existentes, puede filtrar el ruido de fondo [entre un 42% y un 66% más] y se ajusta a la variación de voces”.
“El margen de error varía según los idiomas de entrada y salida. La mejor manera de abordar esto sería aumentar la variedad de datos de entrenamiento y mejorar el modelado para que pueda aprender de menos datos”, explica la investigadora, quien destaca la capacidad de identificar matices en la entonación: “Tiene en cuenta lo que llamamos expresividad y somos capaces de trasladar de entrada a salida tales características”.
Dirección opuesta a las redes
Por otra parte, mientras Meta ha eliminado el sistema de verificación de datos y la moderación de contenidos en sus plataformas de comunicación, abriendo la puerta a bulos, sesgos y discursos de odio, con el sistema de traducción simultánea, ha optado por la estrategia contraria y se ha centrado en la “mitigación de la toxicidad” que se puede inferir al sistema durante el aprendizaje automático o en la traducción. En este sentido, Olga Koreneva Antonova, profesora de la Facultad de Traducción e Interpretación de la Universidad Pablo de Olavide (UPO), advierte que, por ejemplo, los traductores informáticos actuales “no consideran la igualdad de género” y tienden a sustituir el femenino por el masculino porque las fuentes con la que se entrena ya incluyen ese sesgo.
Meta también considera toxicidad las blasfemias o resultados que pueden incitar al odio, la violencia o el abuso contra una persona o un grupo (por religión, raza o género). Para mitigarla, ha desarrollado una herramienta, denominada Etox, especialmente entrenada en elementos tóxicos procedentes del habla.
Otra de las limitaciones que intenta superar el nuevo sistema es la escasez de idiomas operativos. Aunque más de la mitad de la humanidad habla principalmente media docena de idiomas, la diversidad es tan amplia que quedan fuera del servicio los más de 7.000 existentes en el mundo. El modelo de meta ha intentado paliar esta deficiencia incorporando hasta 101 lenguas, a pesar de la escasez de datos de audio y modelos para incorporarlos a la IA.
Tanel Alumäe, del laboratorio de tecnología del lenguaje de la Universidad de Tallin (Estonia) destaca en Nature la alta capacidad del sistema para traducir de forma simultánea el habla gracias a los datos de 4,5 millones de horas de audio hablado multilingüe. “Este tipo de entrenamiento ayuda al modelo a aprender los patrones de los datos, lo que facilita el ajuste para tareas específicas sin necesidad de grandes cantidades de datos de entrenamiento personalizados”, explica.
No obstante, en su opinión, “la mayor virtud de este trabajo no es la idea o el método propuesto, sino el hecho de que todos los datos y el código para ejecutar y optimizar esta tecnología estén disponibles públicamente, aunque el modelo en sí solo se puede utilizar para usos no comerciales”.