Facebook crea un motor de reconocimiento de voz en 51 idiomas

Facebook crea un motor de reconocimiento de voz en 51 idiomas

Los científicos de datos en Facebook han desarrollado un modelo de reconocimiento automático de voz (ASR) capaz de comprender 51 idiomas, según un nuevo trabajo de investigación. El modelo, construido sobre más de 16,000 horas de grabaciones de voz, es supuestamente el más grande jamás diseñado.

Motor de reconocimiento

Los motores ASR generalmente entienden un solo idioma, con múltiples modelos necesarios para que un asistente de voz se comunique en más de una lengua. El diseño de Facebook pone todos los idiomas en un solo sistema usando lo que los desarrolladores llamaron un modelo conjunto de secuencia a secuencia.

Esencialmente, utiliza las horas de datos de voz, recopilados de videos públicos y anónimos en Facebook, para analizar no solo lo que alguien está diciendo, sino también el idioma que está hablando. Los diferentes idiomas se dividieron en múltiples subcategorías para identificar el idioma hablado y, por lo tanto, cómo responder.

  Cómo pasar la música de tu iPhone al altavoz automáticamente cuando llegas a casa

“Un modelo único capaz de reconocer múltiples idiomas ha sido un objetivo a largo plazo en el campo del reconocimiento automático de voz”, señalaron los autores del artículo. escribió. “En general, el procesamiento del habla en varios idiomas y en varios idiomas ha sido un área activa de investigación durante décadas”.

Hay aproximadamente mil millones de parámetros para el lenguaje en el modelo, lo que hace que su reconocimiento de voz sea mejor en comparación con los modelos convencionales utilizados, según Facebook.

El documento cita una mejora del rendimiento del 28.8% usando el nuevo modelo. Los idiomas con menos horas de grabación para trabajar en realidad tuvieron una mejora porcentual más alta en términos de tasa de error de palabras porque esos idiomas no se usan con tanta frecuencia para los diseños estándar.

  Cortana se cerrará en 2021

“Hasta donde sabemos, este trabajo es el primero en estudiar sistemas multilingües a gran escala”, explican los autores en el documento. “Demostramos que es posible entrenar una arquitectura ASR única masiva para 51 idiomas diferentes, lo que encontramos en la práctica considerablemente menos tiempo de ajuste que 51 líneas de base monolingües diferentes”.

Voces de Facebook

El interés de Facebook en un modelo que pueda entender y comunicarse en muchos idiomas dentro de un solo modelo es más que académico. La compañía ha estado invirtiendo mucho en mejorar la IA conversacional en varios frentes. Más recientemente, debutó un nuevo chatbot de código abierto llamado Blender.

Supuestamente más avanzado que cualquier rival, incluido el nuevo chatbot Meena de Google, Blender está diseñado para mantener una conversación sobre cualquier tema y mostrar empatía con los usuarios. Y Facebook quiere seguir recopilando datos de voz para entrenar motores de reconocimiento de voz, incluso pagando una pequeña tarifa a las personas que envían audio a través de su aplicación de investigación de mercado Viewpoints.

  La app de Alexa se renueva

Esos proyectos, más el nuevo experimento, pueden sentar las bases para un asistente de voz en el rumoreado sistema operativo de Facebook. Será necesaria una configuración multilingüe si Facebook quiere competir en el escenario global.

Alexa y Google Assistant ya hablan muchos idiomas, pero tienen modos multilingües limitados. Alexa puede identificar y responder adecuadamente a quienes hablan inglés y español, francés o hindi, según la ubicación del hablante. Mientras tanto, el Asistente de Google puede ser bilingüe en inglés y en cualquier idioma ya hablado por el asistente de voz.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

dieciseis + 5 =