Meta lanza modelo de IA para traducir voz entre docenas de idiomas
La empresa matriz de Facebook, Meta, lanzó el martes un modelo de inteligencia artificial capaz de traducir y transcribir el habla en docenas de idiomas, un componente potencial para las herramientas que permiten la comunicación en tiempo real entre idiomas. divide
La compañía dijo en una publicación de blog que su modelo SeamlessM4T podría admitir traducciones entre texto y voz en casi 100 idiomas, así como traducción completa de voz a voz para 35 idiomas, combinando tecnología que anteriormente solo estaba disponible en modelos separados.
El director ejecutivo, Mark Zuckerberg, ha dicho que imagina que este tipo de herramientas faciliten las interacciones entre usuarios de todo el mundo en el metaverso, el conjunto de mundos virtuales interconectados al que está apostando el futuro de la empresa.
Meta está poniendo el modelo a disposición del público para uso no comercial, dice la publicación del blog.
La compañía de redes sociales más grande del mundo ha lanzado una serie de modelos de IA en su mayoría gratuitos este año, incluido un modelo de lenguaje grande llamado Llama que plantea un serio desafío para los modelos patentados vendidos por OpenAI respaldado por Microsoft y Alphabet Google.
Zuckerberg dice que un ecosistema abierto de IA funciona en beneficio de Meta, ya que la empresa tiene más que ganar si colabora de manera efectiva en la creación de herramientas orientadas al consumidor para sus plataformas sociales que cobrando por el acceso a los modelos.
No obstante, Meta enfrenta cuestiones legales similares al resto de la industria en torno a los datos de entrenamiento ingeridos para crear sus modelos.
En julio, la comediante Sarah Silverman y otros dos autores presentaron demandas por infracción de derechos de autor contra Meta y OpenAI, acusando a las empresas de usar sus libros como datos de capacitación sin permiso.
Para el modelo SeamlessM4T, los investigadores de Meta dijeron en un artículo de investigación que recopilaron datos de entrenamiento de audio de 4 millones de horas de «audio sin procesar originado en un repositorio disponible públicamente de datos web rastreados», sin especificar qué repositorio.
Un portavoz de Meta no respondió a las preguntas sobre la procedencia de los datos de audio.
Los datos de texto provienen de conjuntos de datos creados el año pasado que extrajeron contenido de Wikipedia y sitios web asociados, según el artículo de investigación. Ver las imágenes en nuestro Portal Tv.
Fuente: reuters