Un repaso al AudioPaLM IA de Google, el modelo lingüístico de comprensión y generación del habla

Google mueve ficha frente al Voicebox de Meta y Elevan Labs con su IA AudioPaLM.

AudioPaLM es un gran modelo lingüístico diseñado para la comprensión y generación del habla. Combina modelos lingüísticos basados en texto y habla, PaLM-2 y AudioLM, en una arquitectura multimodal unificada que puede procesar y generar ambos elementos. Las aplicaciones de AudioPaLM incluyen el reconocimiento del habla y la traducción de voz a voz.

El modelo hereda de AudioLM la capacidad de conservar información paralingüística, como la identidad del hablante y la entonación, y el conocimiento lingüístico presente sólo en grandes modelos lingüísticos como PaLM-2.

AudioPaLM supera con creces a los sistemas existentes en tareas de traducción de voz y puede realizar traducciones de voz a texto sin necesidad de realizar zero-shots en muchos idiomas. También es capaz de transferir una voz de un idioma a otro a partir de una breve indicación oral.

Aspectos destacados

  • AudioPaLM es un modelo generativo multimodal de habla y texto que puede representar el habla y el texto con un número limitado de tokens discretos.

  • El modelo puede entrenarse en una combinación de tareas como el reconocimiento del habla, la síntesis de texto a la palabra y la traducción de habla a habla.

  • AudioPaLM puede comenzar con las normas de un modelo lingüístico preentrenado en texto, lo que le permite beneficiarse de los conocimientos lingüísticos y de sentido común de modelos como PaLM o PaLM 2.

  • El modelo realiza S2ST con transferencia de voz de hablantes desconocidos, superando a los métodos existentes en términos de calidad del habla y preservación de la voz.

  • AudioPaLM es capaz de realizar AST con combinaciones de voz de entrada e idioma de destino que no se han visto durante la fase de entrenamiento

Detalles del entrenamiento

El modelo se entrenó en múltiples tareas basadas en los mismos datos subyacentes para mejorar el rendimiento. Por ejemplo, los datos de CoV oST2 pueden utilizarse tanto para tareas ASR como AST, y si se añaden tareas ASR a esta fase se obtiene un mejor rendimiento en los puntos de referencia AST. Los modelos de base son el punto de control PaLM 8B y el tokenizador USM-v1. El modelo se entrenó con las tareas ASR y AST de CoV oST2.


Aplicaciones empresariales

Reconocimiento del habla: AudioPaLM puede utilizarse en aplicaciones que requieran conversiones de voz a texto, como servicios de transcripción, asistentes de voz y software de dictado.

Traducción de voz a voz: El modelo puede utilizarse para la traducción en tiempo real en aplicaciones de comunicación, lo que ayuda a romper las barreras lingüísticas en los negocios internacionales.

Clonación de voz: AudioPaLM es capaz de transferir una voz de un idioma a otro a partir de una breve indicación oral. Esto podría utilizarse en aplicaciones como asistentes de voz personalizados o avatares digitales.

Aplicaciones multimodales: Dado que AudioPaLM puede procesar y generar tanto texto como voz, podría utilizarse en aplicaciones que requieran la interacción con ambas modalidades, como los sistemas interactivos de IA o la generación de contenidos multimodales.

Características principales:

Unified Speech-Text LLM: AudioPaLM es un Large Language Model (LLM) unificado de habla y texto, capaz de consumir y producir ambos aspectos. Aprovecha las capacidades existentes de PaLM y PaLM-2, procedentes del preentrenamiento de sólo texto.

Tareas multimodales: El enfoque unificado entre modalidades permite entrenar AudioPaLM en una mezcla de tareas como ASR, AST y S2ST.

Transferencia de voz: Aprovechando las indicaciones de audio de AudioLM, el modelo realiza S2ST con transferencia de voz de hablantes desconocidos, superando a los métodos existentes en términos de calidad del habla y preservación de la voz.

Capacidad de Zero-Shot: El modelo es capaz de realizar AST con combinaciones de voz y lengua meta que no se han visto durante el entrenamiento.

Fine-tuning

Entrenamiento desde cero frente al fine-tuning: Los resultados del documento se basan en el fine-tuning de un punto de control PaLM preentrenado para texto. El documento investiga el efecto de utilizar un modelo de este tipo en comparación con empezar a entrenar desde cero en la misma arquitectura.

Para el modelo de fine-tuning, parten del punto de control PaLM 8B, que se ha modificado añadiendo filas adicionales a la matriz de incrustación de tokens para los tokens de audio, que se inicializan aleatoriamente. Los tres modelos se entrenan en las tareas ASR y AST de CoV oST2. Los resultados muestran que el ajuste fino del punto de control PaLM 8B consigue un rendimiento sustancialmente mayor que el entrenamiento desde cero en tareas CoV oST2 tanto para ASR como para AST.

Discusión sobre el fine-tuning: El fine-tuning de un punto de control preentrenado mejora sustancialmente los resultados. Esto no es sorprendente, ya que el modelo de base es muy capaz para empezar; sin embargo, es interesante que el fine-tuning sea capaz de adaptarse a estímulos de entrada completamente nuevos, ya que los tokens de audio son incrustaciones totalmente nuevas que el modelo debe aprender a entender. Además, los tokens de audio son muy distintos de los de texto, a pesar de la baja frecuencia de muestreo, es de suponer que sigue habiendo cierta redundancia.

Configuración de entrenamiento: En todos los experimentos, utilizan la misma configuración de ajuste. En concreto, realizan el afine-tuning con el optimizador Adafactor con una tasa de aprendizaje constante de 5×10^-5 y una tasa de abandono de 0,1, y utilizan enmascaramiento de pérdidas en las entradas.

Limitaciones

El modelo AudioPaLM, aunque demuestra unas capacidades impresionantes en el procesamiento de voz y texto, tiene ciertas limitaciones:

Dependencia del tokenizador de audio: La capacidad del modelo para producir audio de forma nativa es el resultado del uso de audio tokenizado. Esto introduce una fuerte dependencia de la calidad del tokenizador de audio. La calidad de la salida de audio está directamente influenciada por el rendimiento del tokenizador.

Necesidad de un ajuste completo del modelo: A diferencia de algunos enfoques que congelan la mayoría de los pesos durante el fine-tuning, preservando así las capacidades originales de los componentes del modelo, AudioPaLM requiere el ajuste fino de todo el modelo. Esto podría afectar a la conservación de las capacidades originales de los componentes del modelo.

Fuente: Generativeai

 

NC