Este módulo aborda las tecnologías utilizadas en el reconocimiento y síntesis de voz, fundamentales en aplicaciones como asistentes virtuales y accesibilidad. Se estudian técnicas de procesamiento de audio, incluyendo separación de ruido y mejora de la calidad del sonido.
Se introduce el uso de modelos de traducción automática neuronal y su impacto en la comunicación global. Se exploran herramientas como Whisper y modelos de síntesis de voz para mejorar la generación de contenido auditivo.
Los estudiantes trabajarán en la creación de un sistema de síntesis de voz basado en modelos de IA, entrenando datasets y evaluando su precisión y naturalidad en la generación de audio.
Contenidos del módulo:
Cómo los modelos entienden y generan lenguaje humano.
- Los mecanismos que permiten a los LLMs usar el lenguaje natural “como humanos”.
- LLMs políglotas.
- Cómo usar LLMs para traducir texto.
- Multimodalidad: cómo los LLMs rompen el muro entre interfaz escrita e interfaz oral.
- Cómo usar LLMs para transcribir audio.
- ¡Cuidado que alucinan!
- Opcional: ¿Cómo los LLMs “traducen” el lenguaje natural a código de programación?
Profundizando en el procesamiento de voz
- Dialectos y acentos.
- Procesado de voz en tiempo real mediante LLMs.
- Cómo usar LLMs para generar audio.
- Generación de audio con emociones específicas.
- Clonado de voz.
Profundizando en la traducción automática
- Adaptando los LLMs a tus usuarios: cómo controlar estilo y modismos según el público objetivo.
- Transliteración.
Guardarrailes para LLMs en el procesamiento de voz y la traducción automática
- Cómo prevenir generación de contenido inapropiado.
- Divide y vencerás: Cómo dividir casos de uso de traducción y procesamiento de voz para tener mejores resultados y más predecibles.
- Cómo evaluar el rendimiento de traducciones y transcripciones.
Gestión de recursos, costes y escalabilidad en el uso de LLMs
- Ventajas y desventajas de usar LLMs políglotas vs LLMs monolingües.
- Procesamiento de voz y texto en tiempo real vs offline.
- Hostear LLMs on-premise vs cloud.
- Modelos pequeños vs modelos masivos.
- Métricas de negocio (KPIs).
Casos de uso
- ¿Cómo definir y diseñar un caso de uso para procesamiento de voz y/o traducción automática?
- Ejemplo de caso de uso: “AI call center”.
Privacidad del dato y proveedores de servicio
- ¿Dónde van las conversaciones procesadas? La privacidad del dato y las Implicaciones de usar APIs en la nube.
- Los jugadores principales: Google, OpenAI, Anthropic, Meta, Mistral, etc.
Práctica:
Caso de uso aplicado a tu empresa.