Este módulo aborda las tecnologías utilizadas en el reconocimiento y síntesis de voz, fundamentales en aplicaciones como asistentes virtuales y accesibilidad. Se estudian técnicas de procesamiento de audio, incluyendo separación de ruido y mejora de la calidad del sonido.
Se introduce el uso de modelos de traducción automática neuronal y su impacto en la comunicación global. Se exploran herramientas como Whisper y modelos de síntesis de voz para mejorar la generación de contenido auditivo.
Los estudiantes trabajarán en la creación de un sistema de síntesis de voz basado en modelos de IA, entrenando datasets y evaluando su precisión y naturalidad en la generación de audio.
Temario:
- Reconocimiento y síntesis de voz.
- Producción musical:
- Separación de audio.
- Extracción de ruido.
- Procesamiento de audio.
- Modelos de traducción automática neuronal.
- Aplicaciones en asistentes virtuales, educación, y accesibilidad.
Práctica:
Crearemos un sistema de síntesis de voz
- Creación de dataset.
- Entrenamiento.