Compartir en:

Los días 9 y 16 de Noviembre en Corvalius estaremos realizando un Cursos de Capacitación Interna sobre Reconocimiento Automático del Habla.
En esta oportunidad estaremos abriendo nuestras puertas a tres personas externas a la empresa, que estén interesadas en esta temática y demuestren contar con los conocimientos mínimos necesarios para aprovechar el dictado.

Para ello estaremos recibiendo los CV de quienes quieran sumarse hasta el 31 de octubre.

El curso será dictado por Diego Evin tendrá modalidad teórico-práctica y una carga horaria estimada de 12 hs. A continuación se detalla la temática y el contenido del mismo.

Resumen

El curso presenta los conceptos fundamentales del reconocimiento automático del habla desde un punto de vista de Ciencias de la Computación.

Muchos de los algoritmos de aprendizaje automático que se emplean actualmente en dominios como: procesamiento del lenguaje natural, bioinformática, análisis de series temporales, o control de procesos se diseñaron originalmente para resolver problemas puntuales del reconocimiento del habla.

Ese aporte al campo del conocimiento que ha hecho la investigación en reconocimiento del habla se sigue observando, y se puede justificar fundamentalmente por la dificultad del problema, el tamaño de los modelos que se deben aprender y las dimensiones de sus espacios de búsqueda. Además, el aprendizaje de los modelos del habla se hace usando corpus de gran tamaño, requiriendo métodos asociados con Big Data y Datamining.

El objetivo del curso no es solamente que los participantes se familiaricen con algoritmos particulares del reconocimiento del habla, sino que esos conocimientos se puedan usar como base para explorar herramientas que son relevantes en otras áreas de Ciencias de la Computación.

Durante su desarrollo se cubrirán los algoritmos esenciales para crear sistemas de reconocimiento del habla continua de gran vocabulario. El contenido incluye aspectos teóricos y práctico de los algoritmos y técnicas usada por la mayoría de los sistemas de RAH actuales. Finalmente, además de tratar los algoritmos de reconocimiento del habla desarrollados en las últimas décadas y que se convirtieron en estándar, el material del curso también presentará un resumen de desarrollos recientes en este campo.

Contenido

Módulo 1 – Sistemas de ingeniería asociados al lenguaje hablado

– Producción y percepción del habla

– Bases de fonética acústica

– Front-end y procesamiento del habla

– Revisión: probabilidad, teorías de estimación, teoría de la información, reconocimiento de patrones

Módulo 2 – Reconocimiento automático del habla

– Evolución histórica del reconocimiento automático del habla

– Modelos de reconocimiento automático del habla

– Reconocimiento del habla utilizando templates

– Reconocimiento del habla usando modelos ocultos de Markov

  • Búsqueda de las secuencias de estado más probable
  • Estimación de parámetros para HMMs.

Módulo 3 – Componentes de un sistema de reconocimiento del habla basado en HMM

– Modelos acústicos independientes y dependientes del contexto

– Modelo de pronunciaciones

– Modelos de lenguaje

– Decodificador de habla: beam search, revisión del estado del arte en desempeño

Módulo 4 – Reconocimiento robusto del habla

– Métodos asociados al front-end: sustracción cepstral, aproximaciones basadas en aspectos perceptuales

– Técnicas de combinación de modelos paralelos

– Normalización del tracto vocal

– Adaptación supervisada y no supervisada (LDA, MLLR)

Módulo 5 – Sistemas de diálogo

– Principios de diseño y tipos de sistemas de diálogo

– Temas de arquitectura

– Modelado Matemático de sistemas de diálogo

– El modelo de proceso de decisión de Markov

– Evaluación de sistemas de diálogo

Módulo 6 – Aplicaciones adicionales

– Reconocimiento audio-visual del habla y de hablantes

– Reconocimiento de habla distribuido

– Traducción habla-habla

– Técnicas de reconocimiento de habla para la síntesis del habla (basadas en HMM)

– Transcripción de música

– Identificación de hablantes

Referencias

Textos

  • Spoken Language Processing: A guide to Theory, Algorithm and System Development, X. Huang, A. Acero, H-W. Hon, Prentice Hall 2001.
  • Cambridge University HTK Book, Steve Young et al. Download from http://htk.eng.cam.ac.uk/docs/docs.html (requiere registrarse)
  • Fundamentals of Speech Recognition, Rabiner and Juang, Prentice Hall, 1993.
  • Statistical Methods for Speech Recognition, F. Jelinek, MIT Press, 1997.
  • Speech and Language Processing, Jurafsky and Martin, Prentice Hall, 2000.
  • Automatic Speech and Speaker Recognition: Advanced Topics, Chin-hui Lee, Frank Soong, K. Paliwal, Kluwer, 1996.

Open Source para el desarrollo de sistemas ASR:

  • Diego Evin

    Researcher

    Researcher at Corvalius, member of the Laboratory of Sensory Research (CONICET-UBA), and Assistant Professor on Computational Intelligence at the University of Entre Ríos. I was an International Fellow at STAR Lab, SRI International. I'm Ph.D. in Computer Sciences (FCEN UBA), working on speech recognition, and Bioengineer (UNER).

Comments are closed.