FACULTAD DE INGENIERÍA
DIVISIÓN DE INGENIERÍA ELÉCTRICA
DEPARTAMENTO DE INGENIERÍA EN TELECOMUNICACIONES
Programa de la Asignatura: PROCESAMIENTO DIGITAL DE VOZ
Clave: 1018 Núm. de créditos: 8
Carrera: ING. EN TELECOMUNICACIONES
Duración del curso:
Semanas: 16
Horas: 64
Semestre: 10º
Horas a la semana:
Teoría: 4 Obligatoria:
Prácticas: 0 Optativa: SI
OBJETIVO DEL CURSO
El alumno aplicará las técnicas eficientes de codificación para la
transmisión de voz, métodos de síntesis natural de palabras y algoritmos
para el reconocimiento automático de comandos hablados.
TEMAS
Núm: Nombre: Horas
I. GENERACION Y PERCEPCION DE VOZ. PRINCIPIOS DE FONETICA. 12
II. ANALISIS DE VOZ. 16
III. CODIFICACION Y SINTESIS. 12
IV. RECONOCIMIENTO DE VOZ. 16
V. APLICACIONES. 8
______
64
ASIGNATURAS ANTECEDENTES :
ANÁLISIS Y PROCESAMIENTO DIGITAL DE SEÑALES
COMUNICACIONES DIGITALES
FILTRADO DE SEÑALES ANALÓGICAS Y DIGITALES
ANTECEDENTES, OBJETIVOS Y CONTENIDOS DE LOS TEMAS
I. GENERACION Y PERCEPCION DE VOZ. PRINCIPIOS DE FONETICA.
ANTECENTES:
Ninguno.
OBJETIVO:
El alumno conocerá los fundamentos de la fisiología y
psicología de la comunicación por voz, así como de
la fónetica articulatoria y acústica del español.
CONTENIDO:
I.1 Generación de sonidos.
I.1.1 Anatomía y fisiología de los organos vocales.
I.1.2 Tipos de excitaciones en la glotis.
I.1.3 Modulación del tracto vocal.
I.1.4 Modelo digital para señales de voz.
I.1.5 Estadística de señales de voz.
I.2 Percepción de voz
I.2.1 Anatomía y fisiología del oído.
I.2.2 Percepción de sonidos.
I.2.3 Percepción de voz.
I.3 Principios de fonética.
I.3.1 Clasificación de los fonemas.
I.3.2 Fonética articulatoria.
I.3.3 Fonética acústica.
II. ANALISIS DE VOZ.
ANTECEDENTES:
Análisis y Procesamiento Digital de Señales.
OBJETIVO:
El alumno digitalizará señales de voz y las representará con
diferentes conjuntos de parámetros.
CONTENIDO:
II.1 Parámetros en el dominio del tiempo.
II.1.1 Energía.
II.1.2 Cruces por cero.
II.1.3 Función de autocorrelación.
II.2 Parámetros en el dominio de la frecuencia
II.2.1 Preénfasis de la señal.
II.2.2 Ventanas de Hamming, Bartlett, Hanning,
Blackman y Kaiser.
II.2.3 La FFT para segmentos cuasiestacionarios.
II.2.4 Envolvente del espectro y subdivisión en
bandas.
II.2.5 Análisis con bancos de filtros.
II.3 Predicción lineal.
II.3.1 Derivación de las ecuaciones de predicción y
su solución.
II.3.2 Aplicación al análisis de voz.
II.3.3 Técnicas de Schur y de Burg.
II.4 Clasificación de señales de voz.
II.4.1 Cuantización vectorial
II.4.2 Cociente de máxima similitud. Aplicación a
presencia de voz.
II.4.3 Algoritmo de n-vecinos más cercanos.
II.4.4 Algoritmo de n-medias.
II.4.5 Algoritmo isodata.
II.4.6 Medidas de distorsión para señales de voz.
III. CODIFICACION Y SINTESIS DE VOZ.
ANTECEDENTES:
Análisis y Procesamiento Digital de Señales.
Comunicaciones Digitales.
Filtrado de Señales Analogicas y Digitales.
OBJETIVO:
El alumno evaluará los codificadores y sintetizadores de voz
de acuerdo a sus características, limitaciones y ventajas.
CONTENIDO:
III.1 Estimación del tono.
III.1.1 Método de la función de autocorrelación.
III.1.2 Método basado en ceptrums.
III.1.3 Método de coeficientes de máxima similitud.
III.2 Compresión de voz.
III.2.1 Modulación por pulsos codificados.
III.2.2 Modulación adaptable de pulsos codificados.
III.2.3 Modulación delta lineal y adaptable.
III.2.4 Modulación diferencial adaptable de pulsos
codificados.
III.3 Codificación.
III.3.1 Codificación de onda.
III.3.2 Codificación con predictores lineales.
III.3.3 Sistemas codificadores de voz.
III.4 Síntesis
III.4.1 Principios.
III.4.2 Pasos en la sintetización de voz.
III.4.3 Sistemas comerciales de síntesis.
IV. RECONOCIMIENTO DE VOZ.
ANTECEDENTES:
Incluídos en esta asignatura.
OBJETIVO:
El alumno analizará las diferentes técnicas de reconocimiento
de voz y establecerá sus ventajas y limitaciones.
CONTENIDO:
IV.1 Técnicas para el reconocimiento.
IV.1.1 Ajuste dinámico en el tiempo ( DTW ).
IV.1.2 Modelos ocultos de Markov ( HMM ).
IV.1.3 Redes neuronales ( NN ).
IV.2 Reconocimiento de palabras aisladas.
IV.2.1 Detección de inicio y fin de palabra.
IV.2.2 Sistemas que utilizan DTW.
IV.2.3 Sistemas que utilizan HMM.
IV.2.4 Sistemas que utilizan NN.
IV.3 Reconocimiento de palabras conectadas.
IV.3.1 Sistemas que utilizan Variantes de DTW.
IV.3.2 Sistemas que utilizan Variantes de HMM.
IV.3.3 Reconocimiento de ciertas palabras dentro
de frases.
IV.3.4 Principios del reconocimiento de palabras
continuas.
V. APLICACIONES.
ANTECEDENTES:
Incluídos en esta asignatura.
OBJETIVO:
El alumno conocerá los sistemas de reconocimiento del
interlocutor y de reducción de ruido en voz.
CONTENIDO:
V.1 Sistemas de reconocimiento del interlocutor.
V.1.1 Características que distinguen voces de
interlocutores.
V.1.2 Estrategias de decisión.
V.1.3 Reconocimiento multiestado.
V.2 Ensanchamiento de voz en ruido.
V.2.1 Tipos de ruido comunes.
V.2.2 Substracción de espectro.
V.2.3 Filtros adaptables.
TECNICAS DE ENSEÑANZA: ELEMENTOS DE EVALUACION:
Exposición oral (X) Exámenes parciales (X)
Exposición audiovisual (X) Exámenes finales (X)
Ejercicios dentro de clase (X) Trabajos y tareas fuera del aula (X)
Ejercicios fuera del aula (X) Participación en clase (X)
Seminarios ( ) Asistencia a prácticas ( )
Lecturas obligatorias (X)
Trabajo de investigación (X)
Prácticas de taller o laboratorio ( )
Prácticas de campo ( )
Otras:
Utilización de paquetes de
simulación de computadoras
BIBLIOGRAFÍA
TEXTOS BASICOS Temas de la materia para los que se recomienda:
DELLER, J. R.; PROAKIS, J. G. and HANSEN, J. H. Todos
"Discrete - Time Processing of Speech Signals."
Macmillan Publishing Co.
E.E.U.U., 1993.
RABINER, L. R. and SCHAFER R. W. Todos
"Digital Processing of Speech Signal."
Prentice Hall Inc.
E.E.U.U., 1987.
ROWDEN, Chris; Editor Todos
"Speech Processing."
Mc Graw Hill Book Co.
E.E.U.U., 1990.
BIBLIOGRAFIA COMPLEMENTARIA
PARSONS, Thomas W. Todos
"Voice and Speech Processing."
McGraw Hill Book Co.
E.E.U.U., 1987.
PAPAMICHALIS, Panos P. II, III
"Practical Approaches to Speech Coding."
Prentice Hall Inc.
E.E.U.U., 1987.
OWENS, F. J. II, III y IV
"Signal Processing of Speech."
McGraw Hill Book Co.
E.E.U.U., 1993.
SHAUGHNESSY, Douglas O. Todos
"Speech Communication, Human and Machine."
Addison Wesley Publishing Co.
E.E.U.U., 1990.
FLANAGAN, James L. I, II, III
"Speech Analysis, Synthesis and Perception."
Springer - Verlag.
E.E.U.U., 1972.
RABINER, L. R. and Juang. I, II, IV
"Fundamentals of Speech Recognition."
Prentice Hall Inc.
E.E.U.U.,1993.
MORGAN, D. P. and SCOFIELD, C. L. III, IV
"Neural Networks and Speech Processing."
Kluwer.
E.E.U.U., 1991.