DEPARTAMENTO DE INGENIERÍA EN TELECOMUNICACIONES

FACULTAD DE INGENIERÍA


DIVISIÓN DE INGENIERÍA ELÉCTRICA
DEPARTAMENTO DE INGENIERÍA EN TELECOMUNICACIONES


Programa de la Asignatura: 	PROCESAMIENTO DIGITAL DE VOZ

Clave: 		1018		  Núm. de créditos:	8

Carrera:	ING. EN TELECOMUNICACIONES

Duración del curso:
		   Semanas:	16
		   Horas:	64

Semestre:	   10º


Horas a la semana:
		  Teoría:	 4	Obligatoria:
		  Prácticas:	 0	Optativa:     SI



 OBJETIVO DEL CURSO

	El alumno aplicará las técnicas eficientes de codificación para la
transmisión  de voz, métodos  de síntesis natural de palabras y algoritmos
para el reconocimiento automático de comandos hablados.



 TEMAS

 Núm:				Nombre:				  Horas

I.	GENERACION Y PERCEPCION DE VOZ. PRINCIPIOS DE FONETICA.	   12

II.	ANALISIS DE VOZ.					   16

III.	CODIFICACION Y SINTESIS.				   12

IV.	RECONOCIMIENTO DE VOZ.					   16

V.	APLICACIONES.						    8
								 ______
								   64



ASIGNATURAS ANTECEDENTES :


ANÁLISIS Y PROCESAMIENTO DIGITAL DE SEÑALES

COMUNICACIONES DIGITALES

FILTRADO DE SEÑALES ANALÓGICAS Y DIGITALES



 ANTECEDENTES, OBJETIVOS Y CONTENIDOS DE LOS TEMAS

I.	GENERACION Y PERCEPCION DE VOZ. PRINCIPIOS DE FONETICA.

	ANTECENTES:

		Ninguno.

	OBJETIVO:

		El alumno conocerá los fundamentos de la  fisiología y
                psicología de la comunicación por  voz, así como de
		la  fónetica articulatoria y acústica del español.

	CONTENIDO:

		I.1	Generación de sonidos.
			I.1.1	Anatomía y fisiología de los organos vocales.
			I.1.2	Tipos de excitaciones en la glotis.
			I.1.3	Modulación del tracto vocal.
			I.1.4	Modelo digital para señales de voz.
			I.1.5	Estadística de señales de voz.
		I.2	Percepción de voz
			I.2.1	Anatomía y fisiología del oído.
			I.2.2	Percepción de sonidos.
			I.2.3	Percepción de voz.
		I.3	Principios de fonética.
			I.3.1	Clasificación de los fonemas.
			I.3.2	Fonética articulatoria.
			I.3.3	Fonética acústica.


II.	ANALISIS DE VOZ.

	ANTECEDENTES:

		Análisis y Procesamiento Digital de Señales.

	OBJETIVO:

		El alumno digitalizará señales de voz y las representará con
                diferentes conjuntos de parámetros.

	CONTENIDO:

		II.1	Parámetros en el dominio del tiempo.
			II.1.1   Energía.
			II.1.2   Cruces por cero.
			II.1.3   Función de autocorrelación.
		II.2	Parámetros en el dominio de la frecuencia
			II.2.1   Preénfasis de la señal.
			II.2.2   Ventanas de Hamming, Bartlett, Hanning, 
                                 Blackman y Kaiser.
			II.2.3   La FFT para segmentos cuasiestacionarios.
			II.2.4   Envolvente del espectro y subdivisión en 
				bandas.
			II.2.5   Análisis con bancos de filtros.
		II.3	Predicción lineal.
			II.3.1   Derivación de las ecuaciones de predicción y
                                 su solución.
			II.3.2   Aplicación al análisis de voz.
			II.3.3   Técnicas de Schur y de Burg.


		II.4	Clasificación de señales de voz.
			II.4.1   Cuantización vectorial
			II.4.2   Cociente de máxima similitud. Aplicación a
                                 presencia de voz.
			II.4.3   Algoritmo de n-vecinos más cercanos.
			II.4.4   Algoritmo de n-medias.
			II.4.5   Algoritmo isodata.
			II.4.6   Medidas de distorsión para señales de voz.


III.	CODIFICACION Y SINTESIS DE VOZ.

	ANTECEDENTES:

		Análisis y Procesamiento Digital de Señales.
		Comunicaciones Digitales.
		Filtrado de Señales Analogicas y Digitales.

	OBJETIVO:

		El alumno evaluará los codificadores y sintetizadores de voz
                de acuerdo a sus características, limitaciones y ventajas.

	CONTENIDO:

		III.1	Estimación del tono.
			III.1.1   Método de la función de autocorrelación.
			III.1.2   Método basado en ceptrums.
			III.1.3   Método de coeficientes de máxima similitud.
		III.2	Compresión de voz.
			III.2.1   Modulación por pulsos codificados.
			III.2.2   Modulación adaptable de pulsos codificados.
			III.2.3   Modulación delta lineal y adaptable.
			III.2.4   Modulación diferencial adaptable de pulsos 
                                  codificados.
		III.3	Codificación.
			III.3.1   Codificación de onda.
			III.3.2   Codificación con predictores lineales.
			III.3.3   Sistemas codificadores de voz.
		III.4	Síntesis
			III.4.1   Principios.
			III.4.2   Pasos en la sintetización de voz.
			III.4.3   Sistemas comerciales de síntesis.


IV.	RECONOCIMIENTO DE VOZ.

	ANTECEDENTES:

		Incluídos en esta asignatura.

	OBJETIVO:

		El alumno analizará las diferentes técnicas de reconocimiento 
                de voz y establecerá sus ventajas y limitaciones.

	
	CONTENIDO:

		IV.1	Técnicas para el reconocimiento.
			IV.1.1   Ajuste dinámico en el tiempo ( DTW ).
			IV.1.2   Modelos ocultos de Markov ( HMM ).
			IV.1.3   Redes neuronales ( NN ).
		IV.2	Reconocimiento de palabras aisladas.
			IV.2.1   Detección de inicio y fin de palabra.
			IV.2.2   Sistemas que utilizan DTW.
			IV.2.3   Sistemas que utilizan HMM.
			IV.2.4   Sistemas que utilizan NN.
		IV.3	Reconocimiento de palabras conectadas.
			IV.3.1   Sistemas que utilizan Variantes de DTW.
			IV.3.2   Sistemas que utilizan Variantes de HMM.
			IV.3.3   Reconocimiento de ciertas palabras dentro 
				 de frases.
			IV.3.4   Principios del reconocimiento de palabras 
				 continuas.


V.	APLICACIONES.

	ANTECEDENTES:

		Incluídos en esta asignatura.

	OBJETIVO:

		El alumno conocerá los sistemas de reconocimiento del 
		interlocutor y de reducción de ruido en voz.

	CONTENIDO:

		V.1	Sistemas de reconocimiento del interlocutor.
			V.1.1   Características que distinguen voces de 
                                interlocutores.
			V.1.2   Estrategias de decisión.
			V.1.3   Reconocimiento multiestado.
		V.2	Ensanchamiento de voz en ruido.
			V.2.1   Tipos de ruido comunes.
			V.2.2   Substracción de espectro.
			V.2.3   Filtros adaptables.



TECNICAS DE ENSEÑANZA:			  ELEMENTOS DE EVALUACION:
 
Exposición oral			  (X)  Exámenes parciales		(X)
Exposición audiovisual		  (X)  Exámenes finales		        (X)
Ejercicios dentro de clase	  (X)  Trabajos y tareas fuera del aula (X)
Ejercicios fuera del aula	  (X)  Participación en clase	        (X)
Seminarios			  ( )  Asistencia a prácticas	        ( )
Lecturas obligatorias		  (X)
Trabajo de investigación	  (X)	
Prácticas de taller o laboratorio ( )
Prácticas de campo		  ( )
Otras:	
	Utilización de paquetes de		
	simulación de computadoras



BIBLIOGRAFÍA

 TEXTOS BASICOS		Temas de la materia para los que se recomienda:

 	DELLER, J. R.; PROAKIS, J. G. and  HANSEN, J. H.	Todos
	"Discrete - Time Processing of Speech Signals."
	Macmillan Publishing Co.
	E.E.U.U., 1993.

	RABINER, L. R. and SCHAFER R. W.			Todos
	"Digital Processing of Speech Signal."
	Prentice Hall Inc.
	E.E.U.U., 1987.

	ROWDEN, Chris; Editor					Todos
	"Speech Processing."
	Mc Graw Hill Book Co.
	E.E.U.U., 1990.

BIBLIOGRAFIA COMPLEMENTARIA

	PARSONS, Thomas W.				        Todos
	"Voice and Speech Processing."
	McGraw Hill Book Co.
	E.E.U.U., 1987.

	PAPAMICHALIS, Panos P.					II, III
	"Practical Approaches to Speech Coding."
	Prentice Hall Inc.
	E.E.U.U., 1987.

	OWENS, F. J.						II, III y IV
	"Signal Processing of Speech."
	McGraw Hill Book Co.
	E.E.U.U., 1993.

	SHAUGHNESSY, Douglas O.					Todos
	"Speech Communication, Human and Machine."
	Addison Wesley Publishing Co.
	E.E.U.U., 1990.

	FLANAGAN, James L.					I, II, III
	"Speech Analysis, Synthesis and Perception."
	Springer - Verlag.
	E.E.U.U., 1972.

	RABINER, L. R. and Juang.			        I, II, IV
	"Fundamentals of Speech Recognition."
	Prentice Hall Inc.
	E.E.U.U.,1993.

	MORGAN, D. P. and SCOFIELD, C. L.		        III, IV
	"Neural Networks and Speech Processing."
	Kluwer.
	E.E.U.U., 1991.