Time-Frequency Energy Features for Articulator Position Inference on Stop Consonants
Fecha
2012-12-01
Autores
Sepulveda-Sepulveda, Alexander
Castellanos-Domínguez, German
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad EAFIT
Resumen
Descripción
Acoustic-to-Articulatory inversion offers new perspectives and interesting applicationsin the speech processing field; however, it remains an open issue. This paper presents a method to estimate the distribution of the articulatory informationcontained in the stop consonants’ acoustics, whose parametrizationis achieved by using the wavelet packet transform. The main focus is on measuringthe relevant acoustic information, in terms of statistical association, forthe inference of the position of critical articulators involved in stop consonantsproduction. The rank correlation Kendall coefficient is used as the relevance measure. The maps of relevant time–frequency features are calculated for theMOCHA–TIMIT database; from which, stop consonants are extracted andanalysed. The proposed method obtains a set of time–frequency components closely related to articulatory phenemenon, which offers a deeper understanding into the relationship between the articulatory and acoustical phenomena.The relevant maps are tested into an acoustic–to–articulatory mapping systembased on Gaussian mixture models, where it is shown they are suitable for improvingthe performance of such a systems over stop consonants. The method could be extended to other manner of articulation categories, e.g. fricatives,in order to adapt present method to acoustic-to-articulatory mapping systemsover whole speech.
La inversión acústica a articulación ofrece nuevas perspectivas y aplicaciones interesantes en el campo del procesamiento del habla; Sin embargo, sigue siendo un tema abierto. Este artículo presenta un método para estimar la distribución de la información articulatoria contenida en la acústica de las consonantes de parada, cuya parametrización se logra utilizando la transformación del paquete wavelet. El enfoque principal está en medir la información acústica relevante, en términos de asociación estadística, para la inferencia de la posición de los articuladores críticos involucrados en la producción de consonantes de parada. El coeficiente de Kendall de correlación de rango se utiliza como medida de relevancia. Los mapas de las características relevantes de tiempo-frecuencia se calculan para la base de datos MOCHA-TIMIT; de donde se extraen las consonantes y se analizan. El método propuesto obtiene un conjunto de componentes de frecuencia de tiempo estrechamente relacionados con el fenómeno de articulación, que ofrece una comprensión más profunda de la relación entre los fenómenos articulatorio y acústico. Los mapas relevantes se prueban en un sistema de mapeo acústico-articulatorio basado en modelos de mezcla gaussiana , donde se muestra que son adecuados para mejorar el rendimiento de tales sistemas sobre las consonantes de parada. El método podría extenderse a otro tipo de categorías de articulación, p. Ej. fricativas, con el fin de adaptar el método actual al sistema de mapeo acústico a articulatorio en todo el discurso.
La inversión acústica a articulación ofrece nuevas perspectivas y aplicaciones interesantes en el campo del procesamiento del habla; Sin embargo, sigue siendo un tema abierto. Este artículo presenta un método para estimar la distribución de la información articulatoria contenida en la acústica de las consonantes de parada, cuya parametrización se logra utilizando la transformación del paquete wavelet. El enfoque principal está en medir la información acústica relevante, en términos de asociación estadística, para la inferencia de la posición de los articuladores críticos involucrados en la producción de consonantes de parada. El coeficiente de Kendall de correlación de rango se utiliza como medida de relevancia. Los mapas de las características relevantes de tiempo-frecuencia se calculan para la base de datos MOCHA-TIMIT; de donde se extraen las consonantes y se analizan. El método propuesto obtiene un conjunto de componentes de frecuencia de tiempo estrechamente relacionados con el fenómeno de articulación, que ofrece una comprensión más profunda de la relación entre los fenómenos articulatorio y acústico. Los mapas relevantes se prueban en un sistema de mapeo acústico-articulatorio basado en modelos de mezcla gaussiana , donde se muestra que son adecuados para mejorar el rendimiento de tales sistemas sobre las consonantes de parada. El método podría extenderse a otro tipo de categorías de articulación, p. Ej. fricativas, con el fin de adaptar el método actual al sistema de mapeo acústico a articulatorio en todo el discurso.