anhinga_anhinga

From:

x-ghbdtn.livejournal.com

Предыдущее было про https://www.era.lib.ed.ac.uk/handle/1842/928 "Structural representation and matching of articulatory speech structures based on the evolving transformation system (ETS) formalism". Они работают поверх препроцессора, описанного в https://www.era.lib.ed.ac.uk/handle/1842/942 "Detection of Symbolic Gestural Events in Articulatory Data for Use in Structural Representations of Continuous Speech" - он, собственно и обрабатывает речь в дискретное представление.

Алгоритм там описан словами, без особой математики и оригинальной терминологии, он отношения к ETS не имеет. Исходные данные это не звук, если я правильно понял, а Electromagnetic Articulograph (EMA), Laryngograph and Electropalatograph (EPG) measurements. Им сделали кластеризацию, причем индивидуально по человеку (clustering, making use of an efficient variant of k-means described in [9], is applied to the entire data available for the particular speaker), а дальше фиксировали, в какой кластер попадают данные этих артикулографов, ларингографов и электропалатографов. Какие 14 фонем выбраны - там есть табличка. По кластеризации ссылка на “An Efficient k-Means Clustering Algorithm: Analysis and Implementation,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, а их ETS не причем.