anhinga_anhinga: (Default)
anhinga_anhinga ([personal profile] anhinga_anhinga) wrote2012-12-12 08:04 pm

A robot with impressive language capabilities

This is a prototype of an elderly home care robot developed by a very small group at IBM (with the benign indifference from their employer corporation that does not want to deal with robots and headaches and liabilities associated with robots). Its ability to verbally communicate with a human and to learn from a human is very impressive (basically, one can program this robot to a large extent simply by talking to it). Here is a demo video from the talk at the AGI-12 conference:

http://www.youtube.com/watch?v=M2RXDI3QYNU

The paper itself, "An Extensible Language Interface for Robot Manipulation", explaining to some extent how this works can be found here:

http://www.mindmakers.org/boards/18/topics/73

and the free online version of AGI-12 proceedings is here (scroll down to AGI-12 Contributed Paper Sessions):

http://www.mindmakers.org/projects/agiconf-2012/wiki/Schedule

[identity profile] bvn-mai.livejournal.com 2013-08-26 01:46 pm (UTC)(link)
Я очень рассчитываю, что Вы напишите свое мнение об "..."Articulatory Speech Structures" и "Future of Machine Learning". ..", как обещали :). Спасибо за ссылку, но всего лишь инженер, который знает математику чуть лучше обычного инженера из IT-сферы, у меня чисто утилитарный взгляд на математику.

[identity profile] x-ghbdtn.livejournal.com 2013-08-29 03:44 pm (UTC)(link)
Я пока успел посмотреть только "Future of Machine Learning", там одна критика текущего положения дел и никаких предложений для Future. Будем смотреть дальше.

[identity profile] x-ghbdtn.livejournal.com 2013-08-30 04:27 pm (UTC)(link)
В "Articulatory Speech Structures" метод никак не расрывается, просто говорится, что при тестовой классификации на данных MOCHA
articulatory corpus (я не знаю, как выглядят артикуляторные корпусы - это необработанный звук?) на 14 классов (типов фонем? почему 14?) у них получилось 77% совпадений. Что там за алгоритм, как в нем используются авторские ETS - ни слова.

Будем смотреть дальше, в поисках чего-нибудь содержательного.

[identity profile] x-ghbdtn.livejournal.com 2013-08-30 05:10 pm (UTC)(link)
Предыдущее было про https://www.era.lib.ed.ac.uk/handle/1842/928 "Structural representation and matching of articulatory speech structures based on the evolving transformation system (ETS) formalism". Они работают поверх препроцессора, описанного в https://www.era.lib.ed.ac.uk/handle/1842/942 "Detection of Symbolic Gestural Events in Articulatory Data for Use in Structural Representations of Continuous Speech" - он, собственно и обрабатывает речь в дискретное представление.

Алгоритм там описан словами, без особой математики и оригинальной терминологии, он отношения к ETS не имеет. Исходные данные это не звук, если я правильно понял, а Electromagnetic Articulograph (EMA), Laryngograph and Electropalatograph (EPG) measurements. Им сделали кластеризацию, причем индивидуально по человеку (clustering, making use of an efficient variant of k-means described in [9], is applied to the entire data available for the particular speaker), а дальше фиксировали, в какой кластер попадают данные этих артикулографов, ларингографов и электропалатографов. Какие 14 фонем выбраны - там есть табличка. По кластеризации ссылка на “An Efficient k-Means Clustering Algorithm: Analysis and Implementation,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, а их ETS не причем.