anhinga_anhinga: (Default)
anhinga_anhinga ([personal profile] anhinga_anhinga) wrote2012-12-12 08:04 pm

A robot with impressive language capabilities

This is a prototype of an elderly home care robot developed by a very small group at IBM (with the benign indifference from their employer corporation that does not want to deal with robots and headaches and liabilities associated with robots). Its ability to verbally communicate with a human and to learn from a human is very impressive (basically, one can program this robot to a large extent simply by talking to it). Here is a demo video from the talk at the AGI-12 conference:

http://www.youtube.com/watch?v=M2RXDI3QYNU

The paper itself, "An Extensible Language Interface for Robot Manipulation", explaining to some extent how this works can be found here:

http://www.mindmakers.org/boards/18/topics/73

and the free online version of AGI-12 proceedings is here (scroll down to AGI-12 Contributed Paper Sessions):

http://www.mindmakers.org/projects/agiconf-2012/wiki/Schedule

[identity profile] bvn-mai.livejournal.com 2012-12-13 06:39 am (UTC)(link)
Спасибо

[identity profile] misha-b.livejournal.com 2012-12-13 09:09 am (UTC)(link)
Неплохо, хотя подозреваю, что словарь и ситуации довольно ограничены.
Но тем не менее разные полезные роботы скоро будут широко доступны, похоже. Технология уже близка к этому.

[identity profile] anhinga-anhinga.livejournal.com 2012-12-13 02:40 pm (UTC)(link)
Словарь не фиксирован, насколько я понял... Там есть встроенный контекстный распознаватель частей речи, и он способен добавлять новые слова ("aspirin", "poke", etc).

[identity profile] misha-b.livejournal.com 2012-12-13 02:50 pm (UTC)(link)
Да, я прочитал об этом, но думаю возможности добавления невелики. Все равно очень неплохо.

[identity profile] fregimus.livejournal.com 2012-12-13 07:05 pm (UTC)(link)
Замечательно. Там несколько вещей, мне непонятно как сделанных (например, новые слова: «робот вася, это бурбулин» — «понял, это бурбулин!» — без фонетической модели слова распознать и повторить у меня никогда не получалось, и я считал эту проблему нерешенной). Постараюсь разобраться.

[identity profile] anhinga-anhinga.livejournal.com 2012-12-13 08:16 pm (UTC)(link)
Кажется, фонетику сделали (наш домашний voice mail service распознаёт примерно половину сообщений, наговоренных кем попало [но хорошо говорящим по-английски] на телефон, и посылает транскрибированный текст по элекронной почте с довольно небольшим количеством ошибок [если он чувствует, что не может разобраться, то посылает только звуковой файл]).

Это ещё далеко до идеала, но уже очень неплохо (у нас телефонный сёрвис через Интернет, который даёт компания Vonage, я думаю, что это уже много кто умеет, вряд ли Vonage уникален в этом смысле)...

[identity profile] fregimus.livejournal.com 2012-12-14 06:02 am (UTC)(link)
это понятно, continuous speaker-independent open grammar dictation. Тут нужны две модели: первая — марковская модель высказывания, какие слова с какой вероятностью ходят друг за другом. Вторая — фонетическая, которая отображает цепочку услышанных звуковых единиц (бывают разные подходы, в них разные единицы) на словарное слово. С несловарными все гораздо хуже. Если робот Вася знает слово бурбулин, то он его распознает, а вот если его в словаре нет — тогда не знаю даже, как.

[identity profile] anhinga-anhinga.livejournal.com 2012-12-14 02:02 pm (UTC)(link)
Я помню, что ELI может сформировать и распознавать новое слово, и называть им предмет. Например, если человек произносит "ашферин" вместо "аспирин", и покажет на соответствующую баночку, то он запомнит, что это соответствует баночке, на которой написано "Aspirin", и будет нормально с ним работать, но это помешает ему соотнести его с записью в базе данных, что данный человек имеет повышенную чувствительность к аспирину (ELI не догадывается использовать надпись на баночке для поиска).

[identity profile] bvn-mai.livejournal.com 2012-12-14 06:44 pm (UTC)(link)
"...Если робот Вася знает слово бурбулин, то он его распознает, а вот если его в словаре нет — тогда не знаю даже, как..." - а может, используя используя фонетическую модель, синхронизироваться с устойчивыми фонетические единицами в знакомых словах и затем синтезировать из них незнакомое слово "бурбулин" ?

Фрегимус, что нового слышно в МИТ по поводу http://www.cs.unb.ca/~goldfarb/ETSbook/ETS6.pdf?

[identity profile] fregimus.livejournal.com 2012-12-16 04:47 am (UTC)(link)
Как-то, наверное, можно, но пока не выходило.

Про статью я иногда вспоминаю, но так, чтобы сесть и прочитать, у меня пока не выходт. Нахрапом взять ее не получилось.

[identity profile] x-ghbdtn.livejournal.com 2013-08-24 04:43 pm (UTC)(link)
Разобрались со статьей?
Я как раз только что её прочел, см. (http://x-ghbdtn.livejournal.com/5719.html)

[identity profile] bvn-mai.livejournal.com 2013-08-26 07:24 am (UTC)(link)
Нет, я отложил это дело, потому что пока не понял за дебрями новых терминов, как ETS поможет мне распознать устойчивые фонетические элементы, в знакомых словах, для того чтобы после этого я умел с помощью программы распознать их во входном потоке и сложить из них неизвестное мне слово "бурбулин".

А Вы видите, как прикладывать ETS к практическим задачам?

Мне не хватает моего английского, возможно за этим что-то есть, а я не могу понять, хотя некоторые примеры авторов ETS из физики, как бы намекают, что данный труд можно и не читать.

[identity profile] x-ghbdtn.livejournal.com 2013-08-26 11:22 am (UTC)(link)
В статье по ссылке вводится только понятийный аппарат, который авторы используют в своих работах, плюс в заключительном разделе "Preliminary general thoughts on learning" - "общие мысли" про применения. Метода, как это все использовать, здесь нет, возможно нужно читать другие статьи, которых у автора на сайте достаточное количество. Есть, в частности, "Articulatory Speech Structures" и "Future of Machine Learning". Как прочитаю, напишу о результатах, возможно через неделю.

Предупреждаю, в "бурбулине" я не специалист, меня их математические методы заинтересовали.

[identity profile] bvn-mai.livejournal.com 2013-08-26 11:46 am (UTC)(link)
Я пытался разобраться со всем, что есть на сайте у Гольдфорба - увы разбивается о мой английский, хотя его достаточно, чтобы без проблем читать учебник Спивака по ссылке в Вашем ЖЖ.
В моей интерпретации (возможно неверной) - это все очень похоже на фричество.
Ну а что касается в мат.аппарате - я инженер и меня он интересует лишь, как средство решения прикладных задач в "когнитивистике". "Бурбулин" - это лишь одна из немногих задач, которые надо научиться решать для систем, "размерность" которых с одной стороны не достаточна, чтобы работала статистика, а с другой стороны слишком велика, чтобы их можно было анализировать "традиционной механикой".

[identity profile] x-ghbdtn.livejournal.com 2013-08-26 01:26 pm (UTC)(link)
Ну, фричество - не фричество, но эта статья теоретическая. Матаппарат у них крайне общий, и между ним и когнитивистикой действительно заметный разрыв. Здесь, как от анаграммы Ньютона "полезно решать дифференциальные уравнения" до конкретной механики, - целая пропасть. Но предлагают ли авторы метод, этот разрыв преодолевающий, можно судить, только прочитав их прикладные работы (и есть ли работающие реализации этих методов).

Те моменты теорката, которые затрагиваются у Гольдфарба, можно посмотреть в недавнем обзоре http://arxiv.org/abs/1307.4038 "An alternative Gospel of structure: order, composition, processes", это вступление к "Quantum Physics and Linguistics: A Compositional, Diagrammatic Discourse". Только сам Гольдфарб про теоркат не говорит, а изображает самостоятельное изобретение велосипеда.

[identity profile] bvn-mai.livejournal.com 2013-08-26 01:46 pm (UTC)(link)
Я очень рассчитываю, что Вы напишите свое мнение об "..."Articulatory Speech Structures" и "Future of Machine Learning". ..", как обещали :). Спасибо за ссылку, но всего лишь инженер, который знает математику чуть лучше обычного инженера из IT-сферы, у меня чисто утилитарный взгляд на математику.

[identity profile] x-ghbdtn.livejournal.com 2013-08-29 03:44 pm (UTC)(link)
Я пока успел посмотреть только "Future of Machine Learning", там одна критика текущего положения дел и никаких предложений для Future. Будем смотреть дальше.

[identity profile] x-ghbdtn.livejournal.com 2013-08-30 04:27 pm (UTC)(link)
В "Articulatory Speech Structures" метод никак не расрывается, просто говорится, что при тестовой классификации на данных MOCHA
articulatory corpus (я не знаю, как выглядят артикуляторные корпусы - это необработанный звук?) на 14 классов (типов фонем? почему 14?) у них получилось 77% совпадений. Что там за алгоритм, как в нем используются авторские ETS - ни слова.

Будем смотреть дальше, в поисках чего-нибудь содержательного.

[identity profile] x-ghbdtn.livejournal.com 2013-08-30 05:10 pm (UTC)(link)
Предыдущее было про https://www.era.lib.ed.ac.uk/handle/1842/928 "Structural representation and matching of articulatory speech structures based on the evolving transformation system (ETS) formalism". Они работают поверх препроцессора, описанного в https://www.era.lib.ed.ac.uk/handle/1842/942 "Detection of Symbolic Gestural Events in Articulatory Data for Use in Structural Representations of Continuous Speech" - он, собственно и обрабатывает речь в дискретное представление.

Алгоритм там описан словами, без особой математики и оригинальной терминологии, он отношения к ETS не имеет. Исходные данные это не звук, если я правильно понял, а Electromagnetic Articulograph (EMA), Laryngograph and Electropalatograph (EPG) measurements. Им сделали кластеризацию, причем индивидуально по человеку (clustering, making use of an efficient variant of k-means described in [9], is applied to the entire data available for the particular speaker), а дальше фиксировали, в какой кластер попадают данные этих артикулографов, ларингографов и электропалатографов. Какие 14 фонем выбраны - там есть табличка. По кластеризации ссылка на “An Efficient k-Means Clustering Algorithm: Analysis and Implementation,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, а их ETS не причем.

[identity profile] bvn-mai.livejournal.com 2013-08-29 11:15 am (UTC)(link)
А статья по Вашей ссылке действительно интересная.

[identity profile] x-ghbdtn.livejournal.com 2013-08-29 03:47 pm (UTC)(link)
Другая статья из того же сборника - "Types and forgetfulness in categorical linguistics and quantum mechanics" http://arxiv.org/abs/1303.3170 продолжает подход, уже удостоенный внимания в этом гостеприимном журнале ( http://anhinga-anhinga.livejournal.com/77367.html ).

[identity profile] anhinga-anhinga.livejournal.com 2013-08-29 04:34 pm (UTC)(link)
> Types and forgetfulness in categorical linguistics and quantum mechanics

Спасибо, очень интересная ссылка.