anhinga_anhinga | A robot with impressive language capabilities

Entry tags:

A robot with impressive language capabilities

This is a prototype of an elderly home care robot developed by a very small group at IBM (with the benign indifference from their employer corporation that does not want to deal with robots and headaches and liabilities associated with robots). Its ability to verbally communicate with a human and to learn from a human is very impressive (basically, one can program this robot to a large extent simply by talking to it). Here is a demo video from the talk at the AGI-12 conference:

http://www.youtube.com/watch?v=M2RXDI3QYNU

The paper itself, "An Extensible Language Interface for Robot Manipulation", explaining to some extent how this works can be found here:

http://www.mindmakers.org/boards/18/topics/73

and the free online version of AGI-12 proceedings is here (scroll down to AGI-12 Contributed Paper Sessions):

http://www.mindmakers.org/projects/agiconf-2012/wiki/Schedule

Flat | Top-Level Comments Only

Спасибо

Неплохо, хотя подозреваю, что словарь и ситуации довольно ограничены.
Но тем не менее разные полезные роботы скоро будут широко доступны, похоже. Технология уже близка к этому.

Словарь не фиксирован, насколько я понял... Там есть встроенный контекстный распознаватель частей речи, и он способен добавлять новые слова ("aspirin", "poke", etc).

Да, я прочитал об этом, но думаю возможности добавления невелики. Все равно очень неплохо.

Замечательно. Там несколько вещей, мне непонятно как сделанных (например, новые слова: «робот вася, это бурбулин» — «понял, это бурбулин!» — без фонетической модели слова распознать и повторить у меня никогда не получалось, и я считал эту проблему нерешенной). Постараюсь разобраться.

Кажется, фонетику сделали (наш домашний voice mail service распознаёт примерно половину сообщений, наговоренных кем попало [но хорошо говорящим по-английски] на телефон, и посылает транскрибированный текст по элекронной почте с довольно небольшим количеством ошибок [если он чувствует, что не может разобраться, то посылает только звуковой файл]).

Это ещё далеко до идеала, но уже очень неплохо (у нас телефонный сёрвис через Интернет, который даёт компания Vonage, я думаю, что это уже много кто умеет, вряд ли Vonage уникален в этом смысле)...

это понятно, continuous speaker-independent open grammar dictation. Тут нужны две модели: первая — марковская модель высказывания, какие слова с какой вероятностью ходят друг за другом. Вторая — фонетическая, которая отображает цепочку услышанных звуковых единиц (бывают разные подходы, в них разные единицы) на словарное слово. С несловарными все гораздо хуже. Если робот Вася знает слово бурбулин, то он его распознает, а вот если его в словаре нет — тогда не знаю даже, как.

Я помню, что ELI может сформировать и распознавать новое слово, и называть им предмет. Например, если человек произносит "ашферин" вместо "аспирин", и покажет на соответствующую баночку, то он запомнит, что это соответствует баночке, на которой написано "Aspirin", и будет нормально с ним работать, но это помешает ему соотнести его с записью в базе данных, что данный человек имеет повышенную чувствительность к аспирину (ELI не догадывается использовать надпись на баночке для поиска).

"...Если робот Вася знает слово бурбулин, то он его распознает, а вот если его в словаре нет — тогда не знаю даже, как..." - а может, используя используя фонетическую модель, синхронизироваться с устойчивыми фонетические единицами в знакомых словах и затем синтезировать из них незнакомое слово "бурбулин" ?

Фрегимус, что нового слышно в МИТ по поводу http://www.cs.unb.ca/~goldfarb/ETSbook/ETS6.pdf?

Как-то, наверное, можно, но пока не выходило.

Про статью я иногда вспоминаю, но так, чтобы сесть и прочитать, у меня пока не выходт. Нахрапом взять ее не получилось.

Разобрались со статьей?
Я как раз только что её прочел, см. (http://x-ghbdtn.livejournal.com/5719.html)

Нет, я отложил это дело, потому что пока не понял за дебрями новых терминов, как ETS поможет мне распознать устойчивые фонетические элементы, в знакомых словах, для того чтобы после этого я умел с помощью программы распознать их во входном потоке и сложить из них неизвестное мне слово "бурбулин".

А Вы видите, как прикладывать ETS к практическим задачам?

Мне не хватает моего английского, возможно за этим что-то есть, а я не могу понять, хотя некоторые примеры авторов ETS из физики, как бы намекают, что данный труд можно и не читать.

В статье по ссылке вводится только понятийный аппарат, который авторы используют в своих работах, плюс в заключительном разделе "Preliminary general thoughts on learning" - "общие мысли" про применения. Метода, как это все использовать, здесь нет, возможно нужно читать другие статьи, которых у автора на сайте достаточное количество. Есть, в частности, "Articulatory Speech Structures" и "Future of Machine Learning". Как прочитаю, напишу о результатах, возможно через неделю.

Предупреждаю, в "бурбулине" я не специалист, меня их математические методы заинтересовали.

Я пытался разобраться со всем, что есть на сайте у Гольдфорба - увы разбивается о мой английский, хотя его достаточно, чтобы без проблем читать учебник Спивака по ссылке в Вашем ЖЖ.
В моей интерпретации (возможно неверной) - это все очень похоже на фричество.
Ну а что касается в мат.аппарате - я инженер и меня он интересует лишь, как средство решения прикладных задач в "когнитивистике". "Бурбулин" - это лишь одна из немногих задач, которые надо научиться решать для систем, "размерность" которых с одной стороны не достаточна, чтобы работала статистика, а с другой стороны слишком велика, чтобы их можно было анализировать "традиционной механикой".

Ну, фричество - не фричество, но эта статья теоретическая. Матаппарат у них крайне общий, и между ним и когнитивистикой действительно заметный разрыв. Здесь, как от анаграммы Ньютона "полезно решать дифференциальные уравнения" до конкретной механики, - целая пропасть. Но предлагают ли авторы метод, этот разрыв преодолевающий, можно судить, только прочитав их прикладные работы (и есть ли работающие реализации этих методов).

Те моменты теорката, которые затрагиваются у Гольдфарба, можно посмотреть в недавнем обзоре http://arxiv.org/abs/1307.4038 "An alternative Gospel of structure: order, composition, processes", это вступление к "Quantum Physics and Linguistics: A Compositional, Diagrammatic Discourse". Только сам Гольдфарб про теоркат не говорит, а изображает самостоятельное изобретение велосипеда.

Я очень рассчитываю, что Вы напишите свое мнение об "..."Articulatory Speech Structures" и "Future of Machine Learning". ..", как обещали :). Спасибо за ссылку, но всего лишь инженер, который знает математику чуть лучше обычного инженера из IT-сферы, у меня чисто утилитарный взгляд на математику.

Я пока успел посмотреть только "Future of Machine Learning", там одна критика текущего положения дел и никаких предложений для Future. Будем смотреть дальше.

В "Articulatory Speech Structures" метод никак не расрывается, просто говорится, что при тестовой классификации на данных MOCHA
articulatory corpus (я не знаю, как выглядят артикуляторные корпусы - это необработанный звук?) на 14 классов (типов фонем? почему 14?) у них получилось 77% совпадений. Что там за алгоритм, как в нем используются авторские ETS - ни слова.

Будем смотреть дальше, в поисках чего-нибудь содержательного.

Предыдущее было про https://www.era.lib.ed.ac.uk/handle/1842/928 "Structural representation and matching of articulatory speech structures based on the evolving transformation system (ETS) formalism". Они работают поверх препроцессора, описанного в https://www.era.lib.ed.ac.uk/handle/1842/942 "Detection of Symbolic Gestural Events in Articulatory Data for Use in Structural Representations of Continuous Speech" - он, собственно и обрабатывает речь в дискретное представление.

Алгоритм там описан словами, без особой математики и оригинальной терминологии, он отношения к ETS не имеет. Исходные данные это не звук, если я правильно понял, а Electromagnetic Articulograph (EMA), Laryngograph and Electropalatograph (EPG) measurements. Им сделали кластеризацию, причем индивидуально по человеку (clustering, making use of an efficient variant of k-means described in [9], is applied to the entire data available for the particular speaker), а дальше фиксировали, в какой кластер попадают данные этих артикулографов, ларингографов и электропалатографов. Какие 14 фонем выбраны - там есть табличка. По кластеризации ссылка на “An Efficient k-Means Clustering Algorithm: Analysis and Implementation,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, а их ETS не причем.

А статья по Вашей ссылке действительно интересная.

Другая статья из того же сборника - "Types and forgetfulness in categorical linguistics and quantum mechanics" http://arxiv.org/abs/1303.3170 продолжает подход, уже удостоенный внимания в этом гостеприимном журнале ( http://anhinga-anhinga.livejournal.com/77367.html ).

> Types and forgetfulness in categorical linguistics and quantum mechanics

Спасибо, очень интересная ссылка.

Flat | Top-Level Comments Only

A robot with impressive language capabilities

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject