http://algebraic-brain.livejournal.com/ ([identity profile] algebraic-brain.livejournal.com) wrote in [personal profile] anhinga_anhinga 2010-10-12 08:28 am (UTC)

Я хочу посмотреть на это чисто практически, как бы я применял это для анализа текста. Исходим из того, что у нас есть большой корпус текстов, по которому можно провести обучение. Можно взять за основу PLSA (http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis), который ставит в соответствие каждому слову некоторое распределение его по смыслам (которые являются скрытыми переменными, естественно выделяемыми по анализу большого корпуса текста). Такие распределения и были бы R-элементами в нашей моноидальной категории (например John и Mary).

Чем здесь ограничена применимость PLSA? Тем, что нам просто распределения по смыслам недостаточно, нам нужны еще некоторые матрицы, преобразующие распределения в распределения, и эти матрицы нужно обучить по корпусу. Наверное, тут для обучения нужен будет синтаксический анализатор, который будет обнаруживать все конструкции вида

___ likes ___

и выдавать параметризованные (по левому и правому слову) частоты. Дальше я сильно не продумывал, но мне кажется математика будет похожая на PLSA, разве что чуть более сложная.

Post a comment in response:

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting