no subject

Я хочу посмотреть на это чисто практически, как бы я применял это для анализа текста. Исходим из того, что у нас есть большой корпус текстов, по которому можно провести обучение. Можно взять за основу PLSA (http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis), который ставит в соответствие каждому слову некоторое распределение его по смыслам (которые являются скрытыми переменными, естественно выделяемыми по анализу большого корпуса текста). Такие распределения и были бы R-элементами в нашей моноидальной категории (например John и Mary).

Чем здесь ограничена применимость PLSA? Тем, что нам просто распределения по смыслам недостаточно, нам нужны еще некоторые матрицы, преобразующие распределения в распределения, и эти матрицы нужно обучить по корпусу. Наверное, тут для обучения нужен будет синтаксический анализатор, который будет обнаруживать все конструкции вида

___ likes ___

и выдавать параметризованные (по левому и правому слову) частоты. Дальше я сильно не продумывал, но мне кажется математика будет похожая на PLSA, разве что чуть более сложная.

(22 comments)

no subject

Post a comment in response: