Я хочу посмотреть на это чисто практически, как бы я применял это для анализа текста. Исходим из того, что у нас есть большой корпус текстов, по которому можно провести обучение. Можно взять за основу PLSA (http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis), который ставит в соответствие каждому слову некоторое распределение его по смыслам (которые являются скрытыми переменными, естественно выделяемыми по анализу большого корпуса текста). Такие распределения и были бы R-элементами в нашей моноидальной категории (например John и Mary).
Чем здесь ограничена применимость PLSA? Тем, что нам просто распределения по смыслам недостаточно, нам нужны еще некоторые матрицы, преобразующие распределения в распределения, и эти матрицы нужно обучить по корпусу. Наверное, тут для обучения нужен будет синтаксический анализатор, который будет обнаруживать все конструкции вида
___ likes ___
и выдавать параметризованные (по левому и правому слову) частоты. Дальше я сильно не продумывал, но мне кажется математика будет похожая на PLSA, разве что чуть более сложная.
no subject
Чем здесь ограничена применимость PLSA? Тем, что нам просто распределения по смыслам недостаточно, нам нужны еще некоторые матрицы, преобразующие распределения в распределения, и эти матрицы нужно обучить по корпусу. Наверное, тут для обучения нужен будет синтаксический анализатор, который будет обнаруживать все конструкции вида
___ likes ___
и выдавать параметризованные (по левому и правому слову) частоты. Дальше я сильно не продумывал, но мне кажется математика будет похожая на PLSA, разве что чуть более сложная.