Вероятностный латентно-семантический анализ

Перейти к навигацииПерейти к поиску

Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностное латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод является дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях. Данный метод был впервые опубликован в 1999 году Томасом Хофманом (Thomas Hofmann)[1].

По сравнению с обычным латентно-семантическим анализом, который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь берущим своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики.

Варианты pLSA

  • Иерархические расширения:
    • Асимметричное: MASHA («Multinomial ASymmetric Hierarchical Analysis», «полиномиальный асимметричный иерархический анализ»)[2]
    • Симметричное: HPLSA («Hierarchical Probabilistic Latent Semantic Analysis», «Иерархический вероятностный латентно-семантический анализ»),[3]
  • Генеративные модели: разработаны для решения часто критикуемых недостатков pLSA, а именно — того, что он является неправильной порождающей моделью для новых документов.
  • Данные высшего порядка: Хотя это редко обсуждается в научной литературе, pLSA, естественно, примени́м и для данных более высокого порядка (трёхуровневых и выше), то есть он может моделировать совместное поведение трёх и более переменных. В симметричной формулировке, данной выше, это делается простым добавлением условного распределения вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

Примечания

  1. Thomas Hofmann, Probabilistic Latent Semantic Indexing Архивировано 14 декабря 2010 года., Proceedings of the Twenty-Second Annual International SIGIR[англ.] Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
  2. Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents Архивная копия от 13 марта 2006 на Wayback Machine, in «Advances in Information Retrieval — Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)», 2002

См. также