Векторное представление слов

Векторное представление (векторное вложение слов, вложение слов или эмбеддинги^[1]) — общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам (и, возможно, фразам) из некоторого словаря векторов из $\mathbb {R} ^{n}$ для $n$ , значительно меньшего количества слов в словаре. Теоретической базой для векторных представлений является дистрибутивная семантика.

Существует несколько методов для построения такого сопоставления. Так, используют нейронные сети^[2] , методы снижения размерности в применении к матрицам совместных упоминаний слов (word co-occurrence matrices)^[3] и явные представления, обучающиеся на контекстах упоминаний слов (explicit representations)^[4].

Продемонстрировано^[], что векторные представления слов и фраз способны значительно улучшить качество работы некоторых методов автоматической обработки естественного языка (например, синтаксический анализ^[5] и анализ тональности^[6]).

Примеры эмбеддингов

В настоящее время существует большое количество моделей векторного представления слов и алгоритмов, для их эффективного обучения. К наиболее известным относятся:

Word2vec — разработанный в 2013 году в компании Google набор инструментов для эффективного обучения моделей эмбеддингов^[7]^[8]
GloVe^[англ.] — модель и алгоритм обучения без учителя для получения векторных представлений слов, разработанный в 2014 году в Стэндфордском университете^[9]
FastText^[англ.] — модель, разработанная компанией Facebook в 2015 году^[10]. Её особенностью является использование эмбеддингов не только для целых слов, но и для их частей.^[11]

Примечания

↑ жизнь, Редакция журнала Наука и Что такое эмбеддинги и как они помогают искусственному интеллекту понять мир людей (рус.). www.nkj.ru (17 апреля 2019). Дата обращения: 14 апреля 2024.
↑ Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Distributed Representations of Words and Phrases and their Compositionality". arXiv:1310.4546 [cs.CL].
↑ Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". arXiv:1312.5542 [cs.CL].
↑ Levy, Omer; Goldberg, Yoav. Linguistic Regularities in Sparse and Explicit Word Representations (англ.) // Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Baltimore, Maryland, USA, June. Association for Computational Linguistics. 2014 : journal. Архивировано 14 августа 2014 года.
↑ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew. Parsing with compositional vector grammars (неопр.) // Proceedings of the ACL conference. 2013. Архивировано 11 августа 2016 года.
↑ Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (англ.) // Conference on Empirical Methods in Natural Language Processing : journal. Архивировано 28 декабря 2016 года.
↑ Google Code Archive - Long-term storage for Google Code Project Hosting. (неопр.) code.google.com. Дата обращения: 14 апреля 2024.
↑ Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space (англ.) // arXiv. — 2013.
↑ GloVe: Global Vectors for Word Representation (неопр.). nlp.stanford.edu. Дата обращения: 14 апреля 2024.
↑ facebookresearch/fastText. — 2024-04-14.
↑ Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space (англ.) // arXiv. — 2013.

Ссылки

Векторное представление слов Викиконспекты ИТМО

[1] жизнь, Редакция журнала Наука и Что такое эмбеддинги и как они помогают искусственному интеллекту понять мир людей (рус.). www.nkj.ru (17 апреля 2019). Дата обращения: 14 апреля 2024.

[2] Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Distributed Representations of Words and Phrases and their Compositionality". arXiv:1310.4546 [cs.CL].

[3] Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". arXiv:1312.5542 [cs.CL].

[4] Levy, Omer; Goldberg, Yoav. Linguistic Regularities in Sparse and Explicit Word Representations (англ.) // Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Baltimore, Maryland, USA, June. Association for Computational Linguistics. 2014 : journal. Архивировано 14 августа 2014 года.

[5] Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew. Parsing with compositional vector grammars (неопр.) // Proceedings of the ACL conference. 2013. Архивировано 11 августа 2016 года.

[6] Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (англ.) // Conference on Empirical Methods in Natural Language Processing : journal. Архивировано 28 декабря 2016 года.

[7] Google Code Archive - Long-term storage for Google Code Project Hosting. (неопр.) code.google.com. Дата обращения: 14 апреля 2024.

[8] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space (англ.) // arXiv. — 2013.

[9] GloVe: Global Vectors for Word Representation (неопр.). nlp.stanford.edu. Дата обращения: 14 апреля 2024.

[10] research/fastText. — 2024-04-14.

[11] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space (англ.) // arXiv. — 2013.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Векторное представление слов

Примеры эмбеддингов

Примечания

Ссылки

Похожие исследовательские статьи