Генеральный интернет-корпус русского языка

Перейти к навигацииПерейти к поиску
Генеральный интернет-корпус русского языка
URLwebcorpora.ru
Коммерческий нет
Тип сайтаобразовательный/научный проект
Регистрацияесть: необходима для получения доступа к поиску
Язык (-и)русский
Расположение сервераРоссия
Начало работы2012 год
Текущий статус работает и развивается

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Цели проекта

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную[1] возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.

Корпус дает возможность производить:

В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.

Научные руководители проекта:

В создании и поддержке проекта участвовали:

Объём и состав корпуса

Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги@Mail.ru и Новости, и 2 % — на Журнальный зал[4]. В сегменте Новостей собраны материалы из источников: РИА Новости, Regnum, Lenta.ru, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы[4]. Большую часть текстов создают записи за 20132014 годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты начиная с 1994 года[5].

ПодкорпусСлов, млнТекстов
Блоги@Mail.ru7079 882 120
ВКонтакте9820193 770 717
Живой Журнал811073 229 158
Журнальный зал31356 547
Новостной подкорпус (РИА Новости, Regnum, Lenta.ru, Росбалт)8512 964 897
Весь корпус19 801279 903 439

ГИКРЯ является одним из немногих мегакорпусов, достигающих объемом нескольких миллиардов слов.

КорпусЯзыкиДоступСайтОбъемВозможности
COW: Free, Large Web Corpora in European LanguagesАнглийский, французский, немецкий, испанский, шведский, нидерландскийбесплатно, после регистрации, возможен ознакомительный доступ без регистрацииhttps://web.archive.org/web/20160221212019/https://webcorpora.org/порядка 30 млрд словформат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Sketch Engineанглийский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский; больше языков доступны платноплатно, после регистрации, возможен ознакомительный доступhttps://www.sketchengine.co.uk/86 млрд словконкордансы, скетч-грамматика, тезаурусы, KWIC, морфоразметка, поиск по CQP
Aranea Corporaанглийский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, голландский, польский, словацкийбесплатно, после регистрации, возможен ознакомительный доступ без регистрацииhttp://sketch.juls.savba.sk/aranea_about/ около 14 млрд словnoSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языкарусскийбесплатно, регистрация по запросуhttp://www.webcorpora.ru/20 млрд словформат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE)английский, спецификация 20 стран мирабез регистрацииhttp://corpus.byu.edu/glowbe/1,9 млрд словKWIC, конкордансы, коллокаты, сравнение результатов по диалектам, CQP, можно скачать весь корпус целиком

Доступ

В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также

Примечания

  1. ВЛАДИМИР БЕЛИКОВ. Дата обращения: 26 декабря 2019. Архивировано 16 ноября 2019 года.
  2. Automatic Classification of Web Texts Using Functional Text Dimensions. Дата обращения: 8 июня 2016. Архивировано 26 июня 2016 года.
  3. Коллектив | ГИКРЯ. Дата обращения: 26 декабря 2019. Архивировано 5 января 2020 года.
  4. 1 2 Корпус | ГИКРЯ. Дата обращения: 26 декабря 2019. Архивировано 3 декабря 2019 года.
  5. #geekrya #geekrya_stats За какие.. | ГИКРЯ Генеральный интернет-корпус русского языка | VK

Литература

Ссылки