Хельсинкский аннотированный корпус русского языка

Хельсинкский аннотированный корпус русского языка
Хельсинкский аннотированный корпус русского языка
URL	ling.helsinki.fi/project…
Коммерческий	нет
Тип сайта	образовательный/научный проект
Язык (-и)	русский
Начало работы	2001
Текущий статус	Работает

Хельсинкский аннотированный корпус русских текстов (ХАНКО) — корпус русских онлайновых текстов. Создание корпуса осуществлялось в 2001—2012 годах, он задуман как составная часть проекта «Функциональный синтаксис русского языка». Интерфейс корпуса позволяет комбинировать поиск по сочетанию букв, морфологическим и синтаксическим параметрам.

Составители

Проект по созданию Хельсинкского аннотированного корпуса русских текстов (ХАНКО) осуществлялся с 2001 по 2012 гг. на Отделении славянских и балтийских языков и литератур Хельсинкского университета под руководством профессора Арто Мустайоки.

Координатор проекта — старший научный сотрудник, PhD Михаил Вячеславович Копотев.

Техническое проектирование — к. т. н. Алексей Леонтьев.

В программе по созданию ХАНКО участвовали специалисты следующих организаций:

Хельсинкский университет
Петрозаводский государственный университет

Состав корпуса

Типы разметки в ХАНКО

Морфологическая разметка. Полная морфологическая характеристика каждой текстоформы с возможностью указать спорные случаи, имеющие неоднозначную трактовку.
Синтаксическая разметка. Выделены два типа единиц: простое предложение (клауза) и сложное предложение. Синтаксическая разметка выполнена в рамках синтаксической теории членов предложения.
Метаразметка. ХАНКО, будучи довольно однородным по внешним текстовым параметрам корпусом, содержит минимальную метаинформацию: номер журнала, автор текста, тип текста.

Объём корпуса

Корпус объёмом около 100 тыс. словоупотреблений, извлеченных из журнала «Итоги». Журнал представляет широкий спектр современных публицистических жанров, тематическое разнообразие статей, высокий уровень владения стилистическими ресурсами русского языка его авторов.

Доступ

В настоящее время свободным и бесплатным является поиск по сайту. Для поиска доступны результаты морфологического и синтаксического аннотирования. Корпус доступен для коммерческого использования в формате MTE. Поддержка и финансирование сайта корпуса ведётся Хельсинкским университетом.

См. также

Литература

Копотев, М. В., А. Мустайоки Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная лингвистика в России, 2003, c. 33-37.
Мустайоки А., Копотев М. В., Гурин Г. Б., Саломатина М. С. Принципы синтаксической разметки Хельсинкского аннотированного корпуса русских текстов ХАНКО // Труды международной конференции «MegaLing`2005. Прикладная лингвистика в поиске новых путей» — СПб., 2005
Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) // Национальный корпус русского языка: 2003−2005. М.: Индрик, 2005, 31−61.

Ссылки

Официальный сайт

Корпусная лингвистика
Англоязычные корпусы	Национальный корпус американского английского Bank of English Bergen Corpus of London Teenage Language Британский национальный корпус Brown Corpus Buckeye Corpus Cambridge English Corpus Корпус современного американского английского языка Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Spoken English Corpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Русскоязычные корпусы	Генеральный интернет-корпус русского языка Национальный корпус русского языка Открытый корпус русского языка СинТагРус Тюбингенский корпус русского языка Уппсальский корпус русских текстов Хельсинкский аннотированный корпус русского языка
Корпусы на других языках	Bijankhan Corpus CHILDES Корпус хорватского языка Национальный корпус хорватского Europarl Corpus Мангеймский корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Neo-Assyrian Text Corpus Project Коранический корпус Национальный корпус шотландского языка Slovenian National Corpus TalkBank Татоэба Tehran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD