Авторский инвариант

Перейти к навигацииПерейти к поиску

Авторский инвариант (англ. writer invariant, authorial invariant, author's invariant) — это количественная характеристика литературных текстов или некий параметр, который однозначно характеризует своим поведением произведения одного автора или небольшого числа «близких авторов», и принимает существенно разные значения для произведений разных групп авторов.[] Авторский инвариант применяется в задаче идентификации авторства текста.[⇨]

Задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.

Описание

Основные свойства, которыми должна обладать числовая характеристика авторского инварианта:

  1. Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться автором на сознательном уровне. Другими словами, она должна быть его «бессознательным параметром», коренящимся настолько глубоко, что автор даже не задумывается о нем. А если бы даже задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и типичное для него состояние.
  2. Искомый параметр должен сохранять «постоянное значение» для произведений данного автора. То есть, иметь небольшое отклонение от среднего значения (слабо колебаться) на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является инвариантом.
  3. Параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.[]

Такими количественными характеристиками могут быть:

  1. Длина предложений, то есть среднее число слов в предложении.
  2. Длина слов, то есть среднее количество слогов в слове.
  3. Общая частота употребления служебных слов - предлогов, союзов, частиц, то есть процентное содержание служебных слов.
  4. Частота употребления существительных, то есть их процентное содержание.
  5. Частота употребления глаголов, то есть их процентное содержание.
  6. Частота употребления прилагательных (в процентах).
  7. Частота употребления предлога «в» (в процентах).
  8. Частота употребления частицы «не» (в процентах).
  9. Количество служебных слов в предложении, то есть среднее число союзов, предлогов и частиц в предложении.[]

Идентификация авторства текста

Задача идентификации авторства текста

Формулировка задачи идентификации автора текста при ограниченном наборе альтернатив выглядит следующим образом:[1]

— множество текстов,

— множество авторов.

Для некоторого подмножества текстов авторы известны , т.е. существует множество пар «текст–автор» . Необходимо установить, кто из множества является истинным автором остальных текстов (анонимных или спорных)

Методика идентификации автора неизвестного текста

Методика включает последовательность следующих действий:[1]

  1. Выбор модели представления текстов в виде наборов признаков.
  2. Выбор группы признаков для проверки и формирования из неё авторского инварианта.
  3. Выбор классификаторов и их параметров.
  4. Формирование модели авторского стиля, позволяющей разделять двух и более авторов на основе полученного авторского инварианта и обученного классификатора.
  5. Непосредственно определение авторства неизвестного текста.
  6. Принятие итогового решения об авторе текста ансамблем классификаторов в случае, если удалось найти несколько информативных групп признаков текста.

Программное обеспечение для идентификации авторства текста

Программное обеспечение, используемое для идентификации авторства текста, по основным задачам можно разделить на несколько типов:[2]

Название программы (Application name)Автор (Developer)Сайт (Website)Описание (Description)
Программы для определения авторства текста
ШтампомерДелицын Л. Л.ШтампомерПрограмма статистического анализа текста и определения авторства.
Лингвоанализатор[3]Хмелев Д. В.ЛингвоанализаторПрограмма математического анализа структуры текста. Работает онлайн. Специализируется на произведениях Русской Фантастики. Программа определяет близость входного текста к одному из авторов и в результате выдает трех наиболее вероятных авторов, для каждого указывая три наиболее близких произведения.
СМАЛТПетрГУСМАЛТПрограмма морфологического и синтаксического анализа текста. Специализируется на публицистике 60-70 гг 19 века. Программа обладает инструментарием для выявления статистических признаков литературных текстов по жанру и авторству.
СтилеанализаторШевелев О. Г.Программа анализа авторского стиля с точки зрения устойчивости, частоты и уникальности признаков автора.
Авторовед Романов А.С. Программа для идентификации автора текста. Включает использование нейросетевого подхода и метода опорных векторов для принятия решений об авторстве, N-граммных и сглаженных N-граммных моделей, признаков текста, позволяющих разделять авторские стили. Особенностью предложенного подхода является принятие итогового решения об авторе текста несколькими классификаторами (ансамблем классификаторов) по принципу мажоритарного голосования. Впервые для целей идентификации автора русскоязычного текста применяются метод опорных векторов и нейронные сети каскадных корреляций, используются методы сглаживания вероятностей. Для достижения точности 0,95-0,98 необходимы текстовые образцы объемом 20000 символов
Программы выявления плагиата
АнтиплагиатЗАО «Анти-Плагиат», «Форексис»АнтиплагиатПрограмма определения плагиата. Определяет степень схожести входного текста с текстами, размешенными в Интернете.
Плагиат Информ«СофтИнформ»Плагиат ИнформПрограмма сравнивает входной документ с документами в 2 базах данных: базе из печатных источников и базе Интернет-статей.
АУРА-ТекстСПбГУАУРА-Текст (недоступная ссылка)Программа является инструментом проверки текстов курсовых, дипломных работ и диссертаций на наличие совпадений с внешними источниками. Специализируется на работах экономической тематики.
Программы интеллектуального анализа данных
Intelligent Miner for TextIBMIntelligent Miner for TextСистема состоит из нескольких программ с такими функциями как определение языка текста, классификация текстов, разделение документов на группы по близости стиля, выявление в документе ключевых слов, выявление смысла текста и составление аннотации.
TextAnalyst, PolyAnalystМегапьютер ИнтеллидженсTextAnalyst, PolyAnalystPolyAnalyst-система автоматического анализа текста. В состав PolyAnalyst входит система TextAnalyst, занимающаяся задачами Text Mining: создание семантической сети текста, аннотация текста, кластеризация и классификация документов.
Text MinerSASText Miner  (недоступная ссылка с 13-05-2013 [4148 дней] — история)Программа логической обработки текста. Программа интегрирует текстовую информация со структурированными данными.
SemioMapSemio CorporationСистема состоит из 2 основных компонент - сервера SemioMap и клиента SemioMap. Работа системы включает 3 фазы: сервер индексирует неструктурированный текст и извлекает ключевые фразы, сервер выявляет связи между фразами и строит на основе совместной встречаемости этих фраз лексическую сеть, сервер представляет эту сеть в виде графиков.
Oracle Text, Oracle Data MiningOracleOracle Text, Oracle Data MiningOracle Text - программа статистического и лингвистического анализа текста. Для каждого текста программой определяются ключевые темы, строится тематическое резюме и общее резюме-реферат.
Knowledge ServerAutonomyKnowledge ServerПрограмма статистического анализа текста. В программе применяются интеллектуальные алгоритмы, основанные на статистической обработке.
Программы, составляющие психологический портрет автора текста
ЛИНГВА-ЭКСПРЕССБатов В. И.Программа выявления особенностей речевого поведения и характера автора.
ProstyleСШАПрограмма стилистического анализа текста, определяющая факторы расхождения между двумя документами.
ВААЛБелянина В. П.ВААЛПрограмма фоносемантического анализа текста.

Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов.[4] Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.[5]

См. также

Примечания

Литература

на русском языке
на других языках