Одноклассовая классификация текстовых документов с использованием вероятностного тематического моделирования

  • Сергей Николаевич Карпович Акционерное Общество «Олимп»
  • Александр Викторович Смирнов СПИИРАН
  • Николай Николаевич Тесля СПИИРАН http://orcid.org/0000-0003-0619-8620
Ключевые слова: Одноклассовая классификация, бинарная классификация, тематическое моделирование, обработка текста на естественном языке

Аннотация

В работе предложен подход к одноклассовой классификации текстовых документов на основе вероятностного тематического моделирования. Рассмотрены модели, решающие задачи одноклассовой классификации в применении к текстовым документам, обозначены ключевые особенности классификации текстовых документов. Представлена модель классификации One-Class-TM и разработан программный прототип, реализующий одноклассовую классификацию текстовых документов с использованием данной модели. Тестирование модели проведено на базе корпуса текстов SCTM-ru. Дополнительно в работе рассмотрена задача одноклассовой классификации потока текстовых документов. Выполнено сравнение модели One-Class-TM с существующими моделями классификации текстовых документов, экспериментально доказано ее превосходство по критерию точности классификации при малом объеме обучающей выборки.

Биографии авторов

Сергей Николаевич Карпович, Акционерное Общество «Олимп»

Акционерное Общество «Олимп», г. Москва. Руководитель группы развития поиска, кандидат технических наук. Окончил Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина)» в 2006 году. Количество печатных работ: 12. Область научных интересов: тематическое моделирование, обработка текстов на естественном языке, кластеризация, классификация, обработка данных, машинное обучение.

Александр Викторович Смирнов, СПИИРАН

Руководитель лаборатории интегрированных систем автоматизации, главный научный сотрудник, доктор технических наук, профессор, заслуженный деятель науки РФ. Окончил Ленинградский государственный политехнический университет в 1979 году. Количество печатных работ более 350. Область научных интересов: управление знаниями, веб-сервисы, системы интеллектуальной поддержки принятия решений, социо-киберфизические системы.

Николай Николаевич Тесля, СПИИРАН

Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН), Санкт-Петербург. Старший научный сотрудник, кандидат технических наук. Окончил Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина)» (СПбГЭТУ) в 2013 году. Количество печатных работ: более 40. Область научных интересов – управление знаниями, человеко-машинное взаимодействие, онтологии, интеллектуальные пространства, инфомобильность, технологии распределенных реестров.

Опубликован
2018-11-01
Выпуск
Раздел
Обработка естественного языка