Оценка информативности признаков на основе характеристики тематической значимости при классификации потока новостных сообщений

  • Илья Соченков Сколтех, ФИЦ ИУ РАН
  • София-Николь Александровна Жарикова
Ключевые слова: тематический анализ текстов, машинное обучение, характеристика тематической значимости, «20 новостных групп»

Аннотация

Статья посвящена оценке качества нескольких методов тематической классификации новостных сообщений. Авторами реализовано несколько известных алгоритмов тематической рубрикации с использованием в качестве признаков различных численных оценок информационной значимости. В работе рассмотрены классический и предложенный авторами метод определения весов признаков на примере набора данных «20 новостных групп». В статье представлены полученные результаты экспериментальной апробации системы тематической классификации новостных сообщений, задача которой классифицировать данные на заданные тематические группы. Анализ показывает, что применение предложенного метода позволяет существенно повысить качество классификации даже с применением базовых методов (мультиномиального наивного байесовского классификатора) до уровня лучших методов в этой области (метод опорных векторов) на эталонном наборе данных.

Опубликован
2019-10-04
Раздел
Обработка естественного языка