ISSN 2071-8594

Российская академия наук

Главный редактор

Г.С. Осипов

С.Н. Карпович, А.В. Смирнов, Н.Н. Тесля "Классификация текстовых документов с использованием вероятностной тематической модели"

Аннотация.

Предложен подход к классификации текстовых документов с использованием вероятностной тематической модели, отличающейся тем, что обучающее множество документов представлено экземплярами одного класса. Этот подход позволяет отбирать положительные экземпляры, похожие на заданный класс, из коллекций и потоков текстовых документов. Рассмотрены модели, обучаемые на экземплярах одного класса, решающие задачи классификации в применении к текстовым документам, обозначены их ключевые особенности. Представлена модель классификации Positive Example Based Learning-TM и разработан программный прототип, реализующий классификацию текстовых документов на ее основе. Не имея представления об отрицательных экземплярах документов, она демонстрирует высокую точность классификации, превышающую альтернативные подходы. Экспериментально доказано превосходство Positive Example Based Learning-TM по критерию точности классификации при малом объеме обучающей выборки.

Ключевые слова:

классификация, бинарная классификация, тематическое моделирование, обработка текста на естественном языке.

Стр. 69-77.

DOI 10.14357/20718594180317

Литература

1. Schütze H., Manning C. D., Raghavan P. Introduction to information retrieval. – Cambridge University Press, 2008. – Т. 39, 482 c.
2. Bartkowiak A. M. Anomaly, novelty, one-class classification: a comprehensive introduction //International Journal of Computer Information Systems and Industrial Management
Applications. – 2011. – Т. 3. – №. 1. – pp. 61-71.
3. Карпович С. Н. Русскоязычный корпус текстов SCTMRU для построения тематических моделей //Труды СПИИРАН. – 2015. – Т. 2. – №. 39. – С. 123-142.
4. Tax D., Duin R. Support vector data description. Machine Learning, 2004, no. 54(1), pp. 45–66
5. Tax D., Duin R. Support vector domain description // Pattern Recognition Letters. - 1999. - Vol. 20. - Pp. 1191-1199.
6. Schölkopf B. et al. Estimating the support of a highdimensional distribution //Neural computation. – 2001. – Т. 13. – №. 7. – С. 1443-1471.
7. Utkin L. A framework for imprecise robust one-class classification models // International Journal of Machine Learning and Cybernetics, 2014, – Т. 5. – №. 3. – С. 379-393. doi: 10.1007/s13042-012-0140-6
8. Utkin L., Zhuk Y. Imprecise prior knowledge incorporating into one-class classification // Knowledge and information systems. – 2014. – Т. 41. – №. 1. – С. 53-76.
9. Уткин Л. В., Жук Ю. А. Робастные модели одноклассовой классификации и крайние точки множества вероятностей //Международная конференция по мягким вычислениям и измерениям. – Федеральное государственное автономное образовательное учреждение высшего образования Санкт-Петербургский государственный электротехнический университет ЛЭТИ им. ВИ Ульянова (Ленина), 2012. – Т. 1. – С. 220-224
10. Denis F., Gilleron R., Tommasi M. Text classification from positive and unlabeled examples //Proceedings of the 9th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, IPMU'02. – 2002. – С. 1927--1934.
11. Denis F. et al. Text classification and co-training from positive and unlabeled examples //Proceedings of the ICML 2003 workshop: the continuum from labeled to unlabeled data. – 2003. – С. 80-87.
12. Pan S., Zhang Y., Li X. Dynamic classifier ensemble for positive unlabeled text stream classification //Knowledge and information systems. – 2012. – Т. 33. – №. 2. – С. 267-287.
13. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. — 1999. – С. 50-57.
14. Blei D.M., Ng A.Y., Jordan M. I. Latent Dirichlet Allocation // Journal of Machine Learning Research. — 2003. – Т. 3. – №. Jan. – С. 993-1022.
15. Карпович С. Н. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI //Труды СПИИРАН. – 2016. – Т. 4. – №. 47. – С. 92-104.
16. Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования //Машинное обучение и анализ данных. – 2013. – Т. 1. – №. 6. – С. 657-686.
17. Pedregosa F. et al. Scikit-learn: Machine learning in Python //Journal of machine learning research. – 2011. – Т.12. – №. Oct. – С. 2825-2830.
18. Bird S., Loper E. NLTK: the natural language toolkit //Proceedings of the ACL 2004 on Interactive poster and demonstration sessions. – Association for Computational Linguistics, 2004. – С. 31.