ISSN 2071-8594

Российская академия наук

Главный редактор

Г.С. Осипов

А.С. Златов, А.А. Кузьмин "Построение иерархической тематической модели крупной конференции"

Аннотация.

Работа посвящена построению иерархической тематической модели тезисов крупной конференции. Используется разделяющая вероятностная модель для кластеризации тезисов на каждом уровне иерархии. Предложены адаптированные вероятностные модели, учитывающие сбалансированность структуры конференции. В адаптированных моделях снижено влияние мощности кластеров на построение тематической модели. Для построения тематической модели используется алгоритм кластеризации с частичным обучением. Строится плоская модель на каждом уровне иерархии. На основании плоских моделей строится иерархическая тематическая модель конференции. Для построения тематической модели тезисов конференции используется дивизимный иерархический алгоритм. Работа алгоритмов проиллюстрирована на коллекциях тезисов конференции EURO и сайтов индустриального сектора. Разделяющая вероятностная модель сравнивается с адаптированными моделями и иерархической моделью. Для оценки качества тематической модели используются модели, построенные экспертами.

Ключевые слова:

иерархические модели, тематические модели, вероятностные тематические модели, иерархическая кластеризация, алгоритмы с частичным обучением.

Стр. 77-86.

Полная версия статьи в формате pdf.

REFERENCES

1. Tezisy konferentsii EURO. URL:
https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/E
URO_data/data obrashcheniya: 27.06.2016.
2. Hartigan J.A., Wong M. A. Algorithm AS 136: A k-means clustering algorithm // Applied Statistics. 1979. Vol. 28, no. 1. Pp. 100–108.
3. Qi He, Kuiyu Chang, Ee-Peng Lim, Arindam Banerjee Keep It Simple with Time: A Reexamination of Probabilistic Topic Detection Models // IEEE Transactions on Pattern Analysis & Machine Intelligence, vol.32, no. 10, pp. 1795-1808, October 2010, doi:10.1109/TPAMI.2009.203.
4. Arindam Banerjee, Inderjit Dhillon, Joydeep Ghosh, Suvrit Sra Generative Model-based Clustering of Directional Data // Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM, 2003. Pp. 19–28.
5. David M. Blei, Andrew Y. Ng, Michael I. Jordan Latent dirichlet allocation // The Journal of Machine Learning Research. Vol. 3, 2003. Pp. 993-1022.
6. Ackermann Marcel R., Blomer Johannes, Sohler Christian. Clustering for Metric and Nonmetric Distance Measures //ACM Trans. Algorithms. 2010. Vol. 6, no. 4. Pp. 1:59.http://doi.acm.org/10.1145/1824777.1824779.
7. Hand DJ, Krzanowski WJ. Optimising k-means clustering results with standard software packages // Computational statistics and Data analysis. 2005. Vol. 49. Pp. 969–973.
8. Leisch Friedrich. A Toolbox for K-centroids Cluster Analysis // Comput. Stat. Data Analysis. 2006. Vol. 51, no. 2. Pp. 526–544.
9. Yih Wen-tau. Learning Term-weighting Functions for Similarity Measures // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2, EMNLP ’09 Stroudsburg, PA, USA: Association for Computational Linguistics, 2009. Pp. 793–802. http://dl.acm.org/citation.cfm?id=1699571.1699616.
10. Hofmann Thomas. Probabilistic Latent Semantic Indexing // Proceedings of the 22Nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. SIGIR ’99. New York, NY, USA: ACM, 1999. Pp. 50–57.
11. Vorontsov Konstantin, Potapenko Anna, Plavin Alexander. Additive Regularization of Topic Models for Topic Selection and Sparse Factorization // Statistical Learning and Data Sciences / edited byAlexander Gammerman, Vladimir Vovk, Harris Papadopoulos. Springer International Publishing, 2015. Vol. 9047 of Lecture Notes in Computer Science. Pp. 193–202.
12. Hao Pei-Yi, Chiang Jung-Hsien, Tu Yi-Kun. Hierarchically SVM classification based on support vector clustering method and its application to document categorization // Expert Systems with Applications. 2007. Vol. 33, no. 3. Pp. 627–635.
13. Eric Gaussier, Cyril Goutte, Kris Popat, Francine Chen. A Hierarchical Model for Clustering and Categorising Documents // Advances in Information Retrieval Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02), 2002.
14. Tu Z. Probabilistic boosting-tree: Learning discriminative models for classification, recognition, and clustering // Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on. – IEEE, 2005. – T. 2. – S. 1589-1596.
15. Dhillon Inderjit S., Sra Suvrit. Modeling Data using Directional Distributions: Tech. Rep. TR-03-06: The University of Texas, Department of Computer Sciences, 2003. January.
16. Kuzmin A.A., Aduenko A.A., Strijov V.V. Thematic Classification for EURO/IFORS Conference Using Expert Model // Conference of the International Federation of Operational Research Societies, 2014.
17. Aduenko A.A., Kuzmin A.A., Strizhov V.V. Vybor priznakov i optimizatsiya metriki pri klasterizatsii kollektsii dokumentov // Izvestiya Tulskogo gosudarstvennogo universiteta, Yestestvennye nauki. 2012. № 3. S.119-131.