ISSN 2071-8594

Российская академия наук

Главный редактор

Г.С. Осипов

В. И. Городецкий, О. Н. Тушканова "Семантические технологии для семантических приложений. Часть 2. Модели сравнительной семантики текстов"

Аннотация.

В статье обсуждаются базовые аспекты современного понимания семантических вычислений, семантических технологий и приложений в области обработки больших данных, представленных текстами на естественном языке, выполняемой в интересах извлечения знаний для принятия решений. Рассмотрены базовые компоненты семантических технологий, к которым относятся онтологии и модели их использования, семантические ресурсы, которые содержат знания о семантике слов естественного языка и средства ее уточнения, а также семантическая компонента технологии, которая используется для формального описания смысла сущностей естественного языка и численной оценки их попарной семантической близости. Основное внимание уделяется моделям последней компоненты технологии, которые важны для решения задач семантической кластеризации и классификации текстов и различных их приложений. Обсуждаются и сравниваются различные типы мер семантической близости сущностей естественного языка в контексте задач семантических вычислений и анализируются проблемы, которые сдерживают практическое использование семантических технологий.

Ключевые слова:

семантические технологии, семантические вычисления, семантический ресурс, семантическая связанность, семантическая близость.

Стр. 49-61.

DOI 10.14357/20718594190105

Литература

1. Meng L., Huang R., Gu J. A review of semantic similarity measures in wordnet. International Journal of Hybrid Information Technology, 6 (1), 2013, pp. 1-12.
2. Feng Y., Bagheri E., Ensan F., Jovanovic J. The state of the art in semantic relatedness: a framework for comparison. Knowledge Engineering Review, 2017, pp. 1-30.
3. Leacock C., Chodorow M. Combining local context and wordnet similarity for word sense identification. WordNet: An electronic lexical database, 1998, vol. 49, no. 2, pp. 265-283.
4. Wu Z., Palmer M. Verbs semantics and lexical selection. Proceedings of the 32nd annual meeting on Association for Computational Linguistics, ser. ACL ’94. Stroudsburg, PA, USA: Association for Computational Linguistics, 1994, pp. 133-138.
5. Li Y., Bandar Z., Mclean D. An approach for measuring semantic similarity between words using multiple information sources. Knowledge and Data Engineering, IEEE Transactions on, 2003, vol. 15, no. 4, pp. 871-882.
6. Resnik P. Using information content to evaluate semantic similarity in a taxonomy. Proceedings of the 14th International Joint Conference on Artificial Intelligence - Volume 1, ser. IJCAI’95. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995, pp. 448-453.
7. Lin D. An information-theoretic definition of similarity. Proceedings of the Fifteenth International Conference on Machine Learning, ser. ICML ’98. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1998, pp. 296-304.
8. Jiang J. J., Conrath D.W. Semantic similarity based on corpus statistics and lexical taxonomy. Computational Linguistics, 1997, vol. cmp-lg/970, no. Rocling X, p. 15.
9. Пархоменко П.А., Григорьев А.А., Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов, Труды ИСП РАН, 2017, том 29, выпуск 2, c. 161-200.
10. Zhu G., Iglesias C.A. Computing Semantic Similarity of Concepts in Knowledge Graphs. IEEE Transactions on Knowledge and Data Engineering 29.1, 2017, pp. 72-85.
11. Gabrilovich E., Markovitch, S. Computing semantic relatedness using Wikipedia-based Explicit Semantic Analysis. In Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI ’07),Sangal, R., Mehta, H. & Bagga, R. K. (eds). Morgan Kaufmann Publishers Inc., 2007, pp. 1606–1611.
12. Tversky A. Features of Similarity. Psycological Review, 1977, 84(4), pp. 327-352.
13. Lesk M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. In Proceedings of the 5th Annual International Conference on Systems Documentation (SIGDOC ’86), DeBuys, V. (ed.). ACM, 1986, pp. 24–26.
14. Vasilescu F., Langlais P., Lapalme G. Evaluating Variants of the Lesk Approach for Disambiguating Words. Proceedings of The Fourth International Conference on Language Resources and Evaluation (LREC 2004), Portugal, 2004, pp. 633-636.
15. Morris J., G. Hirst G. Lexical cohesion computed by thesaural relations as an indicator of the structure of text. Computational Linguistics, 1991, vol. 17, 1, pp. 21-43.
16. Wei T., Lu Y., Chang H., Zhou Q., Bao X. A semantic approach for text clustering using WordNet and lexical chains. Expert Systems with Applications 2015, 42, pp. 2264-2275.
17. Ткач С.С. Применение лексических цепочек для разрешения лексической многозначности на основе Русского Викисловаря. Магистерская диссертация. Петрозаводский Государственный университет. Петрозаводск, 2016. 60 с.
18. Mitra M., Singhal A., Buckley C. Improving automatic query expansion. In Proceedings of the 21st Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1998, pp. 206-214.
19. Sahami M., Heilman T.D. A web-based kernel function for measuring the similarity of short text snippets.In Proceedings of the 15th International Conference on World Wide Web (WWW ’06), ACM, 2006, pp. 377-386.
20. Cilibrasi R.L., Vitanyi P. The Google similarity distance. IEEE Transactions on Knowledge and Data Engineering 2007, 19(3), pp. 370-383.
21. Верещагин Н.К. Успенский В.А., Шень А. Колмогоровская сложность и случайность. М.:Издательство МЦНМО, 2013, 575 с.
22. Bollegala D., Yutaka Matsuo Y., Ishizuka M. WebSim: a Web-based Semantic Similarity Measure. The 21st Annual Conference of the Japanese Society for Artificial Intelligence, 2007, pp.1-4.
23. Wong W., Liu W., Bennamoun M. Tree-traversing ant algorithm for term clustering based on featureless similarities. Data Mining and Knowledge Discovery, 2007, 15 (3), pp. 349-381.
24. Bartussek W., Bense H., Hoppe T., Humm B.G., Reibold A., Schade U., Siegel M., Walsh P. Introduction to Semantic Applications. In Thomas Hoppe, Bernhard Humm, Anatol Reibold (Eds.). Semantic Applications. Methodology, Technology, Corporate Use. Springer-Verlag GmbH Germany, part of Springer Nature 2018.
25. Городецкий В.И., Серебряков С.В. Методы и алгоритмы коллективного распознавания// Автоматика и телемеханика, 2008, № 11, с. 3-40.