ISSN 2071-8594

Российская академия наук

Главный редактор

Г.С. Осипов

Р.Е. Суворов, А.О. Шелманов, М.А. Каменская, И.В. Смирнов "Активное машинное обучение в задаче извлечения информации из научных текстов"

Аннотация.

Рассматривается задача извлечения информации из текстов с применением методов машинного обучения. Традиционно для построения системы извлечения информации на основе машинного обучения требуется разметка достаточно больших корпусов текстов. Другой проблемой, возникающей при создании такого рода систем, является необходимость построения специального признакового пространства. Для решения первой проблемы предложены методы извлечения информации на основе активного машинного обучения. Для решения второй проблемы предложены методы генерации признакового пространства на основе результатов полного лингвистического анализа. Проведены экспериментальные исследования предложенных методов. Показано, что использование активного машинного обучения существенно сокращает трудоемкость создания системы извлечения информации, сохраняя при этом качество решения задачи.

Ключевые слова:

извлечение информации из текстов, полный лингвистический анализ, активное машинное обучение, построение признакового пространства, обработка научных текстов.

Стр. 40-52.

Полная версия статьи в формате pdf.

Литература

1. Chiticariu L., Li Y., Reiss F. Transparent machine learning for information extraction // The materials of the tutorial of the Conference on Empirical Methods in Natural Language Processing. — 2015.
2. Piskorski J., Yangarber R. Information extraction: past, present and future // Multi-source, multilingual information extraction and summarization. — 2013. — P. 23–49.
3. Chiticariu L., Li Y., Reiss F. R. Rule-based information extraction is dead! Long live rule-based information extraction systems!  // Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. — 2013. — P. 827–832.
4. Gupta S., Manning C. D. SPIED: Stanford pattern-based information extraction and diagnostics // Association for Computational Linguistics (ACL) Workshop on Interactive Language Learning, Visualization, and Interfaces. — 2014.
5. Espinosa K. J., Batista-Navarro R., Ananiadou S. Learning to recognise named entities in tweets by exploiting weakly labelled data // Proceedings of the 2nd Workshop on Noisy User-generated Text (W-NUT). — 2016.
6. Learning from human-generated lists / Kwang-Sung Jun, Jerry Zhu, Burr Settles, Timothy Rogers // International Conference on Machine Learning. — 2013. — P. 181–189.
7. IKE - an interactive tool for knowledge extraction / Bhavana Dalvi, Sumithra Bhakthavatsalam, Chris Clark et al. // Proceedings of the 5th Workshop on Automated Knowledge Base Construction. — 2016. — P. 12–17.
8. The benefits of word embeddings features for active learning in clinical information extraction / Mahnoosh Kholghi, Lance De Vine, Laurianne Sitbon et al. // Proceedings of the Australasian Language Technology Association Workshop. — 2016. — P.
25–34.
9. External knowledge and query strategies in active learning: a study in clinical information extraction / Mahnoosh Kholghi, Laurianne Sitbon, Guido Zuccon, Anthony Nguyen // Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. — 2015. — P. 143–152.
10. Augenstein I., Maynard D., Ciravegna F. Relation Extraction from the Web Using Distant Supervision // Knowledge Engineering and Knowledge Management: 19th International Conference (EKAW 2014). — 2014. — P. 26–41.
11. OCR++: A robust framework for information extraction from scholarly articles / Mayank Singh, Barnopriyo Barua, Priyank Palod et al. // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. — 2016. — P. 3390–3400.
12. Liu H. Automatic argumentative-zoning using word2vec // arXiv preprint arXiv:1703.10152. — 2017.
13. Figureseer: Parsing result-figures in research papers / Noah Siegel, Zachary Horvitz, Roie Levin et al. // European Conference on Computer Vision. — 2016. — P. 664–680.
14. Clark C. A., Divvala S. K. Looking beyond text: Extracting figures, tables and captions from computer science papers // AAAI Workshop: Scholarly Big Data. — 2015.15. Lever J., Jones S. J. M. VERSE: Event and relation extraction in the BioNLP 2016 shared task // Proceedings of th 4th BioNLP Shared Task Workshop. — 2016.
16. Which techniques does your application use?: An information extraction framework for scientific articles / Soham Dan, Sanyam Agarwal, Mayank Singh et al. // arXiv preprint arXiv:1608.06386. — 2016.
17. SemEval 2017 task 10: ScienceIE – extracting keyphrases and relations from scientific publications / Isabelle Augenstein, Mrinal Kanti Das, Sebastian Riedel et al. // Proceedings of the 11th International Workshop on Semantic Evaluation. — 2017.
18. Kovar V., Mociarikova M., Rychly P. Finding definitions in large corpora with sketch engine // Proceedings of the Tenth  International Conference on Language Resources and Evaluation. — 2016.
19. DEFEXT: A semi supervised definition extraction tool / Luis Espinosa-Anke, Roberto Carlini, Horacio Saggion, Francesco Ronzano // GLOBALEX 2016: Lexicographic Resources for Human Language Technology Workshop. — 2016.
20. Del Gaudio R. Automatic extraction of definitions : Ph.D. thesis / R. Del Gaudio. — 2014. — University of Lisbon.
21. Bolshakova E. I., Efremova N. E. A heuristic strategy for extracting terms from scientific texts // International Conference on  Analysis of Images, Social Networks and Texts. — 2015. — P. 297–307.
22. Смирнов И. В., Шелманов А. О., Кузнецова Е. С. , Храмоин И. В. Семантико-синтаксический анализ естественных языков. Часть II. Метод семантико-синтаксического анализа текстов // Искусственный интеллект и принятие решений. —  № 1. — С. 11–24.
23. Сокирко А. В. Морфологические модули на сайте www.aot.ru // Труды международной конференции «Диалог 2004». — 2004. — P. 559–565.
24. MaltParser: A language-independent system for datadriven dependency parsing / Joakim Nivre, Johan Hall, Jens Nilsson et  al. // Natural Language Engineering. — 2007. — Vol. 13, no. 2. — P. 95–135.
25. Апресян Ю. Д. , Богуславский И. М. , Иомдин Б. Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка.— 2005. — С. 193–214.
26. Shelmanov A. O., Smirnov I. V. Methods for semantic role labeling of Russian texts // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference "Dialogue 2014". — No. 13. — 2014. — P. 607– 620.
27. Шелманов А.О. , Каменская М.А. , Ананьева М.И. , Смирнов И.В. Семантико-синтаксический анализ текстов в задачах вопросно-ответного поиска и извлечения определений // Искусственный интеллект и принятие решений. — 2016. — № 4. — С. 47–61.