ISSN 2071-8594

Российская академия наук

 

Ф.Н. Соловьев, А. М. Чеповский "Расширение модели идентификации языка коротких текстов"

Аннотация.

В статье рассмотрена проблема автоматической идентификации естественного языка текста и наиболее полная известная нам ее модель. Предлагается расширение модели на новые кириллические языки малых народов России.

Ключевые слова:

статистическая модель языка, идентификация естественного языка текста, языки малых народов России.

Стр. 21-26.

Полная версия статьи в формате pdf.

REFERENCES

1. Gusev S.V., Chepovskiy A.M. Natural language identification model // Business-informatics. 2011. No3 (17).
2. Zaidelman L.Y., Krylova I.V., Orekhov B.V. The technology of web-texts collection of Russian minor languages // In proceedings of International conference CPT2015, 2015. Мoscow Region, Prorvino, ICPT, 2016. P. 179-181.
3. Vogel, J., Tresner-Kirsch, D. Robust language identification in short, noisy texts: Improvements to LIGA // Proceedings of the Third International Workshop on Mining Ubiquitous and Social Environments, 2012. - P. 43-50.
4. Carter, S., Weerkamp, W., Tsagkias, M. Microblog language identification: Overcoming the limitations of short, unedited and idiomatic text // Language Resources and Evaluation, 2013, 47(1). - P.195-215.
5. Kneser, R., Ney, H. Improved backing-off for m-gram language modeling. // Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International Conference on (Vol. 1, P. 181-184). IEEE.
6. Shannon C.E. A Mathematical Theory of Communication // The Bell System Technical Journal, 1948, 27. - P. 379-423, 623-656.