ISSN 2071-8594

Russian academy of sciences

Editor-in-Chief

Gennady Osipov

А. А. Корепанова, М. В. Абрамов "Применение случайного леса в выборе метода восстановления возраста пользователя социальной сети"

Аннотация.

Статья посвящена задаче восстановления значения атрибута «возраст» пользователя в социальных сетях посредством применения машинного обучения для комбинирования, предложенных в данной статье методов. Рассмотрены методы, основанные на анализе информации об образовательных учреждениях, подписках на группы и об образовании друзей, извлекаемой из профиля в социальной сети. Все эти методы по отдельности могут быть использованы в отношении выборок пользователей с ограниченным набором характеристик. Чтобы увеличить долю пользователей, у которых может быть восстановлено значение атрибута «возраст», была построена модель классификации для выбора наилучшего метода восстановления возраста для каждого пользователя. Были протестированы еще два подхода к комбинированию методов: ранжированием и усреднением оценок. В результате первый подход оказался наилучшим на тестовой выборке. Теоретическая значимость работы состоит в предложении подхода к комбинированию методов восстановления возраста, который позволяет повысить применимость и точность идентификации возраста пользователя. Полученные результаты имеют перспективу применения во многих областях, связанных с анализом профилей пользователей, при изучении социальных сетей.

Ключевые слова:

анализ социальных сетей, восстановление атрибутов, социоинженерные атаки, социокомпьютинг, машинное обучение.

Стр. 66-77.

DOI 10.14357/20718594210207

Литература

1. Camacho D., Panizo-LLedot Á., Bello-Orgaz G., Gonzalez-Pardo A., Cambria E. The four dimensions of social network analysis: An overview of research methods, applications, and software tools // Information Fusion. 2020. Vol. 63. P. 88–20.
2. Yamane D., Yamane P., Ivory S.L. Targeted Advertising: Documenting the emergence of Gun Culture 2.0 in Guns magazine // Palgrave Communications. 2020. № 6 (1). Art. No. 61.
3. Hinds J., Williams E.J., Joinson A.N. “It wouldn't happen to me”: Privacy concerns and perspectives following the Cambridge Analytica scandal // International Journal of Human Computer Studies. 2020. Vol. 143. Art. No. 102498.
4. Yu X., Yang Q., Wang R., Fang R., Deng M. Data cleaning for personal credit scoring by utilizing social media data: An empirical study // IEEE Intelligent Systems. 2020. Vol. 35 (2). Art. No. 8986628. P. 7–15.
5. Óskarsdóttir M., Bravo C., Sarraute C., Vanthienen J., Baesens B. The value of big data for credit scoring: Enhancing financial inclusion using mobile phone data and social network analytics // Applied Soft Computing Journal. 2019. Vol. 74. P.26–39.
6. Guo G., Zhu F., Chen E., Liu Q., Wu L., Guan C. From footprint to evidence: An exploratory study of mining social data for credit scoring // ACM Transactions on the Web. 2016. Vol. 10 (4). P. 1–38.
7. Абрамов М.В. Автоматизация анализа социальных сетей для оценивания защищённости от социоинженерных атак // Автоматизация процессов управления. 2018. № 1 (51). С. 34– 40.
8. Корепанова А.А., Олисеенко В.Д., Абрамов М.В., Тулупьев А.Л. Применение методов машинного обучения в задаче идентификации аккаунтов пользователя в двух социальных сетях // Компьютерные инструменты в образовании. 2019. №3. С. 29–43.
9. Багрецов Г.И., Шиндарев Н.А., Абрамов М.В., Тулупьева Т.В. Подходы к автоматизации сбора, структурирования и анализа информации о сотрудниках компании на основе данных социальной сети // Нечеткие системы, мягкие вычисления и интеллектуальные технологии (НСМВИТ–2017). Труды VII Всероссийской научно-практической конференции. 2017. С. 9–16.
10. Khlobystova A., Abramov M., Tulupyev A. An approach to estimating of criticality of social engineering attacks traces // Studies in Systems, Decision and Control. 2019. Vol. 199. P. 446– 456.
11. Suleimanov A., Abramov M., Tulupyev A. Modelling of the social engineering attacks based on social graph of employees communications analysis // Proceedings – 2018 IEEE Industrial Cyber-Physical Systems, ICPS 2018. 2018. P. 801–805.
12. Грезин В.С., Новосядлый В.А. О проблеме определения возраста участника социальной сети // Известия высших учебных заведений. Северокавказский регион. Естественные науки. 2015. №1. С. 12–18.
13. Соколова Т.В., Чеповский А.М. Проблема восстановления профилей пользователей социальных сетей // Вопросы кибербезопасности. 2019. №4 (32). С. 88–93.
14. Zhang Y., Zhang S., Zhang Y., Tao J, Wang P. A Large-Scale Empirical Study of Internet Users' Privacy Leakage in China // Proceedings - IEEE 17th International Conference on Dependable, Autonomic and Secure Computing, IEEE 17th International Conference on Pervasive Intelligence and Computing, IEEE 5th International Conference on Cloud and Big Data Computing, 4th Cyber Science and Technology Congress, DASC-PiCom-CBDCom- CyberSciTech 2019. Art. No. 8890435. P. 406–411.
15. Hinds J, Joinson A.N. What demographic attributes do our digital footprints reveal? A systematic review // PLoS ONE. 2018. Vol. 13(11) Art. No. e0207112.
16. Choi D., Lee Y., Kim S., Kang P. Private attribute inference from Facebook’s public text metadata: a case study of Korean users // Industrial Management & Data Systems. 2017. Vol. 117 (8). P.
17. Kosinski M., Stillwell D., Graepel T. Digital records of behavior expose personal traits // Proceedings of the National Academy of Sciences. 2013. Vol. 110 (15). P. 5802– 5805.
18. Nie L., Zhang L., Wang M., Hong R., Farseev A., Chua T. Learning user attributes via mobile social multimedia analytics // ACM Transactions on Intelligent Systems and Technology (TIST). 2017. Vol. 8 (3). Art. No. 36.
19. Gong N.Z., Liu B. Attribute inference attacks in online social networks // ACM Transactions on Privacy and Security. 2018. Vol. 21 (1) Art. No. 3.
20. Аудитория социальных сетей в России 2019 // Сервис аналитики постов и страниц конкурентов в социальных сетях. URL: https://popsters.ru/blog/post/auditoriyasocsetey-
v-rossii (дата обращения 21.08.2020).
21. Wang Y., Kosinski M. Deep neural networks are more accurate than humans at detecting sexual orientation from facial images // Journal of Personality and Social Psychology. 2018. Vol. 114 (2). P. 246–257.
22. Youyou W., Kosinski M., Stillwell D. Computer-based personality judgments are more accurate than those made by humans // Proceedings of the National Academy of Sciences of the United States of America. 2015. Vol. 112 (4). P. 1036–1040.
23. Azucar D., Marengo D., Settanni M. Predicting the Big 5 personality traits from digital footprints on social media: A meta-analysis // Personality and Individual Differences. 2018. Vol. 124. P. 150–159.
24. Наместников А.М., Филиппов А.А., Мошкин В.С., Ярушкина Н.Г. Модель социального портрета пользователя социальной сети на основе семантического анализа слабоструктурированного контента профиля // Системный анализ и информационные технологии САИТ–2019. Труды Восьмой международной конференции. 2019. С. 336– 341.
25. Han X., Huang H., Wang L. F-PAD: Private Attribute Disclosure Risk Estimation in Online Social Networks // IEEE Transactions on Dependable and Secure Computing. 2019. Vol. 16. No. 6. P. 1054–1069.
26. Li Y., Yan Q., Deng R.H. Privacy leakage analysis in online social networks // Computers and Security. 2015. Vol. 49. P. 239–254.
27. Breiman L. Random Forests // Machine Learning. 2001. Vol. 45. P. 5–32.
28. Ho T. K. Random Decision Forests // Proceedings of the 3rd International Conference on Document Analysis and Recognition. Montreal. QC. 14–16 August 1995. 1995. P. 278–282.
29. Ho T.K. The Random Subspace Method for Constructing Decision Forests // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. Vol 20. No. 8. P. 832–844.
30. Hastie T., Tibshirani R., Friedman J. Random forests // The elements of statistical learning. – Springer. New York. NY.2009. P. 587–604.
31. Utkin L., Kovalev M., Meldo A., Coolen F. Imprecise Extensions of Random Forests and Random Survival Forests // Proceedings of the Eleventh International Symposium on Imprecise Probabilities: Theories and Applications. PMLR. 2019. Vol. 103. P. 404–413.
32. Breiman L. Bagging Predictors // Department of Statistics, University of California Berkeley. Technical Report. No. 421. 1994.
33. Kharitonov N.A., Maximov A.G., Tulupyev A.L. Algebraic Bayesian Networks: Naïve Frequentist Approach to Local Machine Learning Based on Imperfect Information from Social Media and Expert Estimates // Communications in Computer and Information Science. 2019. Vol. 1093. P. 234–244.
34. Тулупьев А.Л., Столяров Д.М., Ментюков М.В. Представление локальной и глобальной структуры алгебраической байесовской сети в Java-приложениях // Труды СПИИРАН. 2007. № 5. С. 71–99.
35. Kharitonov N.A., Maksimov A.G., Tulupyev A.L. Algebraic Bayesian Networks: Parallel Algorithms for Maintaining Local Consistency // Advances in Intelligent Systems and Computing. 2019. Vol. 1156 AISC. P. 214–222.