Создание инструмента автоматического анализа текста в интересах социо-гуманитарных исследований. Часть 2

Машина РСА и опыт её использования

  • Иван Смирнов ФИЦ ИУ РАН
Ключевые слова: анализ корпусов текстов, программная архитектура, графовая база данных, семантико-синтаксические конструкции, социо-гуманитарные исследования, картина мира

Аннотация

Во второй части работы рассмотрены наиболее известные инструменты лингво-статистического анализа корпусов текстов и представлен новый инструмент анализа текстов для социо-гуманитарных исследований – машина РСА. Этот инструмент работает с сетевым представлением текста и позволяет находить в текстах конструкции сложной графовой структуры, что отличает его от многих аналогичных инструментов, в которых структурные отношения между элементами языка не моделируются. В машине РСА реализованы функции поиска, вычисления частотных и статистических характеристик для результатов поиска, корпусов или отдельных текстов, функции сравнения текстов или коллекций по их частотным и статистическим характеристикам с определением достоверности различий и выделением наиболее значимых разделяющих характеристик. В статье описаны архитектура и средства программной реализации машины РСА. Представлены результаты пилотажного исследования текстов с использованием машины РСА. Пилотажное исследование возможностей нового инструмента проведено на материале 142 текстов эссе, написанных на тему «Я. Другие. Мир», испытуемыми с различными демографическими (возраст, пол, профессия, регион проживания) и психологическими (выявлялись с помощью 11 психодиагностических методик) характеристиками; часть испытуемых (18 чел.) является пациентами психиатрической клиники. Корреляционный анализ показал наличие связей между текстовыми показателями, выявляемыми с помощью машины РСА (частота различных типов предикатов и типов синтаксем), и данными психодиагностического исследования, в частности, уровнем агрессивности. Предложена схема интерпретации данных предикатного анализа, позволяющая описать специфику речемыслительной деятельности и картины мира в зависимости от групповых и личностных особенностей авторов текстов.

Опубликован
2019-10-07
Раздел
Обработка естественного языка