Открытое извлечение информации из текстов. Часть II.

Извлечение семантических отношений с помощью машинного обучения без учителя

  • Иван Смирнов ФИЦ ИУ РАН
Ключевые слова: открытое извлечение информации, семантические отношения, машинное обучение без учителя, нейронные сети, автокодировщик

Аннотация

Работа посвящена «открытому извлечению информации» из текстов на естественном языке (open information extraction). Описывается подход к решению задачи извлечения семантических отношений из текстов на основе машинного обучения без учителя. Подход основан на методах глубокой кластеризации (deep clustering), в которых алгоритм кластеризации интегрирован внутрь многослойного нейросетевого автокодировщика. Эта модель применяется для объединения в группы поверхностных связей (триплетов), которые можно интерпретировать как семантические отношения. В статье также представлен метод для извлечения поверхностных отношений.

Опубликован
2019-06-27
Раздел
Обработка естественного языка