ISSN 2071-8594

Российская академия наук

 

Д. А. Евсеев "Генерация запросов для ответа на сложные вопросы на русском языке с использованием синтаксического парсера"

Аннотация.

В работе описывается система, которая переводит вопрос на естественном языке в SPARQL-запрос. В состав вопросно-ответной системы входят: синтаксический парсер, который строит синтаксическое дерево предложения; компонент, определяющий шаблон SPARQL-запроса по синтаксическому дереву; модели, находящие сущности и отношения, которые должны быть вставлены в слоты шаблона SPARQL-запроса. Для извлечения сущностей и ранжирования возможных отношений используется BERT. Одна из особенностей обучения BERT для вопросно-ответной системы на русском языке состоит в малом количестве данных. В связи с этим, в работе исследуется обучение мультиязычного BERT, предобученного на датасете LC-QUAD2.0 задачам извлечения сущностей и ранжирования отношений на малом количестве русских данных из датасета RuBQ. Вопросно-ответная система показывает на датасете RuBQ более высокую точность ответов на вопросы, чем предыдущие подходы.

Ключевые слова:

вопросно-ответная система, база знаний, генерация запросов, мультиязычный BERT.

Стр. 57-65.

DOI 10.14357/20718594210305