Вы здесь

Ученые МГУ разработали систему, которая упрощает процесс составления анкет

Ученые факультета ВМК МГУ предложили инновационную систему, которая эффективно подбирает контрольные вопросы для анкет с помощью обработки естественного языка. Созданная система дает возможность минимизировать количество ложной информации в исследованиях.

Ученые всегда стремятся к получению максимально корректных и правдивых ответов, чтобы сделать правильные выводы и прогнозы. С этой целью в анкету добавляются контрольные вопросы, речь в которых идет об одном и том же, но с использованием различных формулировок. Если ответы на такие вопросы не совпадают, это может указывать на то, что респондент в целом был не очень искренним. Однако создание таких контрольных вопросов может быть сложным и требовать значительных усилий и временных затрат.

Для решения этой проблемы ученые разработали инновационную систему, предназначенную для облегчения процесса составления анкет и эффективного подбора контрольных вопросов. Система использует различные методы обработки естественного языка для поиска похожих вопросов в анкетах и определения наиболее подходящих контрольных вопросов.

Первый метод, применяемый в системе, называется TF-IDF (Term Frequency-Inverse Document Frequency). Он основывается на анализе частоты встречаемости слов и обратной частоты документов. Этот метод позволяет определить наиболее значимые слова в тексте, которые могут быть использованы для описания его содержания. Такой подход существенно облегчает поиск информации в больших коллекциях документов.

Второй метод, который называется латентно-семантическим анализом (LSA), использует математическую модель и статистические методы для определения семантических связей между словами в документе. Это позволяет выявить наиболее важные слова, связанные с тематическим направлением, и определить степень их схожести с другими вопросами. Такой подход помогает более точно подбирать контрольные вопросы и избегать повторений или путаницы.

Третий метод, используемый в системе, – это тематическое моделирование, основанное на алгоритмах машинного обучения. С помощью этих алгоритмов система автоматически выявляет наиболее вероятные комбинации тем и слов, обсуждаемых в документах. Таким образом, система определяет распределение вероятностей для каждой темы в каждом документе, что облегчает поиск вопросов, содержащих схожие темы.

Процесс составления анкет с использованием данной системы значительно упрощается, а время и усилия, затрачиваемые экспертами на этот процесс, сокращаются. Система уже успешно применялась при составлении анкет с вопросами из областей психологии и социологии и ее эффективность была подтверждена.

«Наша система обработки естественного языка – это настоящий прорыв в сфере составления анкет и подбора контрольных вопросов. Инновационные методы, включая TF-IDF, латентно-семантический анализ и тематическое моделирование, позволяют экспертам эффективно находить и выбирать контрольные вопросы, гарантируя точность и надежность результатов опросов», – отметил доцент кафедры АЯ Владимир Абрамов.

Результаты исследования были представлены на Всероссийской конференции «Ломоносовские чтения-2023».

Публикации: