ВМК МГУ
Опубликовано на ВМК МГУ (https://cs.msu.ru)

Главная > Ученые МГУ разработали систему, которая упрощает процесс составления анкет

Ученые МГУ разработали систему, которая упрощает процесс составления анкет

Ученые факультета ВМК МГУ предложили инновационную систему, которая эффективно подбирает контрольные вопросы для анкет с помощью обработки естественного языка. Созданная система дает возможность минимизировать количество ложной информации в исследованиях. 

Ученые всегда стремятся к получению максимально корректных и правдивых ответов, чтобы сделать правильные выводы и прогнозы. С этой целью в анкету добавляются контрольные вопросы, речь в которых идет об одном и том же, но с использованием различных формулировок. Если ответы на такие вопросы не совпадают, это может указывать на то, что респондент в целом был не очень искренним. Однако создание таких контрольных вопросов может быть сложным и требовать значительных усилий и временных затрат.

Для решения этой проблемы ученые разработали инновационную систему, предназначенную для облегчения процесса составления анкет и эффективного подбора контрольных вопросов. Система использует различные методы обработки естественного языка для поиска похожих вопросов в анкетах и определения наиболее подходящих контрольных вопросов.

Первый метод, применяемый в системе, называется TF-IDF (Term Frequency-Inverse Document Frequency). Он основывается на анализе частоты встречаемости слов и обратной частоты документов. Этот метод позволяет определить наиболее значимые слова в тексте, которые могут быть использованы для описания его содержания. Такой подход существенно облегчает поиск информации в больших коллекциях документов.

Второй метод, который называется латентно-семантическим анализом (LSA), использует математическую модель и статистические методы для определения семантических связей между словами в документе. Это позволяет выявить наиболее важные слова, связанные с тематическим направлением, и определить степень их схожести с другими вопросами. Такой подход помогает более точно подбирать контрольные вопросы и избегать повторений или путаницы.

Третий метод, используемый в системе, – это тематическое моделирование, основанное на алгоритмах машинного обучения. С помощью этих алгоритмов система автоматически выявляет наиболее вероятные комбинации тем и слов, обсуждаемых в документах. Таким образом, система определяет распределение вероятностей для каждой темы в каждом документе, что облегчает поиск вопросов, содержащих схожие темы.

Процесс составления анкет с использованием данной системы значительно упрощается, а время и усилия, затрачиваемые экспертами на этот процесс, сокращаются. Система уже успешно применялась при составлении анкет с вопросами из областей психологии и социологии и ее эффективность была подтверждена.

«Наша система обработки естественного языка – это настоящий прорыв в сфере составления анкет и подбора контрольных вопросов. Инновационные методы, включая TF-IDF, латентно-семантический анализ и тематическое моделирование, позволяют экспертам эффективно находить и выбирать контрольные вопросы, гарантируя точность и надежность результатов опросов», – отметил доцент кафедры АЯ Владимир Абрамов.

Результаты исследования были представлены на Всероссийской конференции «Ломоносовские чтения-2023».

Публикации:

  • ТАСС
  • Поиск
  • Научная Россия
  • ferra.ru
  • АГН «Москва»
  • На Западе Москвы: Раменки
  • Управа района Раменки

Источник:https://cs.msu.ru/news/3929