В МГУ предложили способ точной оценки качества автоматической сортировки писем

Исследователи факультета вычислительной математики и кибернетики (ВМК) МГУ разработали подход, позволяющий точнее оценивать качество систем автоматической сортировки электронных писем. Работа посвящена методам более корректной оценки эффективности таких алгоритмов.

В работе исследовались структурные признаки переписки, которые в наибольшей степени влияют на точность рекомендаций по сортировке входящих сообщений.

Сегодня объём корпоративной электронной почты постоянно растёт, и ручная сортировка сообщений становится всё более трудоёмкой. Поэтому используются алгоритмы, автоматически предлагающие папку для входящего письма. Такие системы учитывают содержание сообщения, историю переписки и поведение пользователя — например, куда он ранее перемещал похожие письма.

В работе рассматривается задача выбора наиболее подходящей папки: система формирует список возможных вариантов и располагает их в порядке предполагаемой релевантности. Качество таких рекомендаций оценивается с помощью метрик, которые учитывают не только правильность выбора папки, но и её место в итоговом списке.

Одной из ключевых проблем оказалось то, что письма тесно связаны между собой: они группируются по цепочкам переписки, проектам или отправителям. Поэтому данные нельзя рассматривать как полностью независимые, а стандартные методы оценки качества моделей могут давать завышенные результаты.

Чтобы получить более корректную оценку, исследователи предложили использовать «кластерный бутстрэп» — метод, при котором анализ выполняется не на уровне отдельных писем, а на уровне групп связанных сообщений. Такой подход позволяет учитывать зависимость данных и получать более надёжные оценки качества моделей.

«При анализе почтовых данных важно учитывать, что письма связаны между собой и не являются независимыми. Использование кластерных методов позволяет более точно оценивать качество моделей», — отметила доцент кафедры математической статистики факультета ВМК МГУ Татьяна Захарова.

«Мы стремились проверить, насколько эффективно можно использовать структурные свойства переписки без анализа текста и сложных алгоритмов машинного обучения. Результаты показали, что даже минимальные признаки принадлежности письма к цепочке могут давать сильный классификационный сигнал», — отметил Кирилл Кодряну.

Полученные результаты могут использоваться при разработке корпоративных почтовых систем и сервисов автоматической обработки писем.

Работа была представлена на научной конференции «Ломоносовские чтения» на факультете вычислительной математики и кибернетики МГУ.