Ученые МГУ разработали новую систему эффективной потоковой диаризации спикеров при перекрытиях речи

Ученые МГУ при поддержке НОШ «Мозг, когнитивные системы, искусственный интеллект» разработали инновационный подход, который успешно решает две главные задачи: определение спикеров на записи и определение активности конкретного спикера. Новый метод обладает высокой эффективностью даже в условиях потоковой обработки и перекрытия речи. Результаты исследования были представлены в рамках Всероссийской Конференции ММРО-2023.

Диаризация спикеров – это задача разделения и идентификации участников на аудиозаписи, то есть процесс определения, кто и когда говорит. Диаризация имеет огромное значение для множества приложений: от транскрибирования речи до автоматического перевода и анализа эмоций. В рамках поставленной задачи состав и даже количество участников не определены заранее, и алгоритм диаризации должен самостоятельно выявить их. Однако можно учесть и специфический случай, когда известно точное количество говорящих на аудиозаписи или имеются образцы речи некоторых из людей. Соответственно, можно сказать, что разработан метод для решения сразу двух фундаментальных задач: диаризации спикеров и определения активности целевого спикера. Диаризация спикеров заключается в идентификации нескольких спикеров на аудиозаписи, а также в различении сегментов речи, в которых каждый спикер активен. Аналогично, задача определения активности целевого спикера направлена на определение непрерывных сегментов речи, в которых активен известный целевой спикер.

В научной литературе было предложено множество методов, но они сталкиваются с существенными недостатками. «Одной из основных проблем является необходимость обработки потокового аудио. Алгоритмы часто не имеют доступа к полному контексту аудиозаписи, что делает многие алгоритмы обработки последовательностей непрактичными. Кроме того, перекрытие речи представляет собой значительную проблему, требующую от алгоритмов точной идентификации и различения между несколькими говорящими, произносящими речь одновременно», — отметил доцент кафедры математических методов прогнозирования факультета ВМК МГУ Арчил Майсурадзе.

Решая эти проблемы, исследовательская группа разработала метод, способный эффективно справляться с задачами диаризации спикеров и определения активности целевого спикера в различных условиях, включая различные уровни фонового шума и ситуации перекрытия речи. Используя как традиционные последовательные подходы, так и инновационные техники, новый метод выделяется своей универсальностью и эффективностью.

Основные инновации включают обнаружение перекрытия речи на этапе сегментации, обеспечивая более точную идентификацию речевых сегментов от разных спикеров; оптимизированное извлечение вложений, которые рассчитываются с учетом перекрытия речи, что улучшает точность идентификации спикеров; адаптивную кластеризацию для обработки сегментов с перекрытием речи, обеспечивая более точную кластеризацию спикеров; потоковую обработку, которая позволяет применять метод в реальном времени без потери производительности.

Кроме того, процесс обучения использует синтетические данные для решения проблемы получения точно размеченных обучающих данных.

«В ходе тщательной оценки по сравнению с существующими решениями на известных наборах данных, предложенный метод продемонстрировал превосходное качество, особенно в сценариях с перекрытием речи. В режиме потоковой обработки он показал замечательное улучшение на 3.5 процентных пункта в ошибке диаризации по сравнению с текущими передовыми решениями», — добавил Дмитрий Попов, студент магистратуры кафедры математических методов прогнозирования факультета ВМК МГУ.

Этот инновационный метод представляет собой значительный прогресс в области обработки аудио, имеющий далеко идущие последствия для различных приложений, включая распознавание речи, транскрибирование и системы наблюдения.