Ученые МГУ обучили нейросеть анализу научных текстов

Сотрудники лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny. С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов.

«Модель показывает высокие значения метрик, имея при этом небольшое количество параметров, а значит, гораздо меньшие требования к вычислительным ресурсам, – прокомментировал руководитель междисциплинарной группы проекта академик Алексей Хохлов. – Данное свойство делает SciRus-tiny эффективной моделью для использования в условиях высокой нагрузки. Разработанная нейросеть ляжет в основу поисково-рекомендательной системы для ученых, тестирование которой начнется уже в начале следующего года».

Также исследователи опубликовали в открытом доступе бенчмарк ruSciBench для оценки эмбеддингов научных текстов, состоящий из 14 задач, выполняемых на почти 400 тыс. параллельных аннотациях на русском и английском языках. Все работы по обучению модели и подготовке бенчмарка были проведены в рамках гранта междисциплинарной научно-образовательной школы МГУ «Математические методы анализа сложных систем» (проект «Разработка математических методов машинного обучения для обработки текстовой научной информации большого объема»). Подробнее о результатах работы можно прочитать в статье.

«Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Для английского языка существует бенчмарк SciDocs и его расширенная версия SciRepEval. Для русского языка первый бенчмарк ruSciDocs был опубликован нами около года назад вместе с моделью ruSciBERT и состоял из небольшого количества данных на русском языке, которые мы смогли собрать в открытом доступе. В этом году, благодаря данным, которые предоставил нам портал eLibrary, мы смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который содержит гораздо большее количество данных по большему числу тематик», – рассказал руководитель лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ, заведующий кафедрой ММП факультета ВМК МГУ профессор РАН Константин Воронцов.

Авторы отмечают, что опубликованная модель – первая в планируемой линейке. В дальнейшем планируется разработка моделей большего размера, что позволит достичь еще более высокого качества.