You are here

Ученые МГУ обучили нейросеть анализу научных текстов

Printer-friendly versionSend by email

Сотрудники лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny. С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов.

«Модель показывает высокие значения метрик, имея при этом небольшое количество параметров, а значит, гораздо меньшие требования к вычислительным ресурсам, – прокомментировал руководитель междисциплинарной группы проекта академик Алексей Хохлов. – Данное свойство делает SciRus-tiny эффективной моделью для использования в условиях высокой нагрузки. Разработанная нейросеть ляжет в основу поисково-рекомендательной системы для ученых, тестирование которой начнется уже в начале следующего года».

Также исследователи опубликовали в открытом доступе бенчмарк ruSciBench для оценки эмбеддингов научных текстов, состоящий из 14 задач, выполняемых на почти 400 тыс. параллельных аннотациях на русском и английском языках. Все работы по обучению модели и подготовке бенчмарка были проведены в рамках гранта междисциплинарной научно-образовательной школы МГУ «Математические методы анализа сложных систем» (проект «Разработка математических методов машинного обучения для обработки текстовой научной информации большого объема»). Подробнее о результатах работы можно прочитать в статье.

«Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Для английского языка существует бенчмарк SciDocs и его расширенная версия SciRepEval. Для русского языка первый бенчмарк ruSciDocs был опубликован нами около года назад вместе с моделью ruSciBERT и состоял из небольшого количества данных на русском языке, которые мы смогли собрать в открытом доступе. В этом году, благодаря данным, которые предоставил нам портал eLibrary, мы смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который содержит гораздо большее количество данных по большему числу тематик», – рассказал руководитель лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ, заведующий кафедрой ММП факультета ВМК МГУ профессор РАН Константин Воронцов.

Авторы отмечают, что опубликованная модель – первая в планируемой линейке. В дальнейшем планируется разработка моделей большего размера, что позволит достичь еще более высокого качества.


The Faculty Site is in the adjustment state. Any comments on the contents and functioning of the site should be addressed to cmcproject@cs.msu.ru.

Подписка на Сбор новостей

Все материалы сайта доступны по лицензии Creative Commons Attribution 4.0 International