Вы здесь
Математики МГУ создали библиотеку данных для прогнозирования выживаемости


Исследователи факультета ВМК МГУ представили новую библиотеку на языке Python, разработанную для анализа событий во времени и называющуюся Survivors (англ. Выжившие). Этот инструмент позволяет прогнозировать вероятность наступления событий с учётом сложных зависимостей в данных и работает даже с пропущенными значениями и цензурированными наблюдениями. Разработка опубликована в журнале «Moscow University Computational Mathematics and Cybernetics».
Прогнозирование времени наступления событий является важной задачей в медицине, промышленной диагностике, CRM-cистемах и социологии. Анализ таких данных позволяет оценивать вероятность того, когда произойдёт определённое событие, например, выход оборудования из строя, отток клиентов или выздоровление пациента после лечения. Уникальной особенностью области является работа с цензурированными наблюдениями, для которых неизвестно истинное время события. Однако традиционные методы анализа выживаемости имеют ряд ограничений, требуя строгих предположений о распределении событий во времени и сложной предварительной обработки.
Новая open-source библиотека Survivors использует передовые методы машинного обучения и устраняет многие недостатки существующих решений. Встроенные методы позволяют прогнозировать вероятность наступления события для всех моментов времени, предоставляя более детальный прогноз по сравнению с оценкой ожидаемого времени события.
В отличие от существующих библиотек для анализа выживаемости, которые работают только с заполненными числовыми данными и требуют строгих допущений, Survivors предлагает более универсальный подход. Используемые алгоритмы деревьев решений и их ансамблей адаптированы для задач выживаемости и позволяют учитывать широкий спектр параметров без необходимости сложной подготовки данных. В библиотеке реализована поддержка числовых и категориальных переменных, а также пропущенных значений, что делает её удобной для работы с реальными наборами данных.
«Survivors позволяет решать задачи анализа выживаемости без предобработки данных, обеспечивая высокую точность прогнозов. Мы стремились создать инструмент, который поможет исследователям и практикам работать с реальными данными, учитывая их сложность и неопределённость», — отметил Юлий Васильев, сотрудник лаборатории технологий программирования факультета ВМК МГУ.
Библиотека также позволяет учитывать случаи информативного цензурирования наблюдений, в рамках которых потеря наблюдений происходит неслучайно (например, оборудование было изъято из эксплуатации и отправлено на техобслуживание до выхода из строя). Её алгоритмы оптимизированы для работы с большими массивами информации, обеспечивая высокую вычислительную эффективность за счёт параллельных вычислений и оптимизированных методов разбиения данных.
Survivors включает в себя модели деревьев выживаемости, а также их ансамбли, позволяющие получить более точный прогноз за счет агрегации прогнозов множества деревьев. В отличие от традиционных методов, таких как регрессия Кокса, библиотека применяет усовершенствованные механизмы разбиения данных, что позволяет значительно повысить точность предсказаний. Новые критерии оценки помогают моделям лучше учитывать сложные зависимости между переменными, что особенно важно при анализе многомерных медицинских и промышленных данных.
В ходе экспериментов библиотека была протестирована на девяти открытых медицинских наборах данных, а также на промышленных датасетах. Результаты показали, что Survivors обеспечивает более стабильные и точные предсказания по сравнению с классическими моделями, при этом требуя минимальной настройки со стороны пользователя.
«Мы протестировали библиотеку на реальных медицинских и промышленных данных и убедились, что наш метод превосходит существующие подходы по точности и устойчивости. Survivors представляет собой удобный инструмент, позволяющий анализировать событийные данные без необходимости глубоких знаний в машинном обучении», — добавил Юлий Васильев.
Благодаря своей универсальности библиотека Survivors может применяться в самых разных областях. В медицине она может использоваться для прогнозирования рисков во времени и оценки продолжительности жизни пациентов на основе интерпретируемых правил, понятных эксперту. В CRM-cистемах её можно применять для расчёта вероятности оттока клиентов, а в промышленности — для предсказания деградации оборудования и мониторинга технического состояния систем.
Гибкость архитектуры и открытая лицензия делают Survivors удобной для интеграции в существующие аналитические системы, что даёт исследователям и аналитикам возможность использовать современные методы машинного обучения без необходимости глубоко разбираться в технических деталях алгоритмов.