Вы здесь
Математики МГУ предложили новый метод работы с данными высокой размерности


Исследователи факультета ВМК МГУ разработали эффективные методы работы с высокоразмерными данными, используя неотрицательные малоранговые тензоры в ТТ-формате (тензорный поезд). Их подход решает проблемы, связанные с вычислительными ресурсами, и устраняет ошибки, возникающие при обработке данных, таких как отрицательные элементы в численных моделях. Результаты опубликованы в журнале Computational and Applied Mathematics.
Современные задачи науки и техники требуют анализа огромных объёмов высокоразмерных данных. Однако обработка таких данных сталкивается с серьёзными трудностями: рост объёма вычислений и памяти зачастую делает стандартные методы малоэффективными. Чтобы справиться с этой проблемой, учёные факультета ВМК МГУ предложили инновационные методы работы с данными, которые позволяют моделировать сложные процессы с минимальными ресурсами.
В своей работе исследователи сосредоточились на использовании малоранговых тензоров в ТТ-формате. Этот подход позволяет значительно сократить объёмы вычислений, представляя данные в компактном виде. Одним из основных вызовов в этой области является необходимость обеспечения неотрицательности тензоров, так как артефактные отрицательные значения могут искажать результаты расчётов.
Учёные предложили новую методику, которая использует одноранговую поправку к исходным данным. Это позволяет устранять отрицательные элементы без обработки всего тензора, что значительно сокращает вычислительные затраты. Нововведение делает алгоритмы устойчивыми к росту размерности данных, избегая так называемого «проклятия размерности».
Разработанный подход оказался особенно полезным в задачах обработки мультиспектральных спутниковых изображений. Например, он позволяет сжимать данные, сохраняя их точность, избегая проблемы возникновения «битых пикселей», что имеет важное значение для анализа изображений Земли из космоса.
Ещё одним примером стало моделирование многокомпонентных процессов, таких как уравнения коагуляции. Эти уравнения описывают динамику частиц в сложных системах, учитывая их источники и стоки.
Динамика размеров таких сложных частиц важна для понимания природы атмосферных аэрозолей и процесса образования атмосферных осадков. Показано, что на обычном ноутбуке можно проводить сложные вычисления более, чем с 25 миллиардами точек на персональном компьютере. При этом без использования тензорных поездов вспомогательные структуры для работы с этими данными во время вычислений заняли бы порядка 10^20 ячеек памяти, то есть сотни эксабайт.
Также методы нашли применение в задачах сжатия синтетических данных и численного решения физических моделей, требующих высокой точности и устойчивости.
«Наш подход позволяет работать с большими данными быстрее и точнее, сохраняя их физическую корректность. Это особенно важно для задач, где точность и устойчивость решений критически важны. Приятно отметить, что разработанные в МГУ алгоритмы показали лучшие свойства по сравнению с методами, разработанными за рубежом, — отметил доцент кафедры вычислительных технологий и моделирования факультета ВМК МГУ Сергей Матвеев.
Метод открывает новые возможности для анализа данных в физике, химии, биологии и инженерных науках. Например, он может быть использован в климатологии для анализа больших объёмов метеорологических данных, в медицине для обработки высокоразмерных биомедицинских изображений, а также в промышленности для оптимизации сложных процессов.