В России нашли способ сжать нейросети на 36% без потери «ума»

17 февраля17 фев

2 мин

Российские учёные из НИУ ВШЭ создали метод сжатия больших языковых моделей (таких как GPT и LLaMA), который уменьшает их объём до 36% без длительного дообучения. Технология позволяет мощному ИИ работать даже на мобильных устройствах, сообщили в пресс-службе Института искусственного интеллекта и цифровых наук. Исследователи НУЛ матричных и тензорных методов в машинном обучении применили подход, вдохновлённый древнегреческим мифом о Прокрусте. Подобно тому, как мифический разбойник «подгонял» путников под размеры своего ложа, математический метод ProcrustesGPT «поворачивает» веса нейросети в пространстве, подгоняя их под более простую и компактную структуру. Эти преобразования называются ортогональными. Если объяснять просто: представьте, что вы поворачиваете лист бумаги с чертежом. Длины линий и углы остаются теми же, но сам чертёж можно сложить компактнее. В случае с ИИ такой «поворот» позволяет заменить сложные вычисления на структурированные матрицы, которые занимают на 25–36% меньше

Исследователи НУЛ матричных и тензорных методов в машинном обучении применили подход, вдохновлённый древнегреческим мифом о Прокрусте. Подобно тому, как мифический разбойник «подгонял» путников под размеры своего ложа, математический метод ProcrustesGPT «поворачивает» веса нейросети в пространстве, подгоняя их под более простую и компактную структуру.

Эти преобразования называются ортогональными. Если объяснять просто: представьте, что вы поворачиваете лист бумаги с чертежом. Длины линий и углы остаются теми же, но сам чертёж можно сложить компактнее. В случае с ИИ такой «поворот» позволяет заменить сложные вычисления на структурированные матрицы, которые занимают на 25–36% меньше памяти. При этом точность ответов модели сохраняется на уровне 90–95% от оригинала, а в тестах с семейством LLaMA2 новый метод оказался точнее аналогов на 9–10%.

Эксперименты проводились на открытых моделях OPT и LLaMA2. Код метода уже выложен на GitHub, а результаты опубликованы в ACL Findings 2025.

«В основе нашей работы лежит изящная математическая концепция — задача Прокруста. Как и мифический герой, подгонявший путников под своё ложе, этот метод помогает найти идеальное ортогональное преобразование, которое подгоняет веса модели под простую структуру без искажения ее сути. Именно эта идея дала имя нашему методу — ProcrustesGPT — и стала ключом к сжатию без значительной потери качества», — объяснила Екатерина Гришина, стажёр-исследователь НУЛ матричных и тензорных методов в машинном обучении.

Ранее для сокращения объёма нейросетей требовалось их долгое и дорогое дообучение. Новый подход позволяет эффективно сжимать уже готовые модели, что критически важно для внедрения ИИ в смартфоны, бытовую технику и устройства интернета вещей (IoT). Руководитель лаборатории Максим Рахуба подчёркивает, что такие разработки делают искусственный интеллект доступнее в повседневной жизни.

Темпы развития технологий генеративного искусственного интеллекта в настоящее время опережают скорость их коммерческой окупаемости. Как рассказывала интернет-газета «ЖУК», несмотря на стремительное внедрение ИИ в различные сферы, рынок пока не успевает генерировать прибыль, соразмерную инвестициям в разработки.

Виолетта Биенко

Журналист

Гаджеты и электроника

5,73 млн интересуются