17 подписчиков

Сбер на ICLR 2026: четыре научные работы по анализу текста, устойчивому обучению, моделированию и видео

ВчераВчера

3 мин

30 апреля 2026 года на конференции ICLR 2026 в Рио-де-Жанейро исследователи Сбера совместно с российскими и зарубежными коллегами представили четыре научные работы. ICLR (International Conference on Learning Representations) — одна из главных мировых площадок по машинному обучению, и присутствие российской команды на основном треке конференции само по себе примечательно. Тематика работ разнородна: тест для оценки языкового понимания, метод устойчивого обучения нейросетей, ускоренное моделирование сложных систем и обработка видео. Единый продукт за этим не стоит — скорее демонстрация широты направлений, которые Сбер ведёт в академическом контексте. Совместно с зарубежными коллегами исследователи разработали бенчмарк HUME — инструмент для сравнения того, как люди и языковые модели справляются с анализом текста. Тест охватывает классификацию, кластеризацию, поиск похожих текстов и ранжирование. Результаты неоднозначные. В среднем люди показали точность 77,6%, лучшие ИИ-модели — 80,1%. Фор

Оглавление

Тест HUME: кто лучше понимает текст
Clip-SGD: обучить один раз и получить предсказуемый результат
Геометрия Грассмана для инженерных расчётов

Тематика работ разнородна: тест для оценки языкового понимания, метод устойчивого обучения нейросетей, ускоренное моделирование сложных систем и обработка видео. Единый продукт за этим не стоит — скорее демонстрация широты направлений, которые Сбер ведёт в академическом контексте.

Тест HUME: кто лучше понимает текст

Совместно с зарубежными коллегами исследователи разработали бенчмарк HUME — инструмент для сравнения того, как люди и языковые модели справляются с анализом текста. Тест охватывает классификацию, кластеризацию, поиск похожих текстов и ранжирование.

Результаты неоднозначные. В среднем люди показали точность 77,6%, лучшие ИИ-модели — 80,1%. Формально машина выигрывает. Но на задачах со сложными языковыми конструкциями и тонкими смысловыми различиями человек по-прежнему точнее.

Здесь есть ещё один слой. Исследование зафиксировало, что люди сами нередко расходятся во мнениях о правильном ответе. Это создаёт проблему при обучении: модели запоминают противоречивые шаблоны и воспроизводят их. HUME предлагают использовать именно для выявления таких слабых мест в существующих тестах — то есть это не только замер производительности, но и инструмент аудита данных.

Clip-SGD: обучить один раз и получить предсказуемый результат

Вторая работа, принятая на основной трек ICLR 2026, посвящена устойчивости обучения нейросетей. Проблема известная: случайные факторы (инициализация весов, порядок данных) могут давать заметно разные результаты от запуска к запуску. На практике это означает необходимость усреднять итоги множества тренировочных прогонов.

Авторы провели строгий математический анализ метода Clip-SGD — алгоритма градиентного спуска с ограничением на размер шага — применительно к последней итерации обучения, а не к среднему по всем. Результат: модель можно обучить один раз и получить предсказуемый, воспроизводимый результат.

Для промышленного применения это важнее, чем кажется. В медицинских диагностических системах, автопилотах и финансовых сервисах нестабильный результат обучения — прямой риск. Если метод подтвердится на практике в этих областях, речь идёт о реальном снижении затрат на разработку и валидацию моделей.

Геометрия Грассмана для инженерных расчётов

Команда Сбера совместно с AIRI и Сколтехом предложила подход к ускорению моделирования сложных систем. Нейросеть обучается предсказывать структуру решения задачи по её параметрам, используя математический аппарат геометрии Грассмана — раздела, описывающего пространства подпространств.

Вместо полного расчёта с нуля для каждого нового сценария система подбирает подходящее решение на основе ранее изученных примеров. По данным авторов, это снижает количество ошибок на 10–30% в задачах моделирования дифференциальных уравнений, оптимизации и управления сложными системами.

Заявленные области применения — нефтегаз, авиация, финансовый сектор. Общее у них одно: нужно быстро считать и ошибаться дорого.

Плавное видео без артефактов

На воркшопе конференции те же три организации — Сбер, AIRI, Сколтех — представили модель для улучшения качества видео. Ключевое отличие от стандартных методов: вместо покадрового анализа модель учитывает связь между соседними кадрами и восстанавливает логику движения во времени.

Практический эффект — устранение дерганий, скачков и разрывов в изображении. Сценарии применения: видеозвонки, архивное видео, спортивные трансляции, камеры наблюдения.

Четыре работы, ни одного продукта

Сбер подал эти разработки под тезисом «полезный и надёжный ИИ» — формулировка широкая, намеренно охватывающая всё сразу. За конференцией компания также организовала нетворкинг-митап на 200 участников из США, ОАЭ, Индии и других стран, где показала GigaChat и Kandinsky.

Четыре академические работы — хорошая заявка на научную состоятельность. Реальный вопрос в другом: какая из этих разработок дойдёт до продуктов и в каком виде. Устойчивое обучение через Clip-SGD и геометрический метод моделирования выглядят практичнее остальных — там есть измеримые результаты и понятные отраслевые сценарии. HUME интересен как исследовательский инструмент, но его судьба зависит от того, примет ли его сообщество в качестве стандарта. Видеомодель пока показана только на воркшопе, а не на основном треке.