Найти в Дзене
Литжитал.хайтек

Что такое квантизация и почему она вредит точности больших ИИ-моделей

🔬 Квантизация, широко используемый метод повышения эффективности моделей искусственного интеллекта (ИИ), может иметь ограничения. 📈 Квантизация заключается в уменьшении количества битов, необходимых для представления информации в моделях ИИ. Однако новое исследование показывает, что квантизированные модели могут работать хуже, если исходная модель была обучена на большом объёме данных в течение длительного времени. 💰 Снижение точности квантизации может привести к ухудшению качества ответов больших языковых моделей. Это может стать проблемой для компаний, занимающихся обучением чрезвычайно больших моделей и последующей квантизацией для снижения затрат на обслуживание. ⚙️ Производители оборудования, такие как Nvidia, продвигают использование более низкой точности для квантизированных выводов моделей. Но слишком низкая точность квантизации может быть нежелательной. 📝 В целом, исследование подчёркивает, что модели ИИ не полностью изучены, и известные методы, работающие во многих видах
Оглавление

Сперва главное:

🔬 Квантизация, широко используемый метод повышения эффективности моделей искусственного интеллекта (ИИ), может иметь ограничения.

📈 Квантизация заключается в уменьшении количества битов, необходимых для представления информации в моделях ИИ. Однако новое исследование показывает, что квантизированные модели могут работать хуже, если исходная модель была обучена на большом объёме данных в течение длительного времени.

💰 Снижение точности квантизации может привести к ухудшению качества ответов больших языковых моделей. Это может стать проблемой для компаний, занимающихся обучением чрезвычайно больших моделей и последующей квантизацией для снижения затрат на обслуживание.

⚙️ Производители оборудования, такие как Nvidia, продвигают использование более низкой точности для квантизированных выводов моделей. Но слишком низкая точность квантизации может быть нежелательной.

📝 В целом, исследование подчёркивает, что модели ИИ не полностью изучены, и известные методы, работающие во многих видах вычислений, здесь не подходят.

Теперь подробнее:

Один из наиболее широко используемых методов повышения эффективности моделей искусственного интеллекта, квантизация, имеет свои пределы — и индустрия может быстро к ним приблизиться.

В контексте искусственного интеллекта квантизация означает уменьшение количества битов — наименьших единиц, которые компьютер может обработать, — необходимых для представления информации. Рассмотрим такую аналогию: когда кто-то спрашивает время, вы, вероятно, скажете «полдень», а не «тысяча двести часов одна секунда и четыре миллисекунды». Это и есть квантизация; оба ответа верны, но один немного точнее. Сколько точности вам на самом деле нужно, зависит от контекста.

Модели искусственного интеллекта состоят из нескольких компонентов, которые можно квантизировать, в частности, параметров — внутренних переменных, которые модели используют для прогнозирования или принятия решений. Это удобно, учитывая, что модели выполняют миллионы вычислений при запуске. Квантованные модели с меньшим количеством битов, представляющих их параметры, менее требовательны математически и, следовательно, вычислительно.

Но квантизация может иметь больше компромиссов, чем предполагалось ранее.

Согласно исследованию, проведённому исследователями из Гарварда, Стэнфорда, Массачусетского технологического института, Databricks и Карнеги-Меллона, квантованные модели работают хуже, если исходная неквантованная версия модели обучалась в течение длительного периода времени на большом объёме данных. Другими словами, в определённый момент может быть лучше просто обучить меньшую модель, а не уменьшать большую.

Это может стать плохой новостью для компаний, занимающихся искусственным интеллектом, которые обучают чрезвычайно большие модели (известно, что это улучшает качество ответов), а затем квантуют их, чтобы сделать их обслуживание менее затратным.

Последствия уже проявляются. Несколько месяцев назад разработчики и учёные сообщили, что квантизация модели Llama 3 от Meta оказалась «более вредной» по сравнению с другими моделями, возможно, из-за способа её обучения.

«На мой взгляд, затраты номер один для всех в области искусственного интеллекта были и будут оставаться логическими выводами, и наша работа показывает, что один важный способ их снижения не будет работать вечно», — сказал TechCrunch Таниш Кумар, студент Гарварда по математике и первый автор статьи.

Вопреки распространённому мнению, логический вывод модели искусственного интеллекта — запуск модели, например, когда ChatGPT отвечает на вопрос, — часто обходится дороже, чем обучение модели. Например, считается, что Google потратил около 191 миллиона долларов на обучение одной из своих флагманских моделей Gemini — определённо королевская сумма. Но если бы компания использовала модель для генерации ответов всего из 50 слов на половину всех поисковых запросов Google, она тратила бы примерно 6 миллиардов долларов в год.

Крупные лаборатории искусственного интеллекта приняли обучение моделей на огромных наборах данных, исходя из предположения, что «масштабирование» — увеличение объёма данных и вычислений, используемых при обучении, — приведёт к созданию всё более мощных систем искусственного интеллекта.

Например, Meta (признана экстремистской на территории РФ) обучила Llama 3 на наборе из 15 триллионов токенов. (Токены представляют собой фрагменты необработанных данных; 1 миллион токенов равен примерно 750 000 словам). Предыдущее поколение, Llama 2, было обучено на «всего» 2 триллионах токенов. В начале декабря Meta выпустила новую модель Llama 3.3 70B, которая, по заявлению компании, «улучшает основные характеристики при значительно меньших затратах».

Факты свидетельствуют о том, что увеличение масштаба в конечном итоге приводит к уменьшению отдачи; Сообщается, что Anthropic и Google недавно обучили огромные модели, которые не оправдали ожиданий внутренних тестов. Но нет никаких признаков того, что отрасль готова существенно отойти от этих устоявшихся подходов к масштабированию.

Итак, если лаборатории не хотят обучать модели на небольших наборах данных, есть ли способ сделать модели менее восприимчивыми к деградации? Возможно. Кумар говорит, что он и соавторы обнаружили, что обучение моделей с «низкой точностью» может сделать их более устойчивыми.

Под «точностью» здесь понимается количество цифр, которое числовой тип данных может точно представить. Типы данных — это коллекции значений данных, обычно определяемые набором возможных значений и разрешёнными операциями; например, тип данных FP8 использует только 8 бит для представления числа с плавающей запятой.

Большинство моделей сегодня обучаются с 16-битной или «полуточной» точностью и «после обучения квантуются» до 8-битной точности. Определённые компоненты модели (например, её параметры) преобразуются в формат с меньшей точностью за счёт некоторой точности. Представьте, что вы выполняете вычисления до нескольких знаков после запятой, а затем округляете до ближайшего десятого, часто получая лучшее из обоих миров.

Поставщики оборудования, такие как Nvidia, настаивают на более низкой точности для логического вывода квантованных моделей. Новый чип Blackwell компании поддерживает 4-битную точность, в частности тип данных под названием FP4; Nvidia представила это как благо для центров обработки данных с ограниченными ресурсами памяти и мощности.

Но чрезвычайно низкая точность квантования может быть нежелательной. По словам Кумара, если только исходная модель не является невероятно большой по количеству параметров, точность ниже 7–8 бит может привести к заметному снижению качества.

Если всё это кажется немного техническим, не волнуйтесь — так оно и есть. Но суть в том, что модели искусственного интеллекта не полностью изучены, и известные ярлыки, которые работают во многих видах вычислений, здесь не работают. Вы бы не сказали «полдень», если бы кто-то спросил, когда они начали бежать на 100 метров, верно? Конечно, это не так очевидно, но идея та же:

«Ключевой момент нашей работы заключается в том, что существуют ограничения, которые нельзя обойти наивно», — заключил Кумар. «Мы надеемся, что наша работа добавит нюансов в дискуссию, которая часто стремится к снижению точности по умолчанию при обучении и логических выводах».

Кумар признаёт, что его исследование и исследование его коллег проводились в относительно небольшом масштабе — в будущем они планируют протестировать его с большим количеством моделей. Но он считает, что по крайней мере одно понимание останется неизменным: бесплатного обеда не бывает, когда речь идёт о снижении затрат на логические выводы.

«Бит-точность имеет значение, и это не бесплатно», — сказал он. «Вы не можете снижать её бесконечно без ущерба для моделей. Модели имеют ограниченную ёмкость, поэтому вместо того, чтобы пытаться уместить квадриллион токенов в небольшую модель, я считаю, что гораздо больше усилий будет направлено на тщательную обработку и фильтрацию данных, чтобы в меньшие модели попадали только данные высочайшего качества. Я оптимистично настроен в отношении того, что новые архитектуры, специально направленные на обеспечение стабильности обучения с низкой точностью, будут важны в будущем».