Добавить в корзинуПозвонить
Найти в Дзене

📰 ИИ за $1500: Как стартап Sapient перевернул игру с обучением нейросетей

Приветствую, гики и любители технологий! С вами TechLoot, и сегодня мы погрузимся в мир, где искусственный интеллект перестает быть уделом избранных и становится доступным каждому. Забудьте о многомиллионных бюджетах и гигабайтах данных, которые раньше были пропуском в клуб создателей мощных языковых моделей. Мы на пороге революции, которая перевернет представление о том, как обучаются LLM, и сделает ИИ по-настоящему демократичным. Готовы? Тогда поехали! Революция в обучении LLM: HRM-Text от Sapient Обучение фундаментальной большой языковой модели (LLM) с нуля обычно обходится в миллионы долларов и требует данных интернет-масштаба — именно поэтому большинство предприятий даже не пытаются этим заниматься. Компания Sapient считает, что нашла более дешевый путь. Чтобы преодолеть эту догму грубого масштабирования, исследователи из Sapient разработали HRM-Text, который заменяет стандартные Трансформеры высокоэффективной иерархической рекуррентной моделью (HRM) — архитектурой, которую они

 📰 ИИ за $1500: Как стартап Sapient перевернул игру с обучением нейросетей

Приветствую, гики и любители технологий! С вами TechLoot, и сегодня мы погрузимся в мир, где искусственный интеллект перестает быть уделом избранных и становится доступным каждому. Забудьте о многомиллионных бюджетах и гигабайтах данных, которые раньше были пропуском в клуб создателей мощных языковых моделей. Мы на пороге революции, которая перевернет представление о том, как обучаются LLM, и сделает ИИ по-настоящему демократичным. Готовы? Тогда поехали!

Революция в обучении LLM: HRM-Text от Sapient

Обучение фундаментальной большой языковой модели (LLM) с нуля обычно обходится в миллионы долларов и требует данных интернет-масштаба — именно поэтому большинство предприятий даже не пытаются этим заниматься. Компания Sapient считает, что нашла более дешевый путь.

Чтобы преодолеть эту догму грубого масштабирования, исследователи из Sapient разработали HRM-Text, который заменяет стандартные Трансформеры высокоэффективной иерархической рекуррентной моделью (HRM) — архитектурой, которую они впервые представили в прошлом году.

HRM разделяет вычисления на медленно развивающиеся стратегические и быстро развивающиеся исполнительные слои. Вместо грубого авторегрессионного предсказания по необработанному тексту, HRM-Text обучается исключительно на парах «инструкция-ответ». Это близко к реальным корпоративным условиям, где пользователи обычно ожидают целенаправленный ответ на конкретную задачу.

Исследователи смогли обучить HRM-Text с 1 миллиардом параметров с нуля за долю стоимости и с меньшим количеством токенов по сравнению с обычными LLM. Их модель достигла производительности, сопоставимой с гораздо более крупными открытыми моделями по ключевым отраслевым бенчмаркам.

Для реальных приложений ИИ это означает, что фундаментальное предварительное обучение больше не ограничивается учреждениями с большими ресурсами. С помощью HRM-Text организации могут недорого предварительно обучать свои собственные высокопроизводительные модели рассуждений с нуля и сочетать их с внешними хранилищами знаний.

Узкое место в обучении

Когда мы обучаем LLM, нам на самом деле не важно, запомнила ли она точную последовательность слов в случайной ветке Reddit 2014 года. Мы хотим, чтобы модель развила глубокое, лежащее в основе понимание человеческого языка, логики, фактов и рассуждений.

Нынешний подход — это грубая сила: парсить интернет, выполнять предсказание следующего токена триллионы раз и предполагать, что модель разработала рабочую внутреннюю модель мира.

По сути, это означает, что мы тратим миллионы долларов вычислительной мощности, заставляя модели запоминать все, что было собрано из интернета, просто для того, чтобы они могли косвенно научиться мыслить. Например, стандартные модели только с декодером тратят ценные вычисления на назначение потерь для восстановления самого запроса, хотя запрос пользователя уже известен и предоставляется во время инференса.

Вместо того, чтобы просто рассматривать это как вычислительное препятствие, отрасль должна признать это серьезным бизнес-ограничением. В комментариях, предоставленных VentureBeat, Гуань Ван, генеральный директор Sapient Intelligence, охарактеризовал это как проблему «экономики итераций».

«Предприятия сегодня сталкиваются с тремя усугубляющимися проблемами: обучение дорого, инфраструктура тяжелая, а циклы экспериментов слишком медленные», — сказал Ван....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут