Найти в Дзене
2 подписчика

Метод обучения для улучшения рассуждений ИИ с использованием постепенного усиления контроля


“`html
Прогрессивная система обучения для улучшения рассуждений искусственного интеллекта через слабое крепкое руководство

Поскольку большие языковые модели превосходят возможности человека, обеспечение точного руководства становится все более сложным. Метод слабого-к-сильному обучению, который использует менее способную модель для улучшения более сильной, предлагает потенциальные преимущества, но требует тестирования для сложных задач рассуждения. Этот метод в настоящее время не обладает эффективными техниками для предотвращения имитации более сильной моделью ошибок менее сильной модели. По мере продвижения искусственного интеллекта к искусственному общему интеллекту (ИОИ), создание сверхинтеллектуальных систем вносит значительные вызовы, особенно в области надзора и парадигм обучения. Традиционные методы, опирающиеся на человеческий надзор или продвинутое руководство модели, становятся недостаточными по мере того, как возможности искусственного интеллекта превышают возможности их наблюдателей.
Практические решения и ценность:

Исследователи из Университета Шанхайского Цзяотун, Университета Фудан, Шанхайской лаборатории искусственного интеллекта и GAIR разработали прогрессивную систему обучения, позволяющую сильным моделям автономно улучшать свои обучающие данные. Этот подход начинается с контролируемой тонкой настройки на небольшом качественном наборе данных, за которой следует оптимизация предпочтений с использованием контрастных образцов, выявленных сильной моделью. Эксперименты на наборах данных GSM8K и MATH показывают значительные улучшения в способностях рассуждения Llama2-70b при использовании трех различных слабых моделей. Эффективность системы демонстрируется далее с помощью Llama3-8b-instruct, наблюдающей за Llama3-70b на сложном наборе данных OlympicArena, открывая путь к улучшенным стратегиям рассуждения искусственного интеллекта.
Автоматизированное улучшение задач и соответствие инструкциям человека:

Большие языковые модели улучшают решение задач и соответствие инструкциям человека через контролируемую тонкую настройку (SFT), которая опирается на качественные обучающие данные для значительного улучшения производительности. Это исследование рассматривает потенциал обучения от слабого наблюдения. Соответствие больших языковых моделей человеческим ценностям также требует RLHF и непосредственной оптимизации предпочтений (DPO). DPO упрощает перепараметризацию функций вознаграждения в RLHF и имеет различные стабильные и производительные варианты, такие как ORPO и SimPO. В математическом рассуждении исследователи сосредотачиваются на методах подсказок и генерации высококачественных вопросно-ответных пар для тонкой настройки, что значительно улучшает способности решения проблем.
Цель слабого-к-сильному методу обучения:

Метод слабого-к-сильному обучению нацелен на максимизацию использования слабых данных и улучшение способностей сильной модели. На этапе I потенциально положительные образцы выявляются без истинных данных и используются для контролируемой тонкой настройки. Этап II включает использование полных слабых данных, сосредотачиваясь на потенциально негативных образцах через методы предпочтительного обучения, такие как DPO. Этот метод улучшает сильную модель, учась на ошибках слабой модели. Ответы сильной модели выбираются случайным образом, и уровни уверенности используются для определения надежных ответов. Создаются...


Метод обучения для улучшения рассуждений ИИ с использованием постепенного усиления контроля  “`html Прогрессивная система обучения для улучшения рассуждений искусственного интеллекта через...
3 минуты