10,3 тыс подписчиков
⚡️ INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров.
Prime Intellect объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.
Процесс построен на опубликованном ранее OpenDiLoCo — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.
Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.
Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.
▶️Детали проекта INTELLECT-1
INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных, который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.
В обучении используется планировщик скорости обучения WSD , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.
▶️Prime: фреймворк для децентрализованного обучения.
Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:
🟢ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи;
🟢Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки;
🟢Восстановление чекпоинтов в реальном времени;
🟢Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов;
🟢Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN.
🟢Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели.
🟢Выгрузка тензоров в CPU.
Дорожная карта Prime:
🟠Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода;
🟠Разработка системы безопасного и проверяемого вклада в децентрализованное обучение;
🟠Создание фреймворка для инициации децентрализованного цикла обучения.
Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU.
Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке.
▶️Локальная установка и запуск фреймворка Prime:
# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env
# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive
# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml
# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml
📌Лицензирование кода : Apache 2.0 License.
#AI #ML #LLM #Decentralized #Training
2 минуты
13 октября 2024