На GitHub выложили бесплатный Claude Code
free-claude-code превращает платный Claude Code CLI в бесплатный инструмент через прокси к провайдерам с открытым доступом, сохраняя агентовую логику работы и позволяя выбирать модель под конкретную задачуhttps://github.com/Alishahryar1/free-claude-code#quick-starthttps://t.me/media1337/26079
Как запустить Claude Code без подписки Anthropic
Инструмент работает одинаково стабильно, потому что тяжёлая часть вычислений происходит на стороне провайдера, а не у вас локально. Прокси перехватывает запросы Claude Code в формате Anthropic API, переводит их в OpenAI-совместимый вид и отправляет выбранному бэкенду. Ответ возвращается в исходном формате, и CLI даже не замечает подмены.
Схема простая. Claude Code думает что общается с Anthropic. На самом деле запрос идёт на ваш локальный сервер на порту 8082. Тот перенаправляет его в NVIDIA NIM, OpenRouter или локальную LM Studio. Разница в задержке зависит от провайдера локальные модели отвечают быстрее, облачные могут добавлять 1-3 секунды на сетевой обмен.
Какие провайдеры работают с free-claude-code
Провайдеры делятся на две группы облачные с бесплатным лимитом и полностью локальные. У каждой группы свои ограничения и сценарии применения.
NVIDIA NIM даёт 40 запросов в минуту без привязки к токенам. Этого хватает на интенсивную работу с кодом в течение нескольких часов. Кредиты начисляются при регистрации — 1000 стартовых, можно запросить до 5000. Лимит не сгорает со временем, но предназначен для разработки, не для продакшена. Модели доступны в каталоге build.nvidia.com, среди них Qwen3.5, GLM-4.7, Step-3.5-Flash.
OpenRouter работает по другой модели там сотни моделей, часть бесплатная, часть платная по токенам. Бесплатные варианты вроде step-3.5-flash:free или deepseek-r1-0528:free подходят для экспериментов. Платные модели стоят от $1.5 за миллион токенов, что в 10 раз дешевле прямого доступа к Anthropic.
LM Studio и llama.cpp полностью локальные варианты. Никаких ключей, никаких лимитов, никаких сетевых задержек. Но нужна видеокарта с достаточным объёмом памяти. Для моделей уровня 7-14 млрд параметров желательно от 16 Гб VRAM, для 30+ млрд 24 Гб и выше. Скорость инференса зависит от железа на RTX 4090 можно получить 20-40 токенов в секунду, на интегрированной графике 2-5 токенов.
Как настроить NVIDIA NIM для бесплатного использования
Регистрация занимает минуту. Заходите на build.nvidia.com, создаёте аккаунт разработчика, переходите в раздел API Keys и генерируете ключ с префиксом nvapi- . Ключ копируете в файл .env проекта free-claude-code в переменную NVIDIA_NIM_API_KEY.
Дальше указываете модели. Формат названия nvidia_nim/вендор/модель. Например nvidia_nim/z-ai/glm4.7 для общей задачи, nvidia_nim/stepfun-ai/step-3.5-flash для быстрых запросов. Переменные MODEL_OPUS, MODEL_SONNET, MODEL_HAIKU позволяют назначить разные модели под разные уровни сложности запросов от Claude Code.
Переменная ENABLE_THINKING. Если выставить false, прокси скроет блоки рассуждений от модели, что ускоряет ответ, но лишает вас возможности видеть ход мысли агента. Для отладки сложных задач я оставляю true, для рутинных операций — false.
Как запустить локальные модели через LM Studio или llama.cpp
Локальный запуск требует предварительной подготовки. Для LM Studio скачиваете приложение с lmstudio.ai, загружаете модель в формате GGUF через встроенный поиск, запускаете локальный сервер на вкладке Developer. Сервер слушает localhost:1234 по умолчанию.
В файле .env указываете MODEL_PREFIX=lmstudio и базовый URL http://localhost:1234/v1. Имя модели может быть любым — llama-server игнорирует этот параметр при работе через Anthropic-совместимый эндпоинт.
llama.cpp требует ручной сборки или использования готовых бинарников. Запускаете llama-server с флагом —port 8080 и —model путь/к/файлу.gguf. Поддержка Anthropic Messages API появилась в начале 2026 года, так что убедитесь что версия не старше январской.
Локальные модели имеют преимущество в приватности — ваш код не покидает машину. Но есть и обратная сторона качество инференса зависит от квантования. Модели в формате Q4_K_M дают хороший баланс между скоростью и точностью, Q2_K работает быстрее но может терять в связности ответов.
пошаговая настройка free-claude-code за 10 минут
[√] Установить uv через pip install uv — это менеджер пакетов который гарантирует воспроизводимость окружения
[√] Склонировать репозиторий git clone https://github.com/Alishahryar1/free-claude-code.git и перейти в папку
[√] Скопировать .env.example в .env командой cp .env.example .env
[√] Заполнить переменные под выбранный провайдер — ключ для облачных, базовый URL для локальных
[√] Запустить прокси командой uv run uvicorn server:app —host 0.0.0.0 —port 8082
[√] В отдельном терминале запустить Claude Code с переменными ANTHROPIC_BASE_URL=http://localhost:8082 и ANTHROPIC_AUTH_TOKEN=freecc
Проверка работоспособности спросить у агента «какая модель сейчас активна». Если получили внятный ответ с названием модели из вашего конфига, настройка прошла успешно.
Интерактивный тест попросите агента прочитать текущую директорию и вывести список файлов. Это проверяет не только генерацию текста но и работу tool-calling критичный компонент для агентовой работы.
какие ограничения стоит учитывать при использовании бесплатных провайдеров
Скорость ответа на бесплатных тарифах может колебаться. В часы пик — обычно это рабочие часы в Азии и Европе задержка растёт из-за очередей на инференс. Я замечал разброс от 2 до 20 секунд на один запрос в зависимости от времени суток.
Качество моделей на бесплатных тарифах не всегда соответствует платным аналогам. Одна и та же задача может требовать 1-2 итераций на бесплатной модели против одного прохода на премиум. Это не баг, это компромисс между стоимостью и точностью.
Локальные модели требуют ресурсов. Если у вас слабое железо, инференс будет медленным, а в некоторых случаях модель просто не загрузится из-за нехватки памяти. Проверяйте требования к VRAM перед скачиванием больших моделей.
Ещё один момент совместимость с tool-calling. Не все модели одинаково хорошо генерируют структурированные вызовы инструментов. Я сталкивался с ситуациями когда модель возвращала JSON с синтаксической ошибкой, что ломало цепочку выполнения. Перед использованием новой модели в серьёзной задаче протестируйте её на простом сценарии с верифицируемым результатом.
как проверить что прокси работает корректно
Команда curl -H «Authorization: Bearer freecc» http://localhost:8082/v1/models вернёт список доступных моделей в формате совместимом с Claude. Это быстрый способ убедиться что сервер слушает и отвечает.
В самом Claude Code можно запустить диагностику — попросить агента выполнить команду которая читает файл, модифицирует его и сохраняет. Если все три шага прошли без ошибок, значит прокси корректно транслирует и запросы и ответы.
Для проверки rate limiting можно отправить серию из 50 быстрых запросов и посмотреть логи прокси. При превышении лимита в 40 запросов в минуту для NVIDIA NIM вы увидите ответы с кодом 429 и автоматическую паузу перед повторной попыткой.
Интересный тест переключить модель на лету через переменную окружения и перезапустить сессию. Если агент продолжает работу с новым бэкендом без потери контекста, значит маршрутизация настроена верно.
Не знаю точно как поведёт себя система при одновременной работе с тремя разными провайдерами теоретически возможно, но на практике я не тестировал такие сценарии. Где окажется баланс между гибкостью и стабильностью — неизвестно.