61 подписчик

Команда программистов сделала бесплатную копию Claude. Работает на вашей видеокарте

2 дня назад2 дня назад

7 мин

Если у вас есть игровая видеокарта и желание попробовать – вы можете прямо сегодня запустить нейросеть, которая по качеству рассуждений приближается к Claude от Anthropic. Бесплатно. Без подписок. Без отправки ваших данных в чужие дата-центры. На вашем собственном железе. Звучит как маркетинговое преувеличение? Я тоже сначала так подумал. Поэтому решил разобраться по фактам – что вышло на самом деле, и насколько это реальная альтернатива для бизнеса. На прошлой неделе команда под названием Empero AI выложила в открытый доступ модель с длинным техническим именем Qwythos-9B-Claude-Mythos-5-1M. Длинное название скрывает простую идею: разработчики взяли открытую модель Qwen3.5 от китайской Alibaba и долго учили её рассуждать в стиле Claude. На 500 миллионах примеров реальной работы Claude. Получилась маленькая бесплатная модель, которая мыслит похоже на свою «крёстную» – но при этом запускается у вас локально и не стоит ни рубля. В новостных лентах эту историю часто подают как «китайцы сде

Оглавление

Что произошло
А что вообще такое «дистилляция»
Что показали тесты

Звучит как маркетинговое преувеличение? Я тоже сначала так подумал. Поэтому решил разобраться по фактам – что вышло на самом деле, и насколько это реальная альтернатива для бизнеса.

Что произошло

На прошлой неделе команда под названием Empero AI выложила в открытый доступ модель с длинным техническим именем Qwythos-9B-Claude-Mythos-5-1M. Длинное название скрывает простую идею: разработчики взяли открытую модель Qwen3.5 от китайской Alibaba и долго учили её рассуждать в стиле Claude. На 500 миллионах примеров реальной работы Claude.

Получилась маленькая бесплатная модель, которая мыслит похоже на свою «крёстную» – но при этом запускается у вас локально и не стоит ни рубля.

В новостных лентах эту историю часто подают как «китайцы сделали свой Claude». Это неверно. Базовая модель действительно китайская – её разрабатывает Alibaba. Но саму дистилляцию провела международная команда Empero AI. И их продукт – это не «китайский Claude», а скорее «локальная копия части возможностей Claude», открытая всему миру.

А что вообще такое «дистилляция»

Это один из самых интересных приёмов в современном машинном обучении. Объясню на бытовом примере.

Представьте, что у вас в компании работает один очень опытный сотрудник. Он умеет блестяще решать задачи, но он один и стоит дорого. А вам нужно, чтобы такую же работу могли делать многие. Что делаете? Сажаете рядом с ним молодого специалиста. Полгода он смотрит, как старший решает задачи, разбирает с ним десятки кейсов, изучает логику его мышления. Через полгода у вас есть человек, который может, не во всём дотягивает до старшего, но мыслит похоже – и при этом работает у вас, а не где-то в другой компании за деньги.

Дистилляция нейросетей работает по тому же принципу. Берётся большая дорогая модель, которая отлично рассуждает. Из её работы извлекаются миллионы примеров «как она думает». На этих примерах обучается меньшая модель. В итоге маленькая «выучивает» способ мышления большой, но требует в десятки раз меньше ресурсов.

Qwythos – это и есть такая ученица. С Claude в роли учителя.

Что показали тесты

Команда Empero опубликовала результаты тестирования. Цифры впечатляют, но картина честная – не везде сплошные плюсы.

Главный прирост над базовой моделью Qwen3.5:

На стандартном тесте знаний MMLU – плюс 34 процентных пункта. Это огромный скачок.
На математических задачах GSM8K – плюс 30 пунктов.
На задачах с гибким форматом ответа – плюс 19 пунктов.

Это значит, что в задачах, требующих логического рассуждения и работы с числами, модель играет совсем в другой лиге, чем базовая. Но – и это важно – на некоторых других тестах прироста почти нет. На GPQA-Diamond (это узкоспециализированные научные вопросы уровня PhD) даже небольшое падение. ARC-Challenge практически без изменений.

Другими словами: это не универсальный «убийца Claude». Это сильный специалист в задачах reasoning, особенно в математической и аналитической сфере. И это уже немало.

Контекст в миллион токенов

Отдельная важная цифра – Qwythos удерживает в памяти за один раз до 1 048 576 токенов. Если перевести в обычные слова – это примерно объём «Войны и мира» Толстого целиком. За один раз.

На практике это означает, что модели можно отдать сразу весь корпоративный регламент, всю кодовую базу проекта или целую папку документов – и она будет работать со всем этим как с единым целым, ничего не забывая.

Главное – ваши данные остаются у вас

И вот мы подходим к тому, ради чего эта история вообще имеет значение для бизнеса.

Когда вы пользуетесь ChatGPT, Claude или Gemini, вы отправляете свои данные на серверы американских компаний. Иногда – через интересные маршруты с пересадками. Каждый ваш запрос – это маленькая утечка корпоративной информации. Для большинства задач это терпимо. Для некоторых – категорически нет.

Локальная модель решает эту проблему радикально. Ваш сервер. Ваше железо. Ваш периметр безопасности. Данные никуда не уходят.

Кому это критически важно прямо сейчас:

Банкам и финансовым организациям. Они работают с банковской тайной и персональными данными клиентов. Любая отправка такой информации в чужое облако – риск регуляторных штрафов.
Юридическим фирмам. Конфиденциальность клиента – основа репутации. Документы клиента не должны попадать вообще никуда, кроме внутреннего периметра фирмы.
Медицинским организациям. Медицинская тайна, истории болезней, диагнозы – одна из самых регулируемых областей в мире.
Корпорациям с серьёзным R&D. Формулы, инженерные решения, ноу-хау. Всё, что составляет конкурентное преимущество, не должно становиться материалом для обучения чужих моделей.

Для этих категорий локальная нейросеть с качеством, близким к Claude, – это не «прикольная игрушка», а полноценный рабочий инструмент.

Как это попробовать

Технический порог входа значительно ниже, чем был ещё пару лет назад. Если в команде есть один технический специалист – запустить локально можно за один вечер.

Что понадобится:

Минимум – видеокарта с 16 гигабайтами памяти. Подойдёт RTX 4080 или 4090, то есть обычная игровая, не серверная. На такой можно гонять модель в квантованной (упрощённой) версии Q4_K_M – её размер около 7 гигабайт. Для длинного контекста и серьёзной работы нужны уже более мощные карты вроде H100.

Сам процесс запуска сводится к трём действиям:

Установить Ollama или LM Studio. Первая – через командную строку, вторая – через обычный графический интерфейс. Обе программы бесплатные для Windows, Mac и Linux. Установка – буквально пара минут.
Скачать саму модель. Официальная страница на Hugging Face: huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M. Самый быстрый вариант – через Ollama одной командой в терминале: ollama run hf.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF:Q4_K_M. Она автоматически скачает и запустит. Если хочется ручного контроля – можно скачать файлы прямо со страницы Hugging Face и подключить их через LM Studio.
Подключить свои системы. И Ollama, и LM Studio дают локальный API в том же формате, что у OpenAI. То есть весь софт, который у вас уже работает с ChatGPT, можно переключить на локальную модель, просто поменяв адрес сервера. Не надо переписывать интеграции, не надо переучивать сотрудников.

Дальше – тестирование на своих реальных задачах. Сравните качество ответов с тем, что вы получаете от облачных моделей. На каких задачах хватает локальной, на каких нужна облачная – это и определит вашу финальную архитектуру.

Подводные камни, о которых мало кто говорит

Чтобы картина была честной, нужно проговорить и риски.

Модель без встроенной цензуры. Это значит, что в отличие от Claude или ChatGPT, она не будет отказываться отвечать на чувствительные вопросы. Для исследовательских задач это плюс. Для клиентского чат-бота, который видят ваши пользователи, – серьёзный риск. Понадобится свой слой модерации, который будет фильтровать ответы перед показом конечному пользователю.

Затраты на железо. RTX 4090 стоит порядка 250 тысяч рублей. Серверная H100 – миллионы. Это разовая инвестиция, но не маленькая. Считайте экономику: если у вас 5 человек используют ChatGPT Plus по 2000 рублей в месяц, своё железо окупится через несколько лет. Если у вас 50 человек или интенсивная корпоративная работа – окупаемость становится быстрой.

Нужен технический специалист. Это не «купил подписку и забыл». Нужен человек, который установит, настроит, поддержит, обновит. Если в команде такого нет – запуск превратится в постоянную головную боль. Решается аутсорсом или партнёрством с интегратором, но эта статья расходов часто упускается из первичной оценки.

Что в итоге

Год назад «локальная альтернатива Claude» звучала как анекдот. Технологии открытых моделей отставали от закрытых в разы. Сегодня этот разрыв сократился до приемлемого минимума.

Это не означает, что облачные модели больше не нужны. Они по-прежнему лидируют по качеству и удобству. Но появилась реальная альтернатива – для тех, кому важна приватность данных или экономия на длинной дистанции.

И ещё одна интересная новость: Empero уже анонсировали более мощную версию Qwythos на 27 миллиардов параметров. Если динамика прогресса сохранится, к концу 2026 года локальные модели могут вплотную приблизиться к фронтирным облачным решениям. Прямо сейчас – правильный момент начать осваивать инструментарий локального ИИ, чтобы к моменту, когда он станет мейнстримом, у вас уже была накопленная экспертиза.

Полный технический разбор с инструкциями по запуску и бесплатным чек-листом «15 точек готовности компании к локальному ИИ» опубликован в блоге HOCK Training.

А если хотите системно разобраться с применением нейросетей в работе – загляните в раздел курсов по адресу hocktraining.com/page/kursy-po-nejrosetyam. Программы построены на практических кейсах, без воды и абстрактных «представим, что» – от базовых инструментов до продвинутой автоматизации с локальными моделями.

#нейросети #искусственныйинтеллект #Claude #Qwen #openSource #локальныйИИ #нейросетидлябизнеса #ИИвбизнесе #дистилляция #ChatGPT #конфиденциальность #безопасностьданных #технологии #IT #бизнес #автоматизация #будущее