Uma Blog | Дзен

Дневник маркетолога: как перестать жонглировать вкладками с нейросетями и вернуть себе здоровый сон с UMA AI

Сначала я думал, что очередной хайп. Ну, знаете, как это бывает: «ИИ заменит всех», «волшебная кнопка — бабло». Потом посмотрел внимательнее на свои счета за месяц и понял: я не маркетолог, я — спонсор Кремниевой долины. В какой-то момент в моём браузере было открыто 18 вкладок. В одной — ChatGPT, в другой — MidJourney (через костыли и Discord), в третьей — Claude (который вечно капризничает из-за VPN), в четвёртой — какая-то говорилка для озвучки… И за всё это капали баксы. Мой сон? Он ушёл вместе с лишними 200 долларами в месяц на подписки...

2 месяца назад

DeepSeek-V3.1 теперь можно запускать локально Unsloth сделали то, что еще год назад казалось невозможным — ужали модель весом 715 ГБ до 170 ГБ, почти без потерь в качестве. Они использовали динамическую квантовку: важные слои остаются в 6–8 бит, а менее критичные ужимаются до меньшей разрядности. При этом для калибровки брали 2–3 миллиона токенов хороших данных, чтобы веса не «поехали». В итоге получились динамические 1-бит GGUF, которые запускаются на обычном «железе» с 170 ГБ RAM. Есть даже однофайловая сборка TQ1_0 — удобно для Ollama. Параметры по умолчанию: --jinja (иначе не заработает чат-шаблон) можно включать рассуждения: thinking = True рекомендовано --temp 0.6 --top_p 0.95 MoE-слои лучше выгружать в RAM (-ot ".ffn_.*_exps.=CPU") для длинного контекста используйте KV-квантовки (q4_0, q5_1, iq4_nl и др.) Пример запуска: ollama run hf.co/unsloth/DeepSeek-V3.1-GGUF:TQ1_0 --temp 0.6 --top_p 0.95 --jinja моё мнение Круто, что они пошли по пути умной квантовки, а не просто «урезать всё подряд». Так модель не теряет ключевые навыки. Я думаю, что в будущем можно пойти еще дальше: брать средние модели (32B, 70B) и ужимать их до размеров уровня ниже, сохраняя качество. делать набор «специализированных» моделей: например, маленькая 0.5B для JSON-линтинга, 3B для загрузки документов, 9B для поиска по вебу. Вместо одной «универсальной» модели на 32B, которая делает всё, но медленно и средне. тренировать сразу с прицелом на квантовку (quantization-aware training), чтобы качество вообще не падало при сжатии. Еще год назад 1.5B казались игрушкой, а теперь реально можно собрать рабочий стек из кучи небольших моделей, каждая из которых делает своё дело лучше, чем один «монстр». И да — приятно, что теперь запустить самую большую опенсорс-модель локально можно без серверной фермы. 🔗 Веса - клик (huggingface.co/...guf) ✔️ Все полезные нейронки тут (umaai.site) 👾 Друг Опенсурса (t.me/...net)

9 месяцев назад

🚀 Alibaba представила Qoder — новую AI-IDE для «вайбкода» Волна умных IDE продолжает расти: Cursor, Windsurf, Kiro, Zed… Теперь к списку присоединился Qoder от Alibaba. Главное: - Автоподбор модели — Qoder сам выбирает лучшую LLM для задачи. - Chat Mode — быстрые итерации и правки через чат. - Quest Mode — пишешь нормальное ТЗ, и агент работает сам. Возможности: - Понимание структуры проекта, архитектуры и истории изменений. - To-Do листы и трекинг действий. - Прозрачность: видно, что делает агент и зачем. - Для больших проектов — автоматическая индексация кода и карта проекта. В отличие от IDE-демо с одним промптом, Qoder делает ставку на реальный продакшн-код: видимость, контроль и долгосрочную пользу от AI. 🔗 Сейчас IDE доступна в открытом превью и бесплатна. Скачать можно тут (https://qoder.com/) ✔️ Все полезные нейронки тут (https://umaai.site/) 👾 Друг Опенсурса (https://t.me/tch_net) (https:/...et)

9 месяцев назад

🚀 GLM 4.5V : Лучший LLM Vision с открытым исходным кодом Я уже писал про Z.ai и их крутейшую вундервафлю - GLM 4.5. На момент обзора это был лидер среди опенсурсных моделек. И вот не прошло и недели, как ребята релизнули Vision версию! Если смотреть на метрики Vision - то модель не уступает современным лидерам компактных открытых моделей. Сама по себе модель хороша, так теперь и в визуал может! 🔗 Веса уже на HF - клик 🔗 GitHub - клик Модель имеет 12b активных и 106b параметров в общем, при своём не самом большом размере она обгоняет Qwen 2.5 Vl (72b) и Gemma 3 (27b). Действительно хорошие результаты. ✔️ Все полезные нейронки тут 👾 Друг Опенсурса

9 месяцев назад

* Знаете, когда хайпанули нейросети я начал верить в своеобразные приметы: Появилась новая модель на LMarena? — кто то тестирует своего монстра и скоро релиз Разработчики обмениваются зашифрованными приколами в Х? —скоро релиз Давно ничего не выпускали? — скоро релиз))) ахаха 🔥 Ну я думаю суть ясна, давайте ближе к делу: В Твиттере и на реддите в последнее время инсайдеры пишут о скором релизе новых моделей Gemini Image, a разрабы как бы намекают на это (см. скрин). Ну и куда без разговоров о Gemini 3, которая тоже ожидается в ближайшие 2 месяца Я же, очень жду именно Gemini 3, потому что верю, что как и Gemini 2, так и Gemini 2.5 это будет настоящий левел ап, а не как GPT 5, которая на деле даже немного хуже нынешних лидеров рынка. GPT 5 и другие тововые нейронки, кстати, может каждый потестить на umaai.site, без этих ваших впнов) ✔️ Все полезные нейронки тут 👾 Друг Опенсурса

9 месяцев назад