Локальный Мозг

Динозавры вымерли. И большие языковые модели — тоже. Эволюция ИИ только начинается

Почему гонка за параметрами и контекстом — тупик, а будущее за стаей маленьких, быстрых и энергоэффективных агентов. И как мой эксперимент с Nemotron это доказывает. Вечер. Чай. Диспетчер задач. Логи LM Studio. Моя модель — Nemotron 3 Nano 4B в квантизации Q8_0. Малышка на 4 миллиарда параметров. На ней я гонял OpenClaw, заставлял искать в интернете, писать код, анализировать книги. И я заметил странную вещь. Модель могла выдать огромную генерацию на 50K токенов и почти не тронуть память. Но когда я давал ей 10 маленьких задач по 5K токенов — память раздувалась как снежный ком...

1 месяц назад

Как прочитать любую книгу за 15 минут с помощью локального ИИ — гайд для новичков

Всё, что нужно: ПК, локальная LLM, 15 минут времени и сама книга. Подробный гайд для тех, кто ещё никогда не пользовался локальными моделями. Любому пользователю ПК со средними характеристиками. Конкретные требования к ПК: Видеокарта - от 4 ГБ VRAM ОЗУ - от 16 ГБ Можно и с меньшими характеристиками по видеокарте, но скорость будет значительно медленнее. Первым делом скачиваем программу, через которую будем общаться с LLM. Называется она LM Studio — прекрасный продукт как для новичков, так и для профессионалов...

1 месяц назад

Я думал, LLM жрёт память из-за контекста. А она оказалась жадной до другого. Мой эксперимент с OpenClaw и LM Studio

Как я провёл вечер с диспетчером задач, логами и моделью на 4B параметров. Выяснил, что убивает память на самом деле. И нашёл способ увеличить количество сессий без покупки новой видеокарты. Я сидел вечером за компьютером, пил чай и смотрел на диспетчер задач. Потом переключался на логи LM Studio. Потом снова на диспетчер задач. Потом — на выводы OpenClaw. В моей голове постепенно возник вопрос, как так получается, что одна и та же ЛЛМ тратит разное количество RAM и VRAM независимо от сложности...

1 месяц назад

Ubuntu Server с нуля за 30 минут: мой лог первичной настройки для оркестратора LLM

Ставим Ubuntu Server на старенький HP 15, настраиваем SSH, статический IP, firewall и готовим платформу для OpenClaw. Без графики, без лишнего, только терминал и 450 МБ ОЗУ. Мне в голову пришёл небольшой проект: на стареньком ноутбуке HP 15 запустить оркестратор для интеграции в мой мессенджер. Оркестратор будет работать с обычными пользователями, поэтому мы дадим ему жёсткие настройки безопасности — чтобы неопытный пользователь не смог случайно навредить инфраструктуре. В качестве оркестратора будем использовать OpenClaw, установленный на плату этого ноутбука...

1 месяц назад

Что будет, если дать ИИ контекст в 800 000 токенов? Тест Nemotron до предела

Реальные тесты на RTX 4060 (8 ГБ) и 24 ГБ ОЗУ. Честные цифры, никакой магии. И да — модель не зависла даже на 800К 1. Вступление Все любят локальные LLM за приватность, но мало кто честно говорит о границах. Сколько контекста можно дать модели, чтобы она не превратилась в черепаху? Где та грань, после которой скорость падает в 5 раз, а память уходит в оперативку? Я взял Nemotron 3 Nano 4B в квантизации Q8_0, посадил её на связку RTX 4060 (8 ГБ VRAM) + 24 ГБ ОЗУ и прогнал через 10 тестов — от скромного 1К токенов до экстремальных 800К...

1 месяц назад

Квантизация нейросетей простыми словами: как уменьшить модель в 4 раза без потери ума

Никаких формул. Только аналогии, примеры и честные цифры. После прочтения вы будете понимать, что такое Q4, Q8 и почему маленькая модель иногда лучше большой. 1. Для тех, кто не в теме: что такое квантизация Представьте, что у вас есть огромная библиотека. В ней миллионы книг, и каждая написана очень сложным, витиеватым языком с редкими словами. Вы хотите перевезти эту библиотеку в другой город. Грузовиков не хватает. Что делать? Ответ: переписать каждую книгу более простым языком, сократив редкие слова, но сохранив смысл...

1 месяц назад

Ollama vs LM Studio: какой инструмент для локального ИИ выбрать новичку и профи

Консоль против красивого интерфейса. Скорость против удобства. Бесплатно и без облаков. Разбираемся, что выбрать. 1. Для тех, кто не в теме: что это вообще такое? Ollama и LM Studio — это программы, которые позволяют запускать большие языковые модели (LLM) прямо на вашем компьютере. Без интернета, без API-ключей, без отправки данных в облако. Вы скачиваете модель (один файл), открываете программу — и можете задавать вопросы, генерировать код, анализировать документы. Всё локально. Но подход у них совершенно разный...

1 месяц назад

Вся правда о локальном ИИ: почему я не пользуюсь ChatGPT и вам не советую

Это — первая статья в моём канале «Локальный мозг». Если захотите больше живых примеров, схем и конфигов — подписывайтесь в ВК: ссылка в конце материала. Приватно, бесплатно, работает без интернета. И да — это можно запустить даже на старом ноутбуке. 1. Что такое локальный ИИ простыми словами Большинство людей думают, что искусственный интеллект — это обязательно ChatGPT, «Яндекс.Алиса» или какой-нибудь Claude. Заходишь на сайт, печатаешь вопрос, сервер где-то в дата-центре думает и выдаёт ответ...

1 месяц назад