Реальные тесты на RTX 4060 (8 ГБ) и 24 ГБ ОЗУ. Честные цифры, никакой магии. И да — модель не зависла даже на 800К
1. Вступление Все любят локальные LLM за приватность, но мало кто честно говорит о границах. Сколько контекста можно дать модели, чтобы она не превратилась в черепаху? Где та грань, после которой скорость падает в 5 раз, а память уходит в оперативку? Я взял Nemotron 3 Nano 4B в квантизации Q8_0, посадил её на связку RTX 4060 (8 ГБ VRAM) + 24 ГБ ОЗУ и прогнал через 10 тестов — от скромного 1К токенов до экстремальных 800К. Результаты вас удивят. Спойлер: качество ответа не деградирует даже на пределе. А вот скорость и память — совсем другая история. 2. Условия эксперимента (чтобы было честно) Почему честно: тесты проводились не на голой системе, а в реальных условиях — с музыкой, удалёнкой и открытыми вкладками. Так работает 99% пользователей. 3. Сводные результаты (таблица)
4. Анализ результатов (что всё это значит) Чтобы вам было проще понять таблицу, я разбил её на три