2005 подписчиков

Технически сложный пост

2 июня 20252 июн 2025

~1 мин

Технически сложный пост... Короче, вот что я вынес из треда на r/LocalLLaMA (мой свободный перевод). Народ активно обсуждает, какие модели ИИ они юзают, и делятся впечатлениями. Новые модели типа DeepSeek-R1-0528 и Claude 4 вызывают интерес, но многие всё ещё гоняют Qwen 3 32B (75 лайков у комента) и Gemma 3 27B (49 лайков) для кодинга, креатива и общего использования. Кто-то на ноуте тянет Qwen 3 4B, но жалуется на скорость, а у кого 32 ГБ RAM — те хвалят 30B-модели за шустрость. Локально на 2x 3090 через llama.cpp тянут 32B-модели с 34k контекстом — обработка промпта 489 токенов/сек, генерация 14,55 токенов/сек, что реально неплохо. Модели, типа DeepSeek-R1 8B, рвут на задачах вроде ролевых симуляций, хоть и жрут до 8000 токенов. Gemma 3 12B и 27B хвалят за RAG и саммаризацию, а Qwen 3 32B — за кодинг и агентские задачи. Кто-то на 8 ГБ VRAM сидит и довольствуется моделями до 8B, типа llama3.1:8b. А ещё есть чувак, который на RTX 3060 6GB и 16 ГБ RAM гонит Qwen 30B на 15-20 токено

Технически сложный пост...

Короче, вот что я вынес из треда на r/LocalLLaMA (мой свободный перевод). Народ активно обсуждает, какие модели ИИ они юзают, и делятся впечатлениями. Новые модели типа DeepSeek-R1-0528 и Claude 4 вызывают интерес, но многие всё ещё гоняют Qwen 3 32B (75 лайков у комента) и Gemma 3 27B (49 лайков) для кодинга, креатива и общего использования.

Кто-то на ноуте тянет Qwen 3 4B, но жалуется на скорость, а у кого 32 ГБ RAM — те хвалят 30B-модели за шустрость. Локально на 2x 3090 через llama.cpp тянут 32B-модели с 34k контекстом — обработка промпта 489 токенов/сек, генерация 14,55 токенов/сек, что реально неплохо.

Модели, типа DeepSeek-R1 8B, рвут на задачах вроде ролевых симуляций, хоть и жрут до 8000 токенов. Gemma 3 12B и 27B хвалят за RAG и саммаризацию, а Qwen 3 32B — за кодинг и агентские задачи.

Кто-то на 8 ГБ VRAM сидит и довольствуется моделями до 8B, типа llama3.1:8b. А ещё есть чувак, который на RTX 3060 6GB и 16 ГБ RAM гонит Qwen 30B на 15-20 токенов/сек — респект!

Ну а что мы? Gemini 2.0 flash lite в рамках free tier :)