2009 подписчиков

Тут тип один заморочился и сделал тест ряда ИИ (топовых

17 июня 202517 июн 2025

~1 мин

Тут тип один заморочился и сделал тест ряда ИИ (топовых). Нужно было написать детский рассказ на 3000 слов. Если хотите деталей - сюда, а вот краткие выводы. Большие коммерческие модели вроде Claude Opus 4 и GPT-4.1 лучше всех — текст почти готов к печати, без явных ИИ-следов (на анг.), но Claude чуть человечнее, а GPT-4.1 веселее. Gemini 2.5 Flash выдаёт поэтичный текст... Локальные модели, типа Qwen3-8B, тянут при температуре 0.6-0.7, но выше — каша. DeepSeek-R1 — топ среди локальных, почти как коммерческие, но требует доработки. Мелкие модели дохнут на длинных текстах из-за лимита контекста (4k токенов), а большие — стабильнее. Цены: Claude Opus 4 — ~$0.31 за рассказ, DeepSeek-R1 — $0.01, а Grok 3 и Gemini бесплатны в веб-версиях. Выводы делайте сами, но на мой взгляд - все большие модели уже давно плюс- минус на одном уровне. Русский ИТ бизнес

Тут тип один заморочился и сделал тест ряда ИИ (топовых). Нужно было написать детский рассказ на 3000 слов. Если хотите деталей - сюда, а вот краткие выводы.

Большие коммерческие модели вроде Claude Opus 4 и GPT-4.1 лучше всех — текст почти готов к печати, без явных ИИ-следов (на анг.), но Claude чуть человечнее, а GPT-4.1 веселее. Gemini 2.5 Flash выдаёт поэтичный текст...

Локальные модели, типа Qwen3-8B, тянут при температуре 0.6-0.7, но выше — каша. DeepSeek-R1 — топ среди локальных, почти как коммерческие, но требует доработки. Мелкие модели дохнут на длинных текстах из-за лимита контекста (4k токенов), а большие — стабильнее.

Цены: Claude Opus 4 — ~$0.31 за рассказ, DeepSeek-R1 — $0.01, а Grok 3 и Gemini бесплатны в веб-версиях.

Выводы делайте сами, но на мой взгляд - все большие модели уже давно плюс- минус на одном уровне.

Русский ИТ бизнес