10 подписчиков

GPT ошибся в простой таблице. Бесплатная нейросеть посчитала правильно

14 марта14 мар

4 мин

Один файл. Один запрос. Шесть ответов. Только один — правильный с первой попытки. У меня есть таблица sell-out за Q1 2025: партнёры, регионы, модели, план/факт в штуках и рублях, промо-бюджеты. Обычная рабочая аналитика. Я загрузила этот файл в три нейросети и попросила: «Проанализируй данные sell-out и скажи, где проблемы.» Без объяснений. Без контекста. Просто файл и запрос. GPT выдал структурированный ответ. Подзаголовки, разделы, выводы. Выглядит профессионально. Одна проблема — цифры не сходятся. Среднее выполнение плана он показал как 82.8%. Реальная цифра — 91.8%. Разница — 9%. Как это получилось: он взял столбец «Выполнение плана (%)» и посчитал среднее арифметическое по всем строкам. Каждая строка получила одинаковый вес — и маленький партнёр с 44% тянул среднее вниз так же, как крупный с 95%. На этой ошибке посыпались все остальные цифры. Урал «просел» до 82.6% — по факту 95.3%. Февраль «потерял» промо-эффект: GPT показал 91%, а реальное выполнение — 103%. Структура ответа х

Оглавление

Задача
GPT без контекста: уверенный, но неправильный
DeepSeek без контекста: точный с первого раза

Один файл. Один запрос. Шесть ответов. Только один — правильный с первой попытки.

Задача

У меня есть таблица sell-out за Q1 2025: партнёры, регионы, модели, план/факт в штуках и рублях, промо-бюджеты. Обычная рабочая аналитика.

Я загрузила этот файл в три нейросети и попросила: «Проанализируй данные sell-out и скажи, где проблемы.»

Без объяснений. Без контекста. Просто файл и запрос.

GPT без контекста: уверенный, но неправильный

GPT выдал структурированный ответ. Подзаголовки, разделы, выводы. Выглядит профессионально. Одна проблема — цифры не сходятся.

Среднее выполнение плана он показал как 82.8%. Реальная цифра — 91.8%. Разница — 9%.

Как это получилось: он взял столбец «Выполнение плана (%)» и посчитал среднее арифметическое по всем строкам. Каждая строка получила одинаковый вес — и маленький партнёр с 44% тянул среднее вниз так же, как крупный с 95%.

На этой ошибке посыпались все остальные цифры. Урал «просел» до 82.6% — по факту 95.3%. Февраль «потерял» промо-эффект: GPT показал 91%, а реальное выполнение — 103%.

Структура ответа хорошая. Инсайт про зависимость от промо — верный. Но фундамент кривой, и всё здание стоит криво.

Среднее выполнение плана показал как 82.8%. Реальная цифра — 91.8%. Разница — 9%.

DeepSeek без контекста: точный с первого раза

DeepSeek тот же файл разобрал корректно. Без подсказок.

Нашёл проблемных партнёров с конкретными цифрами: ТехноСфера — 54%, Электроника+ — 54%, ГаджетХаус — 44%. GPT эти цифры даже не упомянул.

Нашёл проблемную модель: Stellar 12 Pro — 73% выполнения плана, остальные — выше 90%

Посчитал промо-бюджеты, которые не окупились: 100 000 руб. на Урале при выполнении 70%, 180 000 руб. в Москве при 87%.

Это не пересказ таблицы. Это конкретные находки, по которым можно принимать решения.

Нашёл проблемных партнёров с конкретными цифрами: ТехноСфера — 54%, Электроника+ — 54%, ГаджетХаус — 44%. GPT эти цифры даже не упомянул.

Посчитал промо-бюджеты, которые не окупились: 100 000 руб. на Урале при выполнении 70%, 180 000 руб. в Москве при 87%.

GigaChat без контекста: шаблон вместо анализа

GigaChat выдал текст на две страницы с эмодзи-заголовками и разделами. Выглядит как отчёт — но если вчитаться, конкретики мало.

Цифры приблизительные: «около 80-90%» за январь, «около 110%» по промо. При этом в таблице есть точные данные — он их не использовал.

Упоминает «133%» по промо в феврале — но не уточняет, по какому партнёру или модели. Рекомендует «расширить линейку ноутбуков» и «запустить программы лояльности» — этого в данных нет, он додумал за пределами таблицы.

Ответ читается как обёртка вокруг данных, а не их анализ.

Экспериментируем дальше: добавляем контекст

Дальше я дала каждой модели одну и ту же подсказку: «Учитывай сезонность, возможную нехватку стоков, запущенные активности.»

Две строчки. Никаких формул, никаких инструкций по методологии.

GPT с контекстом: починился

Контекст буквально переключил GPT на правильную методологию. Все цифры стали корректными. Появился термин promo hangover — описание спада после активных скидок. Промо-бюджет февраля посчитан верно: 2.67 млн.

Тот же самый GPT. Тот же файл. Разница — две строчки контекста.

DeepSeek с контекстом: ещё глубже

DeepSeek и без контекста работал хорошо. С контекстом стал ещё точнее.

Добавил помесячную динамику по каждому партнёру — видно, кто проседает и когда. Построил гипотезу: после февральского промо (103%) в марте наступил спад до 80%. Все регионы просели — Москва на 27%, СПб на 30%, Урал на 32.6%, Сибирь на 27.8%.

Прямая критика: планы на март завышены, если нет промо-поддержки.

Это самый зрелый ответ из всех шести. Не описание проблем, а причинно-следственный анализ.

DeepSeek с контекстом — динамика и гипотеза

GigaChat с контекстом: почти не изменился

Стал чуть конкретнее — появились цифры по партнёрам. Но итоговые цифры по-прежнему неточные: ~85% вместо 91.8%, «~95% в январе-феврале» — а февраль это 103%.

Проблема GigaChat — не в контексте. Проблема в способности работать с табличными данными.

Рейтинг

По итогам шести экспериментов, от лучшего к худшему:

1. DeepSeek с контекстом — причинно-следственный анализ, конкретные гипотезы

2. GPT с контекстом — точные цифры, хорошая структура

3. DeepSeek без контекста — корректные цифры с первого раза

4. GPT без контекста — хорошая структура, кривые цифры

5. GigaChat с контекстом — общие слова с отдельными цифрами

6. GigaChat без контекста — шаблон без анализа

Что это значит на практике

Три вывода.

Первый: контекст — это не бонус. Это переключатель между правильной и неправильной методологией. У GPT контекст починил фундаментальную ошибку в расчётах. У DeepSeek — добавил глубину при уже хорошей базе.

Второй: нейросеть может выдать уверенный и красиво оформленный ответ с неправильными цифрами. Если вы не проверяете — вы принимаете решения на кривых данных. А кривые данные хуже, чем отсутствие данных, потому что они создают иллюзию точности.

Третий: DeepSeek на задачах с табличными данными показал себя лучше GPT. Это не значит, что он лучше во всём. Это значит, что на конкретной задаче — анализе таблицы продаж — он дал более точный и глубокий результат.

Что делать, если загружаете данные в AI

Не ленитесь написать 2-3 строчки контекста: что это за данные, какой период, что учесть. Разница — между отчётом в корзину и отчётом, по которому можно принимать решения.

Проверяйте ключевые цифры вручную. Хотя бы одну-две контрольные точки. Если итог не сходится — весь анализ под вопросом.

Исходный файл лежит в моём Telegram-канале — загрузите в любую нейросеть и проверьте сами.

⚡ ИИ мания

t.me

ИИ мания