Найти в Дзене

90% надёжности ИИ — это почти ноль

Ты наверняка видел демки, где ИИ «в целом справляется». Почти всегда угадывает, почти всегда находит, почти всегда отвечает правильно. Выглядит бодро ровно до первого реального рабочего дня. Андрей Карпати — человек, который обучал автопилот Tesla — назвал это «маршем девяток». Когда что-то работает в 90% случаев, это только начало. До 99% — ещё одна полноценная стройка. До 99,9% — ещё одна. Каждая новая девятка стоит примерно столько же усилий, сколько предыдущая. Звучит как проблема где-то там, в больших корпорациях? Сейчас объясню, почему нет. В демке один шаг: спросил — ответили. В реальном процессе шагов десять: понять запрос, найти данные, составить ответ, проверить, оформить, сохранить — и так далее. Вот простая математика: если каждый из десяти шагов работает с надёжностью 90%, то весь процесс без сбоев проходит примерно в 35% случаев. То есть две попытки из трёх — что-то пойдёт не так. Это тот момент, когда ИИ начинает выглядеть как стажёр, который отлично справляется с каждой
Оглавление

Ты наверняка видел демки, где ИИ «в целом справляется». Почти всегда угадывает, почти всегда находит, почти всегда отвечает правильно. Выглядит бодро ровно до первого реального рабочего дня.

Андрей Карпати — человек, который обучал автопилот Tesla — назвал это «маршем девяток». Когда что-то работает в 90% случаев, это только начало. До 99% — ещё одна полноценная стройка. До 99,9% — ещё одна. Каждая новая девятка стоит примерно столько же усилий, сколько предыдущая.

Звучит как проблема где-то там, в больших корпорациях? Сейчас объясню, почему нет.

Почему 90% — это «сломалось в двух случаях из трёх»

В демке один шаг: спросил — ответили. В реальном процессе шагов десять: понять запрос, найти данные, составить ответ, проверить, оформить, сохранить — и так далее.

Вот простая математика: если каждый из десяти шагов работает с надёжностью 90%, то весь процесс без сбоев проходит примерно в 35% случаев. То есть две попытки из трёх — что-то пойдёт не так.

Это тот момент, когда ИИ начинает выглядеть как стажёр, который отлично справляется с каждой отдельной задачей, но три раза подряд забывает пропуск. Сначала смешно. Потом начинаешь всё перепроверять сам. Потом думаешь — зачем он вообще нужен?

Поднять каждый шаг до 99% — и весь процесс заработает в 90% случаев. Уже лучше, но всё равно означает регулярные сбои, если гоняешь такие сценарии каждый день. Ощущение «работает как нормальная программа» приходит ближе к 99,99% на каждом шаге.

Где конкретно всё рассыпается

Неочевидная вещь: агент ошибается почти всегда не потому что «модель тупая». А потому что один сервис ответил с опозданием, база вернула устаревшие данные, формат ответа чуть не совпал с ожидаемым.

Разработчик видит систему целиком. Модель видит только то, что ей в данный момент положили на стол. Как будто просишь сотрудника принять решение — но половину документов спрятал и не сказал, что было вчера.

Поэтому умные команды работают не над тем, чтобы модель стала «ещё умнее», а над тем, что именно она видит и в какой момент. Звучит скучно — но именно это отделяет «работает» от «работает в презентации».

Что реально добавляет надёжности

Компании, которые дошли до настоящей надёжности, сделали несколько простых вещей — и ни одна из них не называется «купили более дорогую модель».

Во-первых, ограничили, что ИИ может делать самостоятельно. Читать и анализировать — пожалуйста. Удалить, изменить, отправить деньги — сначала подтверди у человека. Звучит как недоверие. На деле — здравый смысл.

Во-вторых, стали проверять входы и выходы как на таможне. Большинство аварий начинается не с «модель сошла с ума», а с «она вернула поле с неправильным названием» или «единицы измерения поплыли». Скучно, но именно здесь живут главные грабли.

В-третьих, каждый сбой превратили в тест. Ошибка случилась — добавили в список проверок, которые прогоняются при каждом обновлении. Чтобы одни и те же грабли не стояли вечно.

Почему это важно даже если ты не строишь стартап

Понимание «марша девяток» меняет отношение к ИИ-инструментам. Ты перестаёшь доверять им вслепую и начинаешь думать: вот это можно отдать полностью, а вот это — проверю сам, потому что цена ошибки высокая.

ИИ в демке — это спорткар на выставке. ИИ в реальной работе — тот же спорткар, но в пробке, под дождём, с ямами и внезапно закрытым съездом. И выясняется, что главная проблема не скорость. А то, что дворники иногда забывают работать.