21 подписчик

90% надёжности ИИ — это почти ноль

10 марта10 мар

2 мин

Ты наверняка видел демки, где ИИ «в целом справляется». Почти всегда угадывает, почти всегда находит, почти всегда отвечает правильно. Выглядит бодро ровно до первого реального рабочего дня. Андрей Карпати — человек, который обучал автопилот Tesla — назвал это «маршем девяток». Когда что-то работает в 90% случаев, это только начало. До 99% — ещё одна полноценная стройка. До 99,9% — ещё одна. Каждая новая девятка стоит примерно столько же усилий, сколько предыдущая. Звучит как проблема где-то там, в больших корпорациях? Сейчас объясню, почему нет. В демке один шаг: спросил — ответили. В реальном процессе шагов десять: понять запрос, найти данные, составить ответ, проверить, оформить, сохранить — и так далее. Вот простая математика: если каждый из десяти шагов работает с надёжностью 90%, то весь процесс без сбоев проходит примерно в 35% случаев. То есть две попытки из трёх — что-то пойдёт не так. Это тот момент, когда ИИ начинает выглядеть как стажёр, который отлично справляется с каждой

Оглавление

Почему 90% — это «сломалось в двух случаях из трёх»
Где конкретно всё рассыпается
Что реально добавляет надёжности

Андрей Карпати — человек, который обучал автопилот Tesla — назвал это «маршем девяток». Когда что-то работает в 90% случаев, это только начало. До 99% — ещё одна полноценная стройка. До 99,9% — ещё одна. Каждая новая девятка стоит примерно столько же усилий, сколько предыдущая.

Звучит как проблема где-то там, в больших корпорациях? Сейчас объясню, почему нет.

Почему 90% — это «сломалось в двух случаях из трёх»

В демке один шаг: спросил — ответили. В реальном процессе шагов десять: понять запрос, найти данные, составить ответ, проверить, оформить, сохранить — и так далее.

Вот простая математика: если каждый из десяти шагов работает с надёжностью 90%, то весь процесс без сбоев проходит примерно в 35% случаев. То есть две попытки из трёх — что-то пойдёт не так.

Это тот момент, когда ИИ начинает выглядеть как стажёр, который отлично справляется с каждой отдельной задачей, но три раза подряд забывает пропуск. Сначала смешно. Потом начинаешь всё перепроверять сам. Потом думаешь — зачем он вообще нужен?

Поднять каждый шаг до 99% — и весь процесс заработает в 90% случаев. Уже лучше, но всё равно означает регулярные сбои, если гоняешь такие сценарии каждый день. Ощущение «работает как нормальная программа» приходит ближе к 99,99% на каждом шаге.

Где конкретно всё рассыпается

Неочевидная вещь: агент ошибается почти всегда не потому что «модель тупая». А потому что один сервис ответил с опозданием, база вернула устаревшие данные, формат ответа чуть не совпал с ожидаемым.

Разработчик видит систему целиком. Модель видит только то, что ей в данный момент положили на стол. Как будто просишь сотрудника принять решение — но половину документов спрятал и не сказал, что было вчера.

Поэтому умные команды работают не над тем, чтобы модель стала «ещё умнее», а над тем, что именно она видит и в какой момент. Звучит скучно — но именно это отделяет «работает» от «работает в презентации».

Что реально добавляет надёжности

Компании, которые дошли до настоящей надёжности, сделали несколько простых вещей — и ни одна из них не называется «купили более дорогую модель».

Во-первых, ограничили, что ИИ может делать самостоятельно. Читать и анализировать — пожалуйста. Удалить, изменить, отправить деньги — сначала подтверди у человека. Звучит как недоверие. На деле — здравый смысл.

Во-вторых, стали проверять входы и выходы как на таможне. Большинство аварий начинается не с «модель сошла с ума», а с «она вернула поле с неправильным названием» или «единицы измерения поплыли». Скучно, но именно здесь живут главные грабли.

В-третьих, каждый сбой превратили в тест. Ошибка случилась — добавили в список проверок, которые прогоняются при каждом обновлении. Чтобы одни и те же грабли не стояли вечно.

Почему это важно даже если ты не строишь стартап

Понимание «марша девяток» меняет отношение к ИИ-инструментам. Ты перестаёшь доверять им вслепую и начинаешь думать: вот это можно отдать полностью, а вот это — проверю сам, потому что цена ошибки высокая.

ИИ в демке — это спорткар на выставке. ИИ в реальной работе — тот же спорткар, но в пробке, под дождём, с ямами и внезапно закрытым съездом. И выясняется, что главная проблема не скорость. А то, что дворники иногда забывают работать.