Спецапдейт: проблемы работяг в эпоху Идиократии
На этой неделе мы узнали,
a) как ИИ [маркетинговый термин, который до сих пор не имеет четкого и понятного определения, но им описывают по сути технологию нейросетей из 60-х XX века] прошел эволюцию от волшебной пилюли-решения всех проблем человечества [AGI] и хайпа до ИИ-порно индустрии за каких-то 10 лет, если брать за дату отчета основание Альтманом и Маском OpenAI в декабре 2015 как некоммерческой организации
Андрей Карпати, бывший директор по ИИ в Tesla и один из основателей OpenAI, недавно встретился с Дваркешем Пателем для подробной беседы о текущем состоянии и будущем ИИ
В отличие от типичных громких рассуждений, Карпати предлагает обоснованный технический взгляд, основанный на 15-летнем опыте работы в этой области:
https://navaneethsen.medium.com/the-andrej-karpathy-interview-with-dwarkesh-patel-c10659db456c
В интервью выше есть несколько интересных моментов. В частности, давайте спросим у ИИ, почему он не спасет человечество из-за проблемы «Five 9s»:
Что приходит вам на ум, когда вы слышите, что ИТ-компонент имеет «доступность пять девяток»? Доступность пять девяток >= 99,999% — это пиковый показатель доступности ИТ.
Five 9s предсказывает, что измеряемый компонент — будь то сервер, линия связи, приложение, служба или любой другой элемент — будет доступен по крайней мере 99,999% времени в течение определенного периода.
Достижение уровня доступности «пять девяток» (99,999% времени безотказной работы) означает допущение всего лишь 5 минут простоя в год — цель, требующая надежной инфраструктуры, обширного резервирования, автоматизации и упреждающего мониторинга.
https://www.splunk.com/en_us/blog/learn/five-nines-availability.html
Пример из реальной жизни: с 1980-х годов беспилотные автомобили демонстрируют впечатляющие результаты. Waymo провела идеальные демонстрационные заезды в 2014 году. Тем не менее, их широкое внедрение всё ещё нерентабельно и не полностью надёжно к 2025 году.
# Связь с ИИ: Сложность достижения и подтверждения высокой надёжности
В отличие от традиционного ПО, где ошибки можно отлаживать детерминистически, ИИ-модели — это «чёрные ящики». Их поведение зависит от огромных наборов данных, и даже небольшие изменения (например, в входных данных) могут привести к неожиданным сбоям.
Чтобы добавить «девятку», нужно не просто оптимизировать код, а собирать миллиарды примеров, проводить тестирование на атаки и использовать техники вроде обучения с подкреплением на основе отзывов людей (RLHF). Эксперты отмечают, что каждая дополнительная «девятка» — это отдельный «уровень инженерных усилий».
# Как измерить, что ИИ достиг 99,999% надёжности?
Тестирование на всех возможных сценариях невозможно — пространство входов бесконечно. В высокорисковых приложениях это приводит к «проблеме верификации»: мы можем протестировать на миллионах случаев, но один редкий случай (edge case) может вызвать катастрофу. Это особенно актуально для генеративного ИИ, где 95% пилотных проектов в компаниях проваливаются из-за проблем с точностью и надёжностью.
_________________
Для сравнения, водители-люди невероятно надёжны. В США на каждые 100 млн миль пробега приходится примерно одна смертельная авария; если водитель-человек принимает 100 решений на милю, это даёт наихудшую надёжность ~1:10 000 000 000 или ~99,999999999%
https://www.lesswrong.com/posts/28zsuPaJpKAGSX4zq/humans-are-very-reliable-agents
«Это примерно на пять порядков выше, чем у очень хорошей модели глубокого обучения, и это достигается даже в открытой среде, где данные не фильтруются заранее и иногда случаются случайные механические сбои. Достичь этой планки сложно!»