Интервью: Основатели Codestrap заявляют, что нам нужно снизить ажиотаж и разобраться в возникшем хаосе, связанном с внедрением ИИ в корпоративный сектор. — theregister.com
интервью Корпоративные организации все еще пытаются понять, как именно ИИ вписывается в их бизнес, и, возможно, это к лучшему, поскольку потребуется время, чтобы разобраться с любыми проблемами, вызванными кодом и контентом, сгенерированными ИИ.
“Никто сейчас не знает, какие референсные архитектуры или сценарии использования подходят для их учреждения”, — сказал Дориан Смайли, соучредитель и технический директор консультационной службы по ИИ Codestrap, в интервью изданию The Register. “Многие люди делают вид, что знают. Но нет готового руководства, к которому можно обратиться”.
Смайли и его соучредитель, генеральный директор Коннор Дикс, работали в глобальной консалтинговой компании PwC, а теперь открыли собственное дело, чтобы помочь организациям выработать стратегию в области ИИ.
Они утверждают, что компании, стремящиеся внедрить ИИ, опередили самих себя.
“С точки зрения больших языковых моделей люди на самом деле не решают проблему ошибочности лежащего в их основе текста”, — отметил Дикс.
Дикс утверждает, что если бы система ИИ строилась с нуля, она выглядела бы совершенно иначе, чем то, что предлагается сегодня. Все разговоры об исчезновении разработки программного обеспечения и офисной работы, по его словам, “мы ни во что из этого не верим”.
Он также считает, что компании не хотят в это верить. “В основном они не хотят верить, что всех уволят, и что под ними никого не останется, особенно в технологических или информационных подразделениях этих учреждений”, — сказал он.
Отсутствующие метрики
Первый шаг для организаций, рассматривающих ИИ, — это экспериментирование и итерации в цикле обратной связи, утверждает Смайли. И причина этого в том, что ИИ все еще работает не очень хорошо.
“Даже в области кодирования он работает неважно”, — сказал Смайли. “Я приведу вам пример. Код может выглядеть правильно и проходить модульные тесты, но все равно быть неверным. Способ измерения этого — обычно в эталонных тестах. Поэтому многие из этих компаний не внедрили надлежащий цикл обратной связи, чтобы увидеть, как кодирование с помощью ИИ влияет на интересующие их результаты. Строки кода, количество [pull requests], это пассивы. Это не показатели инженерного совершенства”.
Показателями инженерного совершенства, по словам Смайли, являются такие метрики, как частота развертывания, время до выхода в продакшн, частота сбоев при изменениях, среднее время восстановления и серьезность инцидентов. И нам нужен новый набор метрик, настаивает он, чтобы измерить, как ИИ влияет на производительность инженерии.
“Мы еще не знаем, каковы они”, — сказал он.
Это в 3,7 раза больше строк кода, которые работают в 2000 раз хуже
Одна из метрик, которая может быть полезна, по его словам, — это измерение токенов, сожженных для получения одобренного pull request — официально принятого изменения в программном обеспечении. Именно это необходимо оценить, чтобы определить, помогает ли ИИ инженерной практике организации.
Чтобы подчеркнуть последствия отсутствия таких данных, Смайли указал на недавнюю попытку переписать SQLite на Rust с помощью ИИ.
“Он прошел все модульные тесты, структура кода выглядит правильно”, — сказал он. Это в 3,7 раза больше строк кода, который работает в 2000 раз хуже, чем реальный SQLite. Две тысячи раз хуже для базы данных — это нежизнеспособный продукт. Это полный провал. Все деньги, потраченные на это, бесполезны”.
Весь оптимизм по поводу использования ИИ для кодирования, утверждает Смайли, проистекает из измерения неправильных вещей.
“Кодирование работает, если измерять строки кода и pull requests”, — сказал он. “Кодирование не работает, если измерять качество и производительность команды. Нет никаких доказательств того, что в этом направлении наблюдается положительная динамика”.
Бесплатного сыра не бывает
Дикс указал на недавние сбои в работе Amazon и AWS — инциденты, в которых Amazon настаивает, что нет никакой связи с ИИ — как на индикаторы того, что нас ждет в будущем.
“Другой способ взглянуть на это — здесь нет бесплатного сыра”, — сказал Смайли. “Мы знаем об ограничениях модели. Трудно научить их новым фактам. Трудно надежно извлекать факты. Прямой проход через нейронные сети недетерминирован, особенно когда у вас есть модели рассуждения, которые задействуют внутренний монолог для повышения эффективности предсказания следующего токена, а это значит, что вы будете получать разный ответ каждый раз, верно? Этот монолог будет разным.
“И у них нет возможностей индуктивного рассуждения. Модель не может проверить свою работу. Она не знает, правильный ли ответ она вам дала. Это фундаментальные проблемы, которые никто не решил в технологии LLM. И вы хотите сказать мне, что это не проявится в проблемах с качеством кода? Конечно, это проявится”.
Новые метрики необходимы, утверждает Смайли, потому что у нас уже есть миллионы строк кода, сгенерированного ИИ, которые люди никогда не смогут проверить.
В контексте бизнес-приложений Дикс указал на возврат средств, который консалтинговая компания Deloitte была вынуждена предоставить правительству Австралии из-за отчета, содержащего ошибки, сгенерированные ИИ.
“Мы знаем, что крупные консалтинговые компании теперь внедряют это в больших масштабах для написания своих PowerPoint-презентаций”, — сказал Дикс. “Это обернется огромными судебными исками и потерей денег, потому что качество на самом деле не отслеживается. Все поверили в эту сказочную историю о том, что все уже идеально”.
Смайли ожидает, что применение ИИ к офисной работе столкнется с проблемами, аналогичными тем, что возникают при применении ИИ к кодированию. Но выявить ошибки ИИ будет сложнее из-за отсутствия эталонных тестов для галлюцинаторных бизнес-советов.
“Еще одна проблема здесь в том, что стимулы не согласованы”, — сказал Смайли. В таких фирмах “Большой четверки”, как PwC, по его словам, партнер хочет больше выручки и более высокую маржу.
“Вы даете им ИИ — что они будут делать?” — спросил он. “Больше работы, меньше человеческого труда. Таким образом, вы получаете больше выручки, более высокую маржу. Это не способствует тому, чтобы все люди в команде использовали ИИ, но при этом проверяли каждый результат работы ИИ. Эти стимулы не совпадают. Стимул для директора — перестать общаться с младшими сотрудниками, потому что младшие сотрудники ничего не знают. [Директор будет] использовать ИИ для выполнения работы младших сотрудников. Для младшего сотрудника стимул — сделать работу быстрее и пойти на пляж. Все эти стимулы не согласованы таким образом, чтобы ИИ дополнял бизнес и приносил результаты”.
Компании будут требовать скидки, когда узнают, что сервисная компания использует ИИ
Смайли прогнозирует “проблемы, связанные с качеством кода, которые проявятся через восемь-девять месяцев у тех, кто активно использует ИИ”.
Дикс предвидит рост числа судебных исков, потому что так происходит, когда плохой совет приводит к проблемам.
“Люди будут продолжать ощущать давление: ‘Я должен это внедрить, я должен принимать решения по ИИ’. Они будут внедрять это в продакшн, будь то в рабочие процессы или в инженерные группы. И этот ускоренный коллапс затем приведет к потере работы для многих людей”.
Другим вероятным исходом, по словам Смайли, является ценовое давление — компании будут требовать скидки, когда узнают, что сервисная компания использует инструменты ИИ.
Дикс сообщил, что экстремальное ценовое давление начинает проявляться. “Даже KPMG оказала давление на другую бухгалтерскую фирму, чтобы та снизила цену, потому что они заявляли об использовании ИИ”, — сказал он. “Клиенты теперь говорят что-то вроде: ‘О, вы делаете свои PowerPoint-презентации с помощью ИИ. Ну, я хочу платить вам меньше'”.
Еще одна надвигающаяся проблема заключается в том, что крупные страховщики стали опасаться заключать договоры, покрывающие компании от рисков, связанных с ИИ.
“Страховые андеррайтеры сейчас серьезно пытаются исключить покрытие в полисах, где применяется ИИ и нет четкой цепочки ответственности”, — сказал Смайли. “Итак, представьте, что вы из ‘Большой четверки’, на вас подают в суд, на вас оказывается ценовое давление, рынок опережает вашу способность адаптироваться, и теперь ваши андеррайтеры говорят вам: ‘кстати, мы не собираемся вас покрывать'”.
Дикс сказал: “Один из наших знакомых — старший вице-президент одной из крупнейших страховых компаний в стране, и он прямо сказал нам, что это очень реальная проблема, и он не понимает, почему люди об этом мало говорят”.
По его словам, страховщики уже лоббируют регуляторов страхования на уровне штатов, чтобы добиться исключения из полисов страхования ответственности бизнеса, чтобы они не были обязаны покрывать рабочие процессы, связанные с ИИ. “Это убьет всю систему”, — сказал Дикс.
Смайли добавил: “Вопрос в том, если все так здорово, почему страховые андеррайтеры прилагают огромные усилия, чтобы запретить покрытие для этих вещей? Они, как правило, неплохо справляются с профилированием рисков”.
Дикс сказал, что вместо того, чтобы рассматривать эти проблемы как признак неминуемого краха, он надеется, что люди в отрасли найдут мотивацию серьезно поговорить о проблемах, которые необходимо преодолеть.
“Можем ли мы на самом деле вести разговор об этом?” — спрашивает он. “Будет ли кто-нибудь говорить о противоположности AGI [общего искусственного интеллекта] и о том, как он захватит все в утопическом будущем?”
Дикс утверждает, что нам нужно быть более четкими в отношении того, что ИИ означает для финансов, для андеррайтинга, а также для реального бизнеса и практической работы бизнес-систем. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Thomas Claburn