Для компаний, стремящихся внедрить модели ИИ в свою деятельность — как для сотрудников, так и для клиентов, — один из самых важных вопросов заключается даже не в том, какую модель и для чего ее использовать, а в том, когда выбранная модель безопасна для развертывания.
Какой объем тестирования на бэкенде необходим? Какие виды тестов следует выполнять? В конце концов, большинство компаний, по-видимому, хотели бы избежать неловких (но смешных) казусов, которые мы видели с некоторыми автосалонами, использующими ChatGPT для поддержки клиентов, только для того, чтобы обнаружить, что пользователи обманом заставляют их согласиться продавать автомобили за 1 доллар.
Знание того, как тестировать модели, и особенно точно настроенные версии моделей ИИ, может стать разницей между успешным развертыванием и тем, которое не соответствует действительности и стоит компании репутации и финансов. Kolena, трехлетний стартап из Сан-Франциско, соучредителем которого является бывший старший технический директор Amazon, сегодня объявил о широком выпуске своей платформы AI Quality Platform, веб-приложения, предназначенного для «обеспечения быстрого и точного тестирования и валидации систем искусственного интеллекта».
Это включает в себя мониторинг «качества данных, тестирование моделей и A/B-тестирование, а также мониторинг дрейфа данных и деградации моделей с течением времени». Он также предлагает отладку.
«Мы решили решить эту проблему, чтобы разблокировать внедрение ИИ на предприятиях», — сказал Мохамед Эльгенди, соучредитель и генеральный директор Kolena, в эксклюзивном интервью в видеочате с Venturebeat.
Элгенди из первых рук узнал о проблемах, с которыми сталкиваются предприятия при тестировании и развертывании ИИ, ранее он работал вице-президентом по разработке платформы искусственного интеллекта в японском гиганте электронной коммерции Rakuten, а также главой инженерного отдела в детекторе угроз рентгеновских машин Synapse, основанном на машинном обучении, и старшим техническим менеджером в Amazon.
Как работает платформа качества искусственного интеллекта Kolena
Решение Kolena предназначено для поддержки разработчиков программного обеспечения и ИТ-персонала в создании безопасных, надежных и справедливых систем искусственного интеллекта для реальных сценариев использования.
Обеспечивая быструю разработку подробных тестовых сценариев из наборов данных, он облегчает тщательное изучение моделей ИИ/МО в сценариях, с которыми они столкнутся в реальном мире, выходя за рамки агрегированных статистических показателей, которые могут скрыть производительность модели при выполнении критически важных задач.
Каждый клиент Kolena подключает модель, которую он хочет использовать, к своему API и предоставляет собственный набор данных для своего ИИ и набор «функциональных требований» к тому, как они хотят, чтобы их модель работала при развертывании, будь то манипуляции с текстом, изображениями, кодом, аудио или другим контентом.
Кроме того, каждый клиент может выбрать для измерения такие атрибуты, как предвзятость и разнообразие возраста, расы, этнической принадлежности и списков из десятков показателей. Колена будет тестировать модель, имитируя сотни или тысячи взаимодействий, чтобы увидеть, дает ли модель нежелательные результаты, и если да, то как часто и при каких обстоятельствах или условиях.
Он также повторно тестирует модели после того, как они были обновлены, обучены, переобучены, доработаны или изменены поставщиком или клиентом, а также в процессе использования и развертывания.
«Он проведет тесты и точно сообщит вам, где ваша модель ухудшилась», — сказал Элгенди. «Колена убирает угадывание из уравнения и превращает его в настоящую инженерную дисциплину, такую как программное обеспечение».
Возможность тестировать системы ИИ полезна не только для предприятий, но и для самих компаний-поставщиков моделей ИИ. Элгенди отметил, что Gemini от Google, недавно ставший предметом споров из-за создания расово запутанных и неточных изображений, мог бы извлечь выгоду из тестирования платформы качества искусственного интеллекта его компании перед развертыванием.
Два года закрытого бета-тестирования с компаниями и стартапами из списка Fortune 500
Верная своим устремлениям, Kolena не выпускает свою платформу качества ИИ без собственного обширного тестирования того, насколько хорошо она работает при тестировании других моделей ИИ.
В течение последних 24 месяцев компания предлагала платформу в закрытом бета-тестировании клиентам и дорабатывала ее на основе их сценариев использования, потребностей и отзывов.
«Мы намеренно работали с избранной группой клиентов, которые помогли нам определить список неизвестных и неизвестных-неизвестных», — сказал Элгенди.
Среди этих клиентов стартапы, компании из списка Fortune 500, государственные учреждения и институты стандартизации ИИ. — объяснил Элгенди.
В общей сложности эта группа клиентов закрытого бета-тестирования уже провела «десятки тысяч» тестов моделей искусственного интеллекта через платформу Kolena.
Забегая вперед, Элгенди сказал, что Kolena преследует клиентов по трем категориям: 1. «строители» базовых моделей ИИ 2. Покупатели в технологиях 3. Элгенди заявил, что одна компания, с которой работала Колена, предоставила решение для большой языковой модели (LLM), которое могло подключаться к фаст-фуду и принимать заказы. Еще один целевой рынок: производители автономных транспортных средств.
Платформа качества ИИ от Kolena оценивается в соответствии с моделью «программное обеспечение как услуга» (SaaS) с тремя уровнями повышающихся цен, предназначенных для отслеживания роста компании с помощью ИИ, начиная с изучения качества данных и заканчивая обучением модели и, наконец, ее развертыванием.