Найти тему

Kolena представляет платформу для тестирования AI-моделей и доработанных вариантов

Оглавление
Для компаний, стремящихся внедрить модели ИИ в свою деятельность — как для сотрудников, так и для клиентов, — один из самых важных вопросов заключается даже не в том, какую модель и для чего ее использовать, а в том, когда выбранная модель безопасна для развертывания.

Какой объем тестирования на бэкенде необходим? Какие виды тестов следует выполнять? В конце концов, большинство компаний, по-видимому, хотели бы избежать неловких (но смешных) казусов, которые мы видели с некоторыми автосалонами, использующими ChatGPT для поддержки клиентов, только для того, чтобы обнаружить, что пользователи обманом заставляют их согласиться продавать автомобили за 1 доллар.

Знание того, как тестировать модели, и особенно точно настроенные версии моделей ИИ, может стать разницей между успешным развертыванием и тем, которое не соответствует действительности и стоит компании репутации и финансов. Kolena, трехлетний стартап из Сан-Франциско, соучредителем которого является бывший старший технический директор Amazon, сегодня объявил о широком выпуске своей платформы AI Quality Platform, веб-приложения, предназначенного для «обеспечения быстрого и точного тестирования и валидации систем искусственного интеллекта».

Это включает в себя мониторинг «качества данных, тестирование моделей и A/B-тестирование, а также мониторинг дрейфа данных и деградации моделей с течением времени». Он также предлагает отладку.

«Мы решили решить эту проблему, чтобы разблокировать внедрение ИИ на предприятиях», — сказал Мохамед Эльгенди, соучредитель и генеральный директор Kolena, в эксклюзивном интервью в видеочате с Venturebeat.

Элгенди из первых рук узнал о проблемах, с которыми сталкиваются предприятия при тестировании и развертывании ИИ, ранее он работал вице-президентом по разработке платформы искусственного интеллекта в японском гиганте электронной коммерции Rakuten, а также главой инженерного отдела в детекторе угроз рентгеновских машин Synapse, основанном на машинном обучении, и старшим техническим менеджером в Amazon.

Как работает платформа качества искусственного интеллекта Kolena

Решение Kolena предназначено для поддержки разработчиков программного обеспечения и ИТ-персонала в создании безопасных, надежных и справедливых систем искусственного интеллекта для реальных сценариев использования.

Обеспечивая быструю разработку подробных тестовых сценариев из наборов данных, он облегчает тщательное изучение моделей ИИ/МО в сценариях, с которыми они столкнутся в реальном мире, выходя за рамки агрегированных статистических показателей, которые могут скрыть производительность модели при выполнении критически важных задач.

Каждый клиент Kolena подключает модель, которую он хочет использовать, к своему API и предоставляет собственный набор данных для своего ИИ и набор «функциональных требований» к тому, как они хотят, чтобы их модель работала при развертывании, будь то манипуляции с текстом, изображениями, кодом, аудио или другим контентом.

Кроме того, каждый клиент может выбрать для измерения такие атрибуты, как предвзятость и разнообразие возраста, расы, этнической принадлежности и списков из десятков показателей. Колена будет тестировать модель, имитируя сотни или тысячи взаимодействий, чтобы увидеть, дает ли модель нежелательные результаты, и если да, то как часто и при каких обстоятельствах или условиях.

Он также повторно тестирует модели после того, как они были обновлены, обучены, переобучены, доработаны или изменены поставщиком или клиентом, а также в процессе использования и развертывания.

«Он проведет тесты и точно сообщит вам, где ваша модель ухудшилась», — сказал Элгенди. «Колена убирает угадывание из уравнения и превращает его в настоящую инженерную дисциплину, такую как программное обеспечение».

Возможность тестировать системы ИИ полезна не только для предприятий, но и для самих компаний-поставщиков моделей ИИ. Элгенди отметил, что Gemini от Google, недавно ставший предметом споров из-за создания расово запутанных и неточных изображений, мог бы извлечь выгоду из тестирования платформы качества искусственного интеллекта его компании перед развертыванием.

Два года закрытого бета-тестирования с компаниями и стартапами из списка Fortune 500

Верная своим устремлениям, Kolena не выпускает свою платформу качества ИИ без собственного обширного тестирования того, насколько хорошо она работает при тестировании других моделей ИИ.

В течение последних 24 месяцев компания предлагала платформу в закрытом бета-тестировании клиентам и дорабатывала ее на основе их сценариев использования, потребностей и отзывов.

«Мы намеренно работали с избранной группой клиентов, которые помогли нам определить список неизвестных и неизвестных-неизвестных», — сказал Элгенди.

Среди этих клиентов стартапы, компании из списка Fortune 500, государственные учреждения и институты стандартизации ИИ. — объяснил Элгенди.

В общей сложности эта группа клиентов закрытого бета-тестирования уже провела «десятки тысяч» тестов моделей искусственного интеллекта через платформу Kolena.

Забегая вперед, Элгенди сказал, что Kolena преследует клиентов по трем категориям: 1. «строители» базовых моделей ИИ 2. Покупатели в технологиях 3. Элгенди заявил, что одна компания, с которой работала Колена, предоставила решение для большой языковой модели (LLM), которое могло подключаться к фаст-фуду и принимать заказы. Еще один целевой рынок: производители автономных транспортных средств.

Платформа качества ИИ от Kolena оценивается в соответствии с моделью «программное обеспечение как услуга» (SaaS) с тремя уровнями повышающихся цен, предназначенных для отслеживания роста компании с помощью ИИ, начиная с изучения качества данных и заканчивая обучением модели и, наконец, ее развертыванием.