Добавить в корзинуПозвонить
Найти в Дзене
Craft Homelab

bloom – автоматизированное тестирование поведения больших языковых моделей

🌸 Если вы хотите глубже понять, как ведут себя разные LLM (например, склонны ли они к подхалимству или проявляют политическую предвзятость), то bloom – это то, что нужно. Этот open-source проект позволяет настраивать сценарии и тесты, которые выявляют конкретные поведения модели, и не просто запускает однотипные проверки, а генерирует разнообразные оценки на основе заданной «начинки» – так что результаты действительно свежие и разнообразные. Для работы bloom использует множество популярных API и умеет сравнивать сразу несколько моделей на одних и тех же тестах. В итоге получаете удобный интерактивный просмотр с пояснениями и метриками. Крут для тех, кто хочет сделать честное оценивание ИИ-ассистентов и понять их слабые места! #openSource #LLM #AI #машинноеОбучение #тестирование #github #программирование #исследования https://github.com/safety-research/bloom https://vlad1kudelko.github.io/

bloom – автоматизированное тестирование поведения больших языковых моделей 🌸

Если вы хотите глубже понять, как ведут себя разные LLM (например, склонны ли они к подхалимству или проявляют политическую предвзятость), то bloom – это то, что нужно. Этот open-source проект позволяет настраивать сценарии и тесты, которые выявляют конкретные поведения модели, и не просто запускает однотипные проверки, а генерирует разнообразные оценки на основе заданной «начинки» – так что результаты действительно свежие и разнообразные. Для работы bloom использует множество популярных API и умеет сравнивать сразу несколько моделей на одних и тех же тестах. В итоге получаете удобный интерактивный просмотр с пояснениями и метриками.

Крут для тех, кто хочет сделать честное оценивание ИИ-ассистентов и понять их слабые места!

#openSource #LLM #AI #машинноеОбучение #тестирование #github #программирование #исследования

https://github.com/safety-research/bloom

https://vlad1kudelko.github.io/