🌸 Если вы хотите глубже понять, как ведут себя разные LLM (например, склонны ли они к подхалимству или проявляют политическую предвзятость), то bloom – это то, что нужно. Этот open-source проект позволяет настраивать сценарии и тесты, которые выявляют конкретные поведения модели, и не просто запускает однотипные проверки, а генерирует разнообразные оценки на основе заданной «начинки» – так что результаты действительно свежие и разнообразные. Для работы bloom использует множество популярных API и умеет сравнивать сразу несколько моделей на одних и тех же тестах. В итоге получаете удобный интерактивный просмотр с пояснениями и метриками. Крут для тех, кто хочет сделать честное оценивание ИИ-ассистентов и понять их слабые места! #openSource #LLM #AI #машинноеОбучение #тестирование #github #программирование #исследования https://github.com/safety-research/bloom https://vlad1kudelko.github.io/
bloom – автоматизированное тестирование поведения больших языковых моделей
25 декабря 202525 дек 2025
~1 мин