Современные языковые модели — словно гениальные, но капризные собеседники: каждый раз отвечают по-новому, даже на один и тот же вопрос. Эта стохастическая природа — то, что делает их живыми, но в задачах классификации превращается в кошмар. Ведь если одна и та же запись получает то метку joke_about_rust, то humor_on_rust_programmers, то make_fun_of_rust, — никакая аналитика не выдержит такого разброса. Автор проекта consistent-classifier нашёл изящный способ «успокоить» LLM, превратив их хаотичный выход в устойчивую систему меток. И сделал это не теоретически, а на практике — обработав 10 000 твитов и уменьшив число уникальных лейблов с 🌀 6520 до 1381. Модели вроде GPT не «ошибаются» — они просто лексически разнообразны, но семантически устойчивы. То есть смысл одинаков, но слова разные. Автор воспользовался этим свойством, применив векторизацию и кластеризацию: В результате LLM остаётся стохастической — но система вокруг неё становится детерминированной. Процесс классификации выгляди
🧩 Как приручить хаос LLM: путь к детерминированной классификации из стохастических моделей
21 октября 202521 окт 2025
3 мин