QwQ-32B: Когда ИИ учится быть человеком, не забывая про код и математику
QwQ-32B — это новая модель ИИ от команды Qwen, и, судя по всему, она обещает быть универсальной. Она обучена с помощью подкрепляющего обучения (RL) в два этапа: сначала для математики и программирования, а затем для общих навыков с использованием модели вознаграждения. Это, похоже, помогает сохранить её силу в технических задачах, добавляя при этом "человечность" — способность понимать контекст и адаптироваться к предпочтениям пользователей. По данным блога, QwQ-32B была оценена на нескольких бенчмарках:...