100 подписчиков
Техноманьяк
2 марта 2025
Как обучали DeepSeek R1, самую нашумевшую модель 2025 года?
DeepSeek-R1 — это модель искусственного интеллекта, разработанная китайской компанией DeepSeek, которая выделяется своими выдающимися способностями к рассуждению. Её обучение началось с версии DeepSeek-R1-Zero, которая была обучена исключительно с помощью подкрепляющего обучения (далее - RL) без предварительной настройки под наблюдением. Это позволило модели развить способности к самооценке и многократному размышлению, но возникли проблемы, такие как плохая читаемость и смешение языков. Чтобы решить эти проблемы, была создана DeepSeek-R1, которая включает данные "холодного старта". Эти данные ...
3 марта 2025