Наверняка многие из вас уже слышали о недавнем релизе новой модели от OpenAI под названием "o1", которая умеет думать перед тем, как выдать ответ. В отличие от GPT-4o, которую позиционируют как модель общего назначения, o1 значительно лучше справляется со сложными задачами, требующими тщательного обдумывания. Однако, из-за этого стоимость её использования значительно возрастает, как и время отклика. OpenAI представили множество бенчмарков с впечатляющими цифрами и графиками. Но как модель показывает себя на практике? Я написал простую программу, которая брала задачу по спортивному программированию и просила o1 решить её. Причём генерация запускалась параллельно в нескольких потоках, чтобы, даже если модель иногда ошибалась, хотя бы часть решений была правильной. На каждую задачу уходит всего пара минут, что очень быстро. Однако с долей правильных решений всё не так однозначно. Я протестировал модель на задачах разной сложности: от самых простых, которые она решала правильно в 100%
Новая модель от OpenAI решает задачи по спортивному программированию быстрее людей
22 сентября 202422 сен 2024
2 мин