Найти в Дзене

🤖 Ваш новый коллега — ИИ? Проверили: пока не уволит, но уже помогает

🤖 Ваш новый коллега — ИИ? Проверили: пока не уволит, но уже помогает Учёные смоделировали виртуальную компанию и поручили 175 реальных офисных задач 7 самым продвинутым нейросетям: GPT-4o, Claude 3.5, Gemini 2.0 и другим. Проверяли всё — от управления проектами и написания кода до общения с коллегами и работы с документами. Лучшей оказалась Claude 3.5 Sonnet: она справилась полностью с 24% задач и частично — ещё с 10%. Для сравнения, GPT-4o набрала всего 8,6%. Открытые модели вроде Llama показали результаты в 6–7%, но стоили в разы дешевле. Где ИИ работает хорошо: технические задачи, код, управление проектами, ответы в чатах. Где проваливается: финансы, админка, документооборот. Нейросети часто не понимают контекст, путаются в интерфейсах и игнорируют обратную связь. Что это значит? ИИ ещё не готов заменить офисных сотрудников, но уже может взять на себя рутину. А значит, выигрывают те, кто не боится машин, а умеет с ними работать — делегировать, проверять, дополнять. via PS Cla

🤖 Ваш новый коллега — ИИ? Проверили: пока не уволит, но уже помогает

Учёные смоделировали виртуальную компанию и поручили 175 реальных офисных задач 7 самым продвинутым нейросетям: GPT-4o, Claude 3.5, Gemini 2.0 и другим. Проверяли всё — от управления проектами и написания кода до общения с коллегами и работы с документами.

Лучшей оказалась Claude 3.5 Sonnet: она справилась полностью с 24% задач и частично — ещё с 10%. Для сравнения, GPT-4o набрала всего 8,6%. Открытые модели вроде Llama показали результаты в 6–7%, но стоили в разы дешевле.

Где ИИ работает хорошо: технические задачи, код, управление проектами, ответы в чатах.

Где проваливается: финансы, админка, документооборот. Нейросети часто не понимают контекст, путаются в интерфейсах и игнорируют обратную связь.

Что это значит? ИИ ещё не готов заменить офисных сотрудников, но уже может взять на себя рутину. А значит, выигрывают те, кто не боится машин, а умеет с ними работать — делегировать, проверять, дополнять.

via

PS Claude 3.5 Sonnet наверное моя любимая нейросеть.

Она доступна в боте Маркусе. Да и более новая версия 3.7 есть. Так что кому нужно качество обращайтесь к Маркусу.