Microsoft затеяла масштабный эксперимент с конкретной целью: показать, что языковые модели уже справляются с офисной рутиной, а значит, сокращение персонала в пользу ИИ это разумный шаг. Три исследователя корпорации создали специальный инструмент DELEGATE-25 и прогнали через него 19 моделей, включая GPT, Claude и Gemini. Задачи взяли из реальной практики 52 профессий — юристы, финансисты, разработчики, аналитики. Каждая модель работала с документами в режиме длинного цикла: от пяти до десяти сложных правок подряд, сообщает itpro. Результат оказался полной противоположностью тому, что планировали доказать. Топовые модели в среднем уничтожали 25% содержимого документов. Среди всех 19 протестированных систем показатель потерь достигал 50%. То есть каждая вторая буква в документе могла просто исчезнуть или ее заменяла на выдуманную. Порог «готовности» исследователи установили на уровне 98% точности после 20 итераций — это минимум, при котором технологии можно доверить самостоятельную работ