Новое исследование выявило неожиданные сложности в управлении современными языковыми и генеративными моделями искусственного интеллекта. Эффективность этих моделей сильно зависит от конкретной задачи, используемого алгоритма и формулировки запроса. Ученые из Apple и Университета Помпеу Фабра провели серию тестов с моделями SmolLM3-3B, Qwen3-4B и Gemma3-4B, оценивая их способность изменять формат текста, регулировать длину строки и генерировать четные или нечетные числа. В то время как для человека подобные задачи не представляют труда, модели показали разную степень успеха: Gemma3-4B в целом справлялась, а SmolLM3-3B часто допускала ошибки. При проверке способности менять формальность текста Qwen3-4B и Gemma3-4B достигли полного контроля над результатом всего за пять раундов диалога с использованием 5-shot подсказок. SmolLM3-3B же оказалась неуправляемой, демонстрируя тенденцию к чрезмерной реакции на обратную связь. В тесте на генерацию четных и нечетных чисел Qwen3-4B показала полный