Найти в Дзене
PythonTalk

State of AI 2026

🔎 Вышел свежий «International AI Safety Report 2026» — cерьезный мета-анализ состояния индустрии на февраль 2026, составленный экспертами из 30 стран. Давайте посмотрим, что в нём есть интересного именно на тематику программирования: 1️⃣ Метрика "30 минут" В отчете вводится интересная метрика прогресса: длина задачи, которую агент может выполнить автономно. — Год назад: AI тянул задачи, на которые у человека уходило <10 минут. — Сейчас (2026): Агенты уверенно закрывают тикеты, требующие от человека ~30 минут работы. — Прогноз к 2030: Ожидается, что AI сможет автономно пилить фичи, занимающие у человека несколько дней. 2️⃣ Парадокс продуктивности Отчет подтверждает то, о чем мы догадывались: — На рутинных задачах продуктивность растет на 20-30%. — На сложных архитектурных задачах использование AI-ассистентов замедляет опытных сеньоров на 19%. Причина проста: время, которое вы экономите на написании кода, вы тратите (с процентами) на отладку галлюцинаций и попытки заставить модель п

State of AI 2026 🔎

Вышел свежий «International AI Safety Report 2026» — cерьезный мета-анализ состояния индустрии на февраль 2026, составленный экспертами из 30 стран.

Давайте посмотрим, что в нём есть интересного именно на тематику программирования:

1️⃣ Метрика "30 минут"

В отчете вводится интересная метрика прогресса: длина задачи, которую агент может выполнить автономно.

— Год назад: AI тянул задачи, на которые у человека уходило <10 минут.

— Сейчас (2026): Агенты уверенно закрывают тикеты, требующие от человека ~30 минут работы.

— Прогноз к 2030: Ожидается, что AI сможет автономно пилить фичи, занимающие у человека несколько дней.

2️⃣ Парадокс продуктивности

Отчет подтверждает то, о чем мы догадывались:

— На рутинных задачах продуктивность растет на 20-30%.

— На сложных архитектурных задачах использование AI-ассистентов замедляет опытных сеньоров на 19%.

Причина проста: время, которое вы экономите на написании кода, вы тратите (с процентами) на отладку галлюцинаций и попытки заставить модель понять контекст всего монолита.

3️⃣ Проблема "Зубчатой границы" (Jagged Frontier)

Модели демонстрируют PhD-уровень в квантовой физике и пишут сложный C++ код, но фейлят простейшие задачи на пространственное мышление или не могут восстановиться после элементарной ошибки в длинном пайплайне.

Невозможно предугадать, где именно модель "посыплется".

4️⃣ Агенты все еще "не очень"

Несмотря на хайп, полностью автономные dev-агенты все еще ненадежны. Они теряют контекст, зацикливаются и не могут адекватно реагировать на неожиданные ошибки среды (например, упавший интернет или изменившийся API). Человек — обязательный элемент в процессе.

5️⃣ Кибербез: оборона проигрывает

В соревновании DARPA AI Cyber Challenge агент автономно нашел 77% уязвимостей в реальном софте.

Для сравнения: это уровень топ-5% команд (состоящих из людей).

Это палка о двух концах:

— Агенты могут патчить баги быстрее людей.

— Агенты могут находить 0-day уязвимости и писать эксплойты без участия человека.

Отчет подтверждает: атакующие уже используют AI для написания вредоносного кода и обфускации.

Полное исследование для любопытных 👈🏻