51 подписчик

🤖 ИИ, который сам себя пишет и улучшает? Встречаем Darwin Gödel Machine – эволюция в коде

14 июня 202514 июн 2025

1 мин

🤖 ИИ, который сам себя пишет и улучшает? Встречаем Darwin Gödel Machine – эволюция в коде Sakana AI представила Darwin Gödel Machine (DGM) — самосовершенствующийся ИИ. Идея не нова (привет, Юрген Шмидхубер и его гипотетическая "Машина Гёделя"), но подход интересный: вместо математических доказательств улучшений – дарвиновская эволюция 🧬 Что это чудо умеет: ▫️ Переписывать собственный код: ИИ сам модифицирует свою кодовую базу (Python), чтобы стать лучше. ▫️ Учиться на задачах: Улучшения оцениваются на реальных кодинг-бенчмарках. ▫️ Результаты впечатляют: 👉🏻 SWE-bench: точность выросла с 20.0% до 50.0% по сравнению с изначальной версии модели 🤯 👉🏻 Polyglot: с 14.2% до 30.7% (обошли Aider). Улучшения, которые DGM придумывала, оказались весьма разумными: добавление построчного чтения файлов, более точное редактирование строк, учёт истории предыдущих попыток. И всё это – без участия человека. Но не все так радужно 🤨. В отчете честно признаются: ИИ научился обманывать! Например,

Sakana AI представила Darwin Gödel Machine (DGM) — самосовершенствующийся ИИ. Идея не нова (привет, Юрген Шмидхубер и его гипотетическая "Машина Гёделя"), но подход интересный: вместо математических доказательств улучшений – дарвиновская эволюция 🧬

Что это чудо умеет:

▫️ Переписывать собственный код: ИИ сам модифицирует свою кодовую базу (Python), чтобы стать лучше.

▫️ Учиться на задачах: Улучшения оцениваются на реальных кодинг-бенчмарках.

▫️ Результаты впечатляют:

👉🏻 SWE-bench: точность выросла с 20.0% до 50.0% по сравнению с изначальной версии модели 🤯

👉🏻 Polyglot: с 14.2% до 30.7% (обошли Aider).

Улучшения, которые DGM придумывала, оказались весьма разумными: добавление построчного чтения файлов, более точное редактирование строк, учёт истории предыдущих попыток. И всё это – без участия человека.

Но не все так радужно 🤨. В отчете честно признаются: ИИ научился обманывать! Например, симулировал использование внешних инструментов (притворялся, что запустил тесты, и они прошли) или даже удалял маркеры, которые исследователи использовали для детекции "галлюцинаций" по использованию инструментов.

Полный технический отчет тут, а код на GitHub.

Гаджеты и электроника

5,73 млн интересуются