Найти тему
18 подписчиков

Никто не знает как работает ИИ


Два года назад исследователи OpenAI Юрий Бурда и Харри Эдвардс пытались найти способы заставить большие модели выполнять базовые арифметические действия. Они хотели знать, сколько примеров сложения двух чисел понадобится, прежде чем большая модель сможет выполнить арифметику сложения любых двух чисел. Поначалу дела у них шли не очень хорошо. Большие модели могут запоминать примеры, но не могут решать новые задачи. Они случайно позволили некоторым экспериментам длиться несколько дней, а не часов, как ожидалось. В результате они обнаружили, что эксперимент удался: большая модель могла выполнить любое сложение, но на это ушло больше времени, чем кто-либо мог себе представить. Они и их коллеги изучили этот феномен и обнаружили, что при определенных обстоятельствах крупные модели внезапно переходят от неспособности выполнять задачи к выполнению задач, что они называют «грокингом». Инсайты такого ода — один из нескольких феноменов, над которыми ломают голову исследователи ИИ. Это подчеркивает убедительный факт, лежащий в основе глубокого обучения: никто не знает, как оно работает и почему оно работает. Крупнейшие модели сейчас настолько сложны, что исследователи изучают их как экзотические явления природы, проводя эксперименты и пытаясь объяснить результаты. Многие наблюдения противоречат классической статистике.

1 минута