Найти тему
малоизвестное интересное

ИИ с глазами и ушами ребенка учится по-детски

Это первый шаг к созданию дигитантов — цифровых существ, обучающихся как дети

Извините за каламбур, но мы очень плохо понимаем, как люди понимают окружающий мир. Но еще хуже мы понимаем, как понимают мир ИИ больших языковых моделей (далее просто ИИ), типа GPT-4.

Единственное, что мы более-менее понимаем — как учатся понимать мир дети. Они просто смотрят на окружающие их предметы и слышат, как их называют взрослые. С этого сопоставления предметов и слов у каждого малыша начинается великий и таинственный процесс освоения языка — важнейшего когнитивного механизма, превратившего наших далеких предков из животных в сверхразумных существ.

ИИ до сих пор так не умел. И вот прорыв.

В статье «Основательное освоение языка глазами и ушами одного ребенка» опубликованы сенсационные результаты нового метода «человекоподобного обучения» ИИ. Эта работа — переворот в научных представлениях о взаимосвязи языка, обучения и познания.

  • До сих пор ИИ учили совершенно нечеловеческим путем, скармливая моделям триллионы слов написанных людьми текстов и сотни миллиардов созданных людьми изображений. Выявляя из гигантских непостижимых для ума людей матриц не представимое множество корреляций между словами, картинками и между словами и картинками, модель училась «понимать», как выглядят кот и пёс, дом и дым и т.д.
  • Модели нового типа, названной Contrastive Learning model (CVCL), не нужны триллионы слов и миллиарды картинок. Она учится, как ребенок, — на малом числе картинок и названий. Просто видит разные предметы перед собой и слушает, как их называют взрослые.
  • А поскольку такой ИИ — это пока еще не материализованный дигитант (цифровое существо), то в материальном мире она как бы живет в теле маленького ребенка (который растет от 6 до 25 мес.)
     — малыш учится, глядя на мир вокруг своими глазами и слушая своими ушами, как взрослые называют те или иные предметы;
     — модель же «видит» поток видео с камеры на лбу малыша и синхронизированный поток звука с расположенного рядом микрофона.

Результаты эксперимента поразительны.

✔️ Модель получила на вход всего 1% видео и аудио потоков, воспринимавшихся глазами и ушами ребенка (всего 60 часов видео и аудио, содержавших около 250 тыс произносимых взрослыми слов, повторявшихся в ходе игр, чтения книг, кормежки и т.д.)

✔️ После обучения модели исследователи протестировали ее, используя те же методы оценки, которые используются для измерения усвоения слов у младенцев: представили модели целевое слово и массив из четырех различных вариантов изображений и попросили ее выбрать изображение, соответствующее целевому слову. Результаты показали, что модель смогла выучить значительное количество слов и понятий, присутствующих в повседневной жизни ребенка.

✔️Более того, некоторые слова, которые выучила модель, могут быть обобщены на совершенно другие визуальные примеры, чем те, которые наблюдаются при обучении, что отражает аспект обобщения, также наблюдаемый у детей, когда они проходят тестирование в лаборатории.

Получив эту работу для рецензирование, один из рецензентов (довольно известный исследователь) сначала отказался её рецензировать, заявив, что описываемый в статье метод обучения в принципе невозможен. Потом, познакомившись в деталях с исследованием, признал, что оно перевернуло его представления на 180 градусов.

Продолжения этого прорыва могут быть таковы.

  1. Расширения метода обучения CVCL:
    a. от независимых неподвижных кадров к эпизодам, растянутым во времени
    b. от письменной расшифровки речи к звуку, чтобы при обучении не терять важные оттенки речи (интонации, ударение на четкие границы слов и т.д.)
    c. от фрагментарного 1% опыта к полному непрерывному потоку опыта ребенка
    Материализация модели в дигитанта (воплощенного, активного, ситуационно содетерминированного) (4 варианта, как это сделать, я рассказывал)
-2

#LLM

Ссылки:

________________________________

Ваши шансы увидеть мои новые посты быстро уменьшатся до нуля, если вы не лайкаете, не комментируете и не делитесь в соцсетях.