Обзор книги “Миры, которые я вижу” от Фей-фей Ли, профессора Стэнфорда, создателя датасета ImageNet, во многом благодаря которому случился взрыв популярности нейросетей; одна из ведущих специалистов в мире по компьютерному зрению
Брал ее флагманский курс CS231n: Deep Learning with Computer Vision этой весной (с оценкой А+!), поэтому интересно было прочитать про своего преподавателя. Ниже основные тезисы книги.
🟡Для обучения AlexNet в 2012 году потребовалось 2 GPU. (AlexNet - первая нейросеть для распознавания объектов на картинке, победившая в конкурсе ImageNet в 2012 году и запустившая огромный интерес к нейросетям, названа в честь главного создателя Александра Крижевского, рожденного в Харькове). [примечание автора: один из исследователей из Meta говорил нам на лекции недавно, что для обучения их модели используется 40000 GPU, гораздо более мощных чем GPU в 2012 году]
🟡Об отпуске из академического мира чтобы работать главой по исследованиям AWS - облачного сервиса Амазон: «исследования внутри корпораций были не только выгодным с точки зрения зарплаты; они все чаще становились единственным вариантом учитывая гораздо больший доступ к видеокартам для обучения моделей». (и это она сравнивает со Стэнфордом!)
🟡О зрении и восприятии человека: “в основе человеческого визуального восприятия лежит простая идея: что, прежде всего, наше зрение основано на осознании четко определенных категорий. На распознавании вещей. Способность категоризировать дает нам силу в такой степени, что ее трудно переоценить. Вместо того чтобы погружать нас в бесчисленные детали света, цвета и формы, зрение превращает наш мир в своего рода дискретные концепции, которые мы можем описать словами — полезные идеи, выстроенные вокруг нас, как карта, сводящие сложную реальность к чему-то, что мы можем понять с первого взгляда и на что отреагировать в течение мгновения времени. Это то, как наши древние предки выживали в среде чистого хаоса, как поколения художников извлекали красоту и смысл из повседневной жизни, и как даже сегодня мы продолжаем находить свой путь в мире, определяемом постоянно растущей сложностью”.
🟡Диалог с ассистентом о высоких результатах нейросетей на конкурсе по распознаванию объектов ImageNet в 2012 году (до этого использовали статистические модели):
- Фей-фей, мы посмотрели результаты, и одна из заявок…
- Что? Что это?» — спросила я
- Ну, во-первых, они используют очень нестандартный алгоритм. Это нейронная сеть, если ты можешь в это поверить. Это же… такая древность… [примечание: нейросети были популярны в 1990х, но потом интерес к ним затух]
Действительно, большинство исследователей рассматривало нейронную сеть как пыльный артефакт, заключенный в стекло и защищенный бархатными веревками.
- Серьезно? Нейронная сеть?
- Да. Но это еще не все. Фэй-Фэй, ты не поверишь, насколько хорошо эта штука работает!
🟡О силе веры в свои идеи: “Джеф Хинтон (отец нейросетей из 1980х) не отказался от изучения нейронных сетей, даже когда это сделало его почти изгоем среди коллег”.
🟡О ренессансе нейросетей: «Определяющим недостатком нейронных сетей, долгое время считавшихся фатальными, была сложность их обучения. Даже гораздо меньшие сети прошлых десятилетий часто оказывались непрактичными. Действительно, обучение такой сети, как AlexNet, с крупнейшей в мире коллекцией изображений казалось непостижимым. Но технологии значительно продвинулись вперед, особенно когда дело касалось дешевого высокопроизводительного вычислительного оборудования, оптимизированного для конкретных приложений. Как ни странно, мир всем этим обязан популярности видеоигр…Стиль обработки чисел, предпочитаемый нейронными сетями, функционально похож на тот, который используется при рендеринге графики для видеоигр — многомиллиардной индустрии”
🟡О роли ImageNet в популяризации нейросетей: Сам небывалый доселе размер датасета (1.28 млн изображений 1000 категорий объектов) открывал возможности для обучения новых алгоритмов; если классические статистические модели показывали результаты лучше нейросетей на небольших датасетах, то на размере нейросети, требующие больших данных для обучения, были однозначным лидером.
🟡О состоянии лаборатории ИИ Стэнфорда в 2013 году: “Это было жутковато. Когда свет замигал, а тени отступили, мы увидели странную геометрическую картину, окружавшую нас: груду вышедших из употребления электронно-лучевых мониторов, выстроенных на полу, словно запертых в каком-то пограничном состоянии между хранением и переработкой, запертых на годы в темноте. Трудно было представить, что это пыльное, забытое пространство когда-либо было чем-то большим, чем прославленный антикварный шкаф, которым оно теперь казалось. Но это было так. С мусорными мешками и тележкой в руках, в неприметный полдень в начале 2013 года, мы стояли в бывшем центре всемирно известной SAIL — Стэнфордской лаборатории искусственного интеллекта”
🟡О “близорукости” ИИ:«Еще в 1970-х годах исследователь и математик Анатоль Холт подытожил эту близорукость, заявив, что ИИ — это технология, которая может сделать идеальный шахматный ход, пока комната горит».
🟡О фундаментальных знаниях: «Новое поколение слишком увлечено поиском последних исследований по ИИ на Arxiv. Но это часто приводит к отсутствию фундамента. Прочитайте Рассела и Норвига, Мински, Джона Маккарти и Винограда. Прочитайте Хартли и Зиссермана. Прочитайте Палмера. Прочитайте их из-за их возраста, а не вопреки ему. Это вечная вещь. Это важно».
Вероятно, Фей-Фей Ли имела в виде следующие классические книги:
- Stuart Russel and Peter Norvig, “Artificial Intelligence - A Modern Approach”
- Hyman Minsky “The Society of Mind”, “The Turing Option”, “The Society of Mind”, и классическая книга 1969 года “Perceptrons: An Introduction to Computational Geometry”, с критикой перцептрона, с которой начался период охлаждения интереса к AI в 1974-1980, известный как “ИИ Зима”
- Terry Winograd, “Understanding Computers and Cognition: A New Foundation for Design“, 1982)
- Richard Hartley and Andrew Zisserman, “Multiple View Geometry in Computer Vision”, 2004
- Stephen E Palmer, “Vision Science: Photons to Phenomenology”, 1999
Кстати, на днях стартап Фей-фей Ли, занимающийся разработкой модели, World Labs, ориентирующейся в 3Д мирах, привлек более 200 млн долл по оценке более 1 млрд долл. Если кто может сейчас в мире создать такую модель, то это она.
Подписывайтесь на нас:
тг: https://t.me/uleyai
вк: https://vk.com/uleyai