люди меня слышат. Да. Отлично. Ну, всем доброе утро.
folks hear me. Yeah. All right. Well, good morning, everyone.
Спасибо, что пришли в 10 утра в понедельник, чтобы послушать наш разговор. Итак, меня
Thanks for coming out at 10am on a Monday to hear us talk. So my
зовут Кейси Юнитс. И я так рад поделиться с вами
name is Casey units. And I'm so excited to share with you a
проектом, над которым я работал около четырех лет. И прежде чем мы
project I've been working on for about four years. And before we
приступим к прекрасному обсуждению, мне нужно немного подготовиться,
get into a wonderful discussion, I do need to have a bit of a
немного контекста. И для этого я расскажу вам
setup a bit of context. And to do that, I'm going to tell you a
историю. И, как и большинство историй о силе и
story. And like most stories that are about the power and
ограничениях ИИ, эта начинается с детского праздника. Итак,
limitations of AI, this one begins at a baby shower. So in
весной 2017 года мы с женой ждали первенца.
the spring of 2017, my wife and I were expecting our first son.
Итак, некоторые из наших самых привлекательных видеоматериалов, друзья решили
So some of our most attractive stock footage, friends decided
устроить нам вечеринку. на той вечеринке. Кто-то дал нам эту
to throw us a party. at that party. Someone gave us this
книгу. Я хочу вернуть свою шляпу от Джона Клоусона. Теперь, когда я сел
book. I want my hat back by John Clawson. Now, when I sat down to
читать ее, я понятия не имел ни о ее признании критиками, ни о том, какое
read it, I had no idea of its critical acclaim nor what a
влияние она оказала на культуру. Например, фанаты переосмыслили это
cultural impact that it had. For example, fans had reimagined it
как пластилин. Моя пошла, она была переделана в
as a claymation. My has gone it had been remade into a video
видеоигру. Это был 20-минутный сюжетный фильм. Это была пьеса,
game. It was a 20 minute narrative film. It was a play,
и ее читал даже Голлум.
and it was even read by Gollum.
skorne приз это было Это было огромно. я бы никогда не
skorne prize it's been It's been huge. I never would have
догадался. Да.
guessed. Yeah.
Теперь для всех людей, которые любили это. Тем не менее,
Now for all the people that loved it. However, there were
у него была своя справедливая доля критиков. Главной проблемой, которую
it's it did have its fair share of critics. The main issue that
люди брали с собой, был финал и, возможно, менее
people were taking with it was the ending and perhaps the less
пикантные последствия того, о чем говорилось в книге. GQ сказал, что
savory implications of what the book was saying. GQ said it was
это самое тонкое одобрение убийства, которое вы когда-либо найдете. Я
the most subtle endorsement of murder you'll ever find. I
не думал, что это было, когда мы писали это. Так родился мой сын Генри,
didn't think it was when we when I wrote it. So my son Henry was
и мне не терпится прочитать им эту книгу. Но что меня
born and I cannot wait to read them this book. But what I was
действительно интересовало, так это то, когда он поймет этот конец?
really interested in is When would he understand that ending?
И когда он узнает, что случилось с кроликом? Теперь, если я это
And When would he know what happened to the rabbit? Now if I
сделал, верно, вам интересно, что это за книга и
did that, right, you're wondering what is this book and
что произошло в конце? Итак, чтобы ответить на этот вопрос, наш
what happened at the ending? So to answer that question, our
первый участник дискуссии прочитает вам книгу. Наш первый
first panelist will be reading the book to you. Our first
участник дискуссии — Памела ПАМЕЛА Сэк. Она профессор Института Пратта
panelist is Pamela PAMELA sack. She is a professor at the Pratt
, автор невероятной книги «Эмоционально
Institute, the author of the incredible book emotionally
интеллектуальный дизайн». Она основатель ученых,
intelligent design. She's the founder of change scientists,
занимающихся изменениями, наук об изменениях и лабораторий повествования. Итак, без дальнейших церемоний,
change sciences and narrative labs. So without further ado,
Памела, Паша. Ладно,
Pamela, Pacha Okay,
мы прочитаем книгу. Я просто задержу эту
so we're gonna read the book. I'm just going to hold up this
первую страницу, потому что Кейси пришла туда. Моя шляпа исчезла.
first page because Casey has come over there. My hat is gone.
Вы видели мою шляпу? Нет, я не видел твоей шляпы. Ладно,
Have you seen my hat? No, I haven't seen your hat. Okay,
все равно спасибо. Вы видели мою шляпу? Нет, я не видел здесь ни одного
thank you anyway. Have you seen my hat? No, I haven't seen any
дома. Ладно, все равно спасибо. Ты видел мое
house around here. Okay, thank you anyway. Have you seen my
сердце? Нет. Почему ты спрашиваешь меня, что не видел. Я нигде не
heart? No. Why are you asking me you haven't seen it. I haven't
видел рекламы. Я бы не стал воровать шляпу. Не задавай мне
seen any ads anywhere. I would not steal a hat. Don't ask me
больше вопросов. Хорошо, спасибо в любом случае. Вы видели мою
any more questions. Okay, thank you any way. Have you seen my
шляпу? Я ничего не видел весь день. Я пытался взобраться на
hat? I haven't seen anything all day. I've been trying to climb
эту скалу. Хочешь, я подниму тебя на него? Да,
this rock. Would you like me to lift you on top of it? Yes,
пожалуйста. Вы видели мою шляпу? Однажды я видел шляпу. Он был синий и
please. Have you seen my hat? I saw a hat once. It was blue and
коричневый. Моя шляпа не похожа на эту. Спасибо. В любом случае.
brown. My hat doesn't look like that. Thank you. Anyway. Have
Вы видели мою шляпу? Что такое шляпа? Спасибо. Во всяком случае, никто не
you seen my hat? What's a hat? Thank you. Anyway, nobody has
видел мою шляпу. Что, если я больше никогда не увижу его? Что, если никто никогда не
seen my hat. What if I never see it again? What if nobody ever
найдет его? Мой лоб. Я так скучаю по этому . В чем дело?
finds it? My forehead. I miss it so much. What's the matter? I
Я потерял свою шляпу. И никто не видел. Как выглядит твоя шляпа
have lost my hat. And nobody has seen it. What does your hat look
? Вы только что прочитали и указали и видели мою шляпу?
like? You just read and pointy and have seen my hat?
Ты Ты украл мою шляпу? Я люблю свою шляпу. Прошу прощения? Вы видели
You You stole my hat? I love my hat. Excuse me? Have you seen a
кролика в шляпе? Нет. Почему ты просишь меня открыть? См. Нет.
rabbit wearing a hat? No. Why are you asking me open? See No.
Я нигде не видел кроликов . Я бы не стал есть
I haven't seen any rabbits anywhere. I would not eat a
кролика. Не задавай мне больше вопросов. Ладно,
rabbit. Don't ask me any more questions. Okay, thank you
все равно спасибо.
anyway.
Хорошо, так что да, Памела, отличная работа. очень энергичный. Итак, надеюсь,
Okay, so yeah, Pamela, great job. very spirited. So hopefully
вы поняли, что мрачная концовка является тонким одобрением
you understood that dark ending the subtle endorsement of
убийства, но если нет, то я смог догнать автора
murder, but if not, I was able to catch up with the author and
и сам спросил его. Можете ли вы сказать однозначно, что случилось
I asked him myself. Can you say unequivocally what happened to
с кроликом? Можете ли вы просто сказать мне, потому что концовка действительно.
the rabbit? Can you just tell me because the ending is really.
Я помню, когда вышли рецензии на книгу, они как
I remember when the reviews came out with the book that they had
бы говорили о том, что это двусмысленная концовка или почти
sort of talked about it being an ambiguous ending or almost a
неожиданная концовка, и мне никогда не нравился ни один из этих терминов. Потому что я
twist ending and I never liked any of those terms. Because I
думал, что мы сделали это довольно просто. Я не
thought we did it pretty straightforwardly. I didn't
думал, что мы выдумываем это для обсуждения. Дети спрашивали меня об этой
think we were making it up for debate. Kids asked me about that
конкретной книге. Я
particular book. I
говорю, что он съел его. Итак, теперь у меня есть эта книга, в ней прямо не
say he ate him. So now, I have this book, it doesn't explicitly
говорится, что происходит. И нужно немного логики, чтобы собрать все
say what happens. And it takes a bit of logic to piece it
воедино. Поэтому я начал задаваться вопросом, когда мой сын
together. So I started wondering, when would my son
Генри поймет это? Итак, начиная с шести месяцев, я просто начал
Henry understand it? So starting at six months, I just started
спрашивать его, что случилось с кроликом? Что случилось с
asking him, what happened to the rabbit? What happened to the
кроликом? Вы можете сказать мне? Что случилось с этим? Я продолжал спрашивать
rabbit? Can you tell me? What happened to that? I kept asking
его, и спрашивал кролика, и спрашивал его, и смотрел, смогу ли я
him and asking the rabbit and asking him and seeing if I could
поймать этот момент осознания на камеру, поймет ли он это?
catch that moment of realization on camera, would he get it?
Соединит ли он вдруг все точки? Так что в то же самое время
Would he suddenly connect all the dots? So at the same time
, когда я спрашиваю Генри, я также в своей карьере читаю все больше и
that I'm asking Henry, I'm also in my career reading more and
больше об ИИ, обо всех
more about AI and all the capabilities and all the
возможностях и возможностях, и о том, как это может быть связано с моей работой в качестве
possibilities and how it could be coming from my job as a
дизайнера продукта. И я начал немного беспокоиться и
product designer. And I started to get a bit concerned and
думать, ладно, а что на самом деле может сделать этот ИИ? Таким образом, через
thinking, okay, what can this AI actually do? So through the
дизайнерское и техническое сообщество в Чикаго я связался
design and tech community in Chicago, I was connected with
со вторым спикером, студентом Алексом. Он основатель и
our second speaker, Alex students. He's the founder and
генеральный директор почему ИИ. Он инструктор по программе Northwestern MBA,
CEO of the why of AI. He is an instructor at Northwestern MBA
программе MBA, где он создал все курсы по ИИ и
program, MBA program, where he's created all the AI courses and
преподает их. И он автор замечательного ИИ для людей
teaches it. And he's the author of the wonderful AI for people
в бизнесе. Поэтому я пригласил Алекса на интервью, но не сказал
in business. So I asked Alex to an interview, but I didn't tell
ему, о чем оно. И опять же, это странная часть.
him what it was about. And again, this is the weird part.
Ничего, я просто почитаю тебе книгу. Итак, у вас есть
It's okay, I'm just gonna read the book to you. So you have a
ощущение, это очень коротко, и тогда это поможет в
sense of it, it's very short, and then it'll help with the
обсуждении. Хорошо. Звучит неплохо. Машинное обучение в пространстве ИИ,
discussion. Okay. Sounds good. Machine learning in AI space,
может ли оно в настоящее время понять это? И в этом заключается то, о чем
could it currently understand that in? And therein lies what
мы сегодня будем говорить ? Итак, в конечном счете, я
we're going to be talking about today? So ultimately, what I'm
спрашиваю, можем ли мы взять эту книгу в каком-нибудь цифровом формате,
asking is, could we take this book, in some digital format,
поместить ее в какую-нибудь модель ИИ, она ее поймет, мы спросим ее, что
put it into some AI model, it comprehends it, we ask it what
случилось с кроликом, и она расскажет нам, ягодке,
happened to the rabbit, and it could tell us, the berry, the
кролик. Так вот что я назвал медведь поедает
rabbit. So this is what I've come to call the bear eats
кроликов или медвежий тест. А теперь, после всего этого контекста и
rabbits, or the bear test. And now after all that context and
истории, давайте перейдем к обсуждению. Есть много
story, let's get to the discussion. There are a lot of
вещей, которые нам нужно сделать, чтобы наш ИИ прошел
things that we need to happen in order for us to have our AI pass
это медвежье испытание. Не могли бы вы двое провести нас через эти задачи
that bear test, could the two of you walk us through these tasks
и рассказать, как ИИ может решить каждую из них?
and tell us how AI might address each of them?
Конечно. Итак, чтобы пройти медвежье испытание. Те из нас, кто знаком с ИИ
Sure. So to pass the bear test. For those of us familiar with AI
и машинным обучением, знают , что все начинается с данных,
and machine learning, we know that it all starts with data,
верно. И нам нужны данные в определенных типах форм. Таким образом, пиксельные
right. And we need data in certain types of forms. So pixel
данные в изображениях, как правило, с некоторыми существующими методами компьютерного зрения
data in images, normally, with some of the computer vision
, прямо сейчас вы берете изображения, которые
techniques that are out there, right now you take images, which
на самом деле являются просто пиксельными данными, вы создаете своего рода векторы
are really just pixel data, you create kind of vectors of
чисел, где эти числа представляют разные
numbers, where these numbers represent the different colors
цвета изображения. пикселей. Итак, красный, зеленый, синий, обычно RGB, а затем
of the pixels. So red, green, blue, usually RGB, and then a
число прозрачности. А потом вы как бы разворачиваете все эти
transparency number. And then you sort of unroll all these
пиксели в изображение, создаете этот гигантский вектор чисел. И
pixels in an image, create this giant vector of numbers. And
это становится своего рода эталонным представлением
that becomes some sort of reference data representation of
данных изображения. Точно так же и с текстом, который у нас есть здесь, в этой
an image. Likewise, with text, which we have here, in this
книге, есть два типа неструктурированных данных: один — это данные изображения, верно?
book, two types of unstructured data one is image data, right?
Как и персонажи, которых вы видите на протяжении всей книги. И
Like the the characters that you see throughout the book. And
тогда у нас есть диалог между персонажами в
then we have the dialogue between the characters in sort
виде естественного текстового типа данных, нам также нужно будет преобразовать это
of natural text type of data, we also would need to convert that
в какое-то представление данных . И затем
into some sort of data representation. And then we
нам нужно было бы каким-то образом передать оба этих изображения вместе с
would need to have some way to feed both of those together the
данными изображения и языковыми данными для каждой страницы в какую-то
image data and the language data for every page into some sort of
модель ИИ, которая либо предварительно обучена, либо нам нужно будет
AI model that's either pre trained or that we would need to
обучить, а затем иметь возможность в конце об этом, спросите эту модель,
train and then be able to at the end of that, ask this model,
эту систему ИИ, что случилось с кроликом в конце? И
this AI system, what happened to the rabbit at the end? And in
что для этой модели? Чтобы ответить на этот вопрос, в идеале, который я
order for that model? To answer that, ideally, in sort of what I
бы назвал идеальным медвежьим тестом, модель должна быть в
would consider the ideal bear test, the model would have to be
состоянии понять все изображения в книге так, как
able to understand all the images in the book, just as a
ее увидит человек. Там нет аннотации, которая говорит: это
human would see it. There's no annotation that says, This is a
медведь, это змея, это черепаха. Ему также придется
bear, this is a snake, this is a turtle. It will also have to
прочитать весь текст на каждой странице и каким-то образом выяснить, кто
read all the text on every page, and somehow figure out who's
что говорит, потому что опять же, текст тоже не аннотирован, а
saying what, because again, the text isn't annotated either, and
затем собрать все воедино и правильно ответить на вопрос.
then put everything together and answer the question correctly.
И стоит упомянуть одну вещь: в этой книге происходит многое,
And one thing worth mentioning is there's a lot going on in
помимо изображений и текста, часто это то, что вы не
this book beyond just images and text, it's often what you don't
видите или что не включено, и явно не указано. Это
see or what's not included, and is not explicitly stated. That
важнее всего и без всего Пав.
matters most and without all Pav.
Да, вот где я вхожу. Потому что я
Yeah, that's that's kind of where I come in. Because my
сосредоточен на эмоциях и искусственном интеллекте, который
focus is on emotion and artificial intelligence that
пытается понять эмоции. И поэтому я смотрю на это с этой
tries to understand emotion. And so I look at it from that
точки зрения. И я была немного лучше знакома с книгой, чем
perspective. And I was a little more familiar with the book than
Алекс, потому что у меня три дочери. Итак, я читал эту
Alex because I have three daughters. And so I had read the
книгу раньше, и я был знаком с ней, и подумал о том,
book before and I was familiar with it and thought about well,
хорошо, если бы у нас были какие-то эмоции, которые помогли бы нам со
okay, if If we had some kind of emotion to help us with the
смыслом, и это много детских книг о том, как
meaning, and that's a lot of children's books are about
прорабатывать свои чувства. хорошо насчет того, чтобы чувствовать свои
working out your feelings feeling okay about feeling your
чувства, играя свои чувства. И поэтому я подумал: «
feelings role playing your feelings. And so I thought,
Ну, как ИИ может подойти к этому в этой книге, вероятно, не
Well, how could an AI approach this in this book, probably not
к выражениям лиц персонажей, это один из способов, которым
the facial expressions of the characters, that's one way that
он обычно работает». И это кодирует части вашего лица. Итак, ваши
it normally works. And it codes up parts of your face. So your
губы подняли цифру 11. Возможно, это означает, что вы улыбаетесь, что,
lips raised a 11. That means maybe that you're smiling, which
возможно, означает, что вы счастливы. У них на самом деле нет рта.
means maybe that you're happy. They don't actually have mouths.
Так что это создает небольшую проблему. Да и
So that creates a little bit of a problem. And there's not much
выразительности мало. Хотя я нашел здесь свою любимую картинку, к
expressiveness. Although I found my favorite picture in here,
которой надо было обратиться раньше. Посмотрим, о, вот
which I should have turned to earlier. Let's see, oh, here it
оно. Этот какой-то экспрессивный. Потому что вы можете видеть
is. This one's kind of expressive. Because you can see
язык тела, верно, большая часть нашего общения,
the body language, right, a lot of our communication, especially
особенно эмоциональное общение, — это язык тела. Итак, вы видите
the emotional communication is body language. So you see the
глаза, которые вы видите, кролик как бы откинулся назад, может быть, немного
eyes you see, the rabbit kind of leaning back, maybe a little bit
обеспокоен тем, что может произойти в этой ситуации. Так что, но я не
anxious about what might happen in the situation. So but I don't
думаю, что он получит это от этого. Затем я
think it's going to get it from that. Then the other thing I
подумал еще о чем-то вроде: «Хорошо, а как насчет вещей, которые
thought of was like, Okay, what about things that are symbolic
символизируют эмоции, таких как красный цвет, например, много раз у нас
of emotion, like the color red, for instance, a lot of times we
есть, знаете ли, разные эстетические качества, которые напоминают
have, you know, different aesthetic qualities that remind
нам об эмоциях или о чем-то другом?» символизирует эмоцию. Но
us of an emotion or that symbolizes an emotion. But red
красный действительно сложен, потому что он может означать гнев,
is really complicated, because it can mean anger, it can mean
энергию, возбуждение. В некоторых культурах это гнев. И
energy, it can mean excited. In some cultures, it's angry. And
было проведено множество исследований цвета , если вы когда-нибудь захотите сделать
there's been tons of color research, if you ever want to do
как Википедия, глубоко погрузиться в цвет и эмоции, вы
like a Wikipedia, deep dive on color and emotion, you'll be
застрянете там на недели, я вам гарантирую. Но иногда это
stuck there for weeks, I guarantee you. But sometimes it
означает гнев. Иногда это не так. И затем, чтобы ИИ
means anger. Sometimes it doesn't. And then for the AI to
соединил этот красный фон страницы со
put that together that red background of the page with the
шляпой, он мог бы установить эту связь вместо
hat, it might make that connection instead of the
эмоциональной связи. Так что на данный момент очень маловероятно
emotional connection. So it's pretty, pretty unlikely at this
, что он обнаружит какие-либо эмоции в тексте,
point, that it will detect any of the emotion in the text,
что действительно важно. Хотя, Кейси, ты поразил меня
which is really important. Although Casey, you blew my mind
прямо перед панелью здесь, потому что он сказал мне, О, потому что я
right before the panel here, because he told me, Oh, cuz I
сказал, О, я должен читать это тихим голосом, как я обычно
said, Oh, should I read it in little voices like I normally
делаю? И он такой: «Ну, Джон Клоусон сказал мне, что он имел в виду,
do? And he's like, Well, John Clawson told me that he meant it
чтобы он был плоским без нет. Вот и я не знаю, что с этим делать.
to be flat with no. And so I don't know what to do with that.
Если я, если я могу. Да. Поэтому я думаю, что большой задачей здесь было бы
If I, if I may. Yeah. So I think a big task here would be
сначала просто распознать персонажей, узнающих это как
initially just recognizing the characters recognizing this as a
медведя, распознать этого кролика, узнающего в вашей шляпе,
bear, recognizing this rabbit recognizes in your hat in order
чтобы иметь возможность соединить все точки. Ранее я взял этих
to be able to connect all the dots. Now earlier, I taken these
персонажей и поместил их в модели компьютерного зрения
characters, and I put them into the computer vision models for
для Google, Microsoft и Amazon. И они сказали, что это часы,
Google for Microsoft for Amazon. And they said it was a clock,
они сказали, что это ковер, они сказали, что это конус. И не
they said it was a rug, they said it was a cone. And there
было основанной на этих системах возможности соединять
was no ability based on those systems to be able to connect
то, чем эти вещи не являются. Итак , уже есть
what these things aren't. So already, there's there's a
проблема, верно? Можете ли вы помочь нам понять распознавание объектов
problem, right? Can you help us understand object recognition
и компьютерное зрение? И как это может быть? Как новейшие
and computer vision? And how that might? How the newest
модели могут сыграть в этом роль?
models could play into this?
Да, абсолютно. Итак, есть огромные наборы данных
Yeah, absolutely. So these, there's huge datasets of images
изображений, например, сеть изображений — известный пример. И есть
out there, like image net is a famous example. And there's a
куча моделей компьютерного зрения , которые были предварительно обучены на
bunch of computer vision models that have been pre trained on
этом огромном наборе данных изображений. И эти изображения имеют тенденцию быть помеченными, что
this massive image dataset. And those images tend to be labeled,
означает, знаете ли, если есть изображение хот-дога, для тех из
meaning, you know, if there's an image of a hot dog, for those of
вас, кто является поклонником Силиконовой долины , хот-дог, а не хот-дог,
you that are Silicon Valley fans, hot dog, not hot dog,
верно? Отличный эпизод, но вы знаете, он помечен как хот-дог, если
right? Great episode, but you know, it's labeled hot dog, if
там есть кот, он помечен как кот и так далее и тому подобное. Итак,
there's a cat, it's labeled cat, and so on and so forth. And so,
вы знаете, вы обучаете эти модели, они видели достаточно
you know, you train these models, it's seen enough
примеров различных объектов с меткой того, чем они
examples of different objects that had the label of what they
были, что они как бы учатся сопоставлять изображения, которые, опять же, являются
were, that it kind of learns how to map images, which again, is
просто пиксельными данными, верно? И шаблоны, по сути,
just pixel data, right? And patterns, essentially, they
становятся детекторами шаблонов, если они начинают
become pattern detectors, if they, they start to recognize
распознавать маленькие кошачьи ушки и усы, и, вы знаете, кошачьи
like little cat ears and whiskers, and, you know, cat
черты, они как бы распознают эти шаблоны как
features, it sort of recognize those patterns as being
связанные с этим ярлыком или словом кошка. Проблема в том,
associated with that label or word cat. The problem is, is
что существует бесконечное количество возможностей, когда дело доходит
that there's an infinite number of possibilities when it comes
до изображений, верно? разные объекты можно вращать
to images, right? different objects can be rotated in
определенным образом. Их можно увеличивать и уменьшать. Так что иногда это
certain ways. They can be scaled in and out. So sometimes they're
очень маленькие изображения, иногда они очень большие. Освещение
very small image, sometimes they're very big. The lighting
может быть разным, контраст , оттенок, всякие разные
can be different, the contrast, the hue, all sorts of different
вещи. И это только с реальными, знаете ли, объектами. Итак
things. And that's just with real, you know, objects. So
, скажем, это фотографии автомобилей, кошек или
let's say these are photographs of like cars or cats or
чего-то еще, в ту минуту, когда вы говорите, и уже со всеми
whatever, the minute you're talking and already with all
этими различными вариациями. Но теперь, если вы говорите о
those different variations. But now if you're talking about
каракулях и рисунках и других, например, некоторые с Кранцем
doodles and drawings and different, like some with Kranz,
, некоторые с маркерами, некоторые с ручками, некоторые с
and some with markers, some with pens, some with like the
иллюстрациями здесь, вы начинаете входить в еще один
illustrations here, you start to get into yet another sort of
круг бесконечных вариаций. И поэтому эти модели действительно
round of infinite variations. And so these models really
изо всех сил пытаются изучить все шаблоны во всех этих
struggle to learn all the patterns across all these
различных вариациях. У меня есть все эти разные объекты. И поэтому
different variations. I have all these different objects. And so
часть того, что мы видим там только со стороны изображения, заключается в том, что
part of what we're seeing there on the image side only is that,
да, я всегда поражаюсь тому, как в первый раз маленькие дети
yeah, I'm always amazed that like the first time, young kids
могут видеть эту книгу, они знают, они знают, что это барьер прямо
can see this book, they know, they know that's a barrier right
здесь. Они знают, что это кролик, мой сын может видеть рисунок
there. They know it's a rabbit, my son's can see a drawing of a
банана, настоящий банан и изображение банана. И они
banana and an actual banana and a picture of a banana. And they
знают, что все это одно и то же. Но они не были так
know all those are the same things. But they haven't been so
легко обучены этому. Я всегда поражаюсь, как, насколько это просто для
easily trained on it. I'm always amazed how, how simple it is for
них. Но какая сложная задача на самом деле. Так что я собираюсь
them. But what an complex task it actually is. So I'm going to
вернуться к тебе, Памела. В своей книге «Эмоционально
come back to you, Pamela. In your book, emotionally
интеллектуальный дизайн» вы познакомили меня с идеей
intelligent design, you introduced me to the idea of
эмоционального ИИ и способностью читать эти эмоции. Вы
emotion AI and the ability to read these emotions. You touched
немного коснулись мимики, он коснулся языка тела. Можете ли
a bit on facial expressions, he touched on body language. Can
вы рассказать нам больше о них, почему и как они работают в настоящее время?
you tell us more about those and why and how they currently work?
И если бы они могли,
And if they could,
да, ну, я имею в виду, если это так, например, игровая версия
yeah, well, I mean, if so, for instance, the play version of
этой книги, возможно, они могли бы немного поработать над ней. Потому
this book, probably they could work a little bit on it. Because
что эмоциональный ИИ определяет выразительность
what emotion AI does is it detects expressiveness in your
вашего лица, тон голоса или жесты, вызывает
face, or in your tone of voice or in your gestures, summon your
частоту сердечных сокращений. Или, если у вас пот на коже, есть
heart rate. Or if you have sweat on your skin, there's like tons
куча интересных экспериментов, например, когда подростки отправляют друг
of interesting experiments about like teenagers sending each
другу романтические или сексуальные сообщения, а затем измеряют уровень их пота
other romantic or sexy texts, and then measuring their sweat
и тому подобное. Итак, вы знаете, но это очень
levels and stuff like that. So you know, but it's very
рудиментарно, это похоже на распознавание эмоций на уровне малыша. Так что,
rudimentary, it's like toddler level recognition of emotion. So
если это действительно преувеличенное лицо или действительно преувеличенный
if it's a really exaggerated face, or really exaggerated
тон, он может разозлиться, и ему нужно сделать несколько прыжков прямо
tone, it might get angry, and it needs to make a few leaps right
от тона очень взволнованного и повышенного до, ладно, это
from the tone is very agitated and elevated to, okay, this
означает, что может быть около 50%, сердитых и 20% взволнованы, но мы
means there may be like 50%, angry and 20% excited, but we
видим только самую высокую вероятность. Итак, мы с
only see the probability that comes out the highest. Now, one
Кейси говорили об этом, так это о текстовой части,
thing Casey and I talked about this is the text part of it,
потому что есть распознавание эмоций, которое также пытается
because there is emotion recognition that tries to
понять настроение и текст. И как вы можете
understand the sentiment and text, as well. And so you can
видеть из текста в этом, он довольно плоский, в нем не так
see from the text in this, it is kind of flat, there aren't a lot
много слов для эмоций, но что происходит в текстовых базах данных
of emotion words, but what happens in the text databases
, которые закодированы для эмоций, когда они смотрят на слова,
that are coded for emotion as they're looking at words that
которые не являются эмоциями. просто сказать эмоцию, хотя это работает лучше всего, но
aren't just saying an emotion, although those work best, but
было каким-то образом помечено, например, контролируемым или
have been flagged somehow through like supervised, or
направленным обучением быть эмоциональным. Так что это могло получить это
directed learning to be emotional. So it could get it
от этого. И это может быть достигнуто за счет выразительного
from that. And it could get it from expressive, you know,
удлинения слов, как мы делаем в тексте. Так что, когда мы говорим,
lengthening of words like we do in text. So when we say, you
знаете, привет, или даже делаем это лично, сейчас это как бы
know, hey, or we even do it in person, now, it's kind of seeped
просачивается, как во время наших зум-звонков. Правильно, пока вы нащупываете
over, like on our zoom calls by. Right, while you're like groping
кнопку «Завершить собрание» и поддерживаете зрительный контакт
for the End Meeting button and maintaining your eye contact
с веб-камерой. Красивая, это красивая вещь. Но в этой
with the webcam. Beautiful, it's a beautiful thing. But in this
книге все заглавные, когда у него есть какая-то реализация, а у
book, there is all caps, when he has sort of the realization, and
тебя и так далее, если ты ребенок, и ты видишь все заглавные,
you have and so like, if you're a child, and you see all caps,
эти буквы просто стали больше, даже если ты не вроде текстовых сообщений,
these letters just got bigger, even if you're not like texting,
но кто знает трехлетних детей, возможно, они переписываются друг с
but who knows three year olds, probably they're texting each
другом, знаете ли, что угодно. Но даже если вы этого не знаете, вы
other, you know, whatever. But even if you don't know that, you
знаете, буквы стали больше, и вы видите красный цвет, и вы видите
know, the letters got bigger, and you see the red, and you see
его глаза, может быть, немного расширившиеся, или вы или вы
his eyes, maybe widening a little bit, or you or you
проецируете это на него, вы можете получить это. Но пока искусственный интеллект
project that onto it, you can get it. But AI so far isn't
не обучен всем выразительным способам использования языка
really trained on all the expressive ways we use language
и текста, в сообщениях или в Интернете. Это обученный и более
and text or in posts or online. It's trained and more kind of
формальный язык. И это большой сдвиг, который происходит в
formal language. And that's a big shift that's happening in
нашей культуре прямо сейчас. Так что я не знаю что.
our culture right now. So I don't know what.
Поэтому я хотел бы, чтобы вы коснулись анализа настроений. И я
So I like to you touched on sentiment analysis. And I'm
собираюсь привести тебя сюда, Алекс, потому что я знаю тебя, ты
going to bring you in here, Alex, because I know you, you
много пишешь об этом в своей книге, и я знаю, что ты
write extensively about it in your book, and I know you've
сам над этим работал. Итак, если бы мы посмотрели только на это,
done work on it yourself. So if we were to look at just this,
Сью, на саму историю и только на слова, чувствуете ли вы, что какие-
Sue, the story itself, and just the words, do you feel like any
то эмоции не из самих изображений, а из самих
sort of emotion not from the images itself, but the words
слов можно было бы извлечь и из того, как
itself could be could be extracted and how the story
работает история? Или просто если вы хотите поговорить о понимании истории в
works? Or just if you want to speak to story comprehension in
целом? И что из него можно было бы вытащить таким образом? Да,
general? And what could be pulled out of it that way? Yeah,
абсолютно. Итак, короткий ответ, безусловно, для тех, кто
absolutely. So short answer is definitely so for those who are
не знаком с анализом настроений, это такая область
not familiar with sentiment analysis, it's this area of
искусственного интеллекта, где, ну, допустим, вы начинаете
artificial intelligence, where, you know, let's say you start
с кучи текстовых данных и передаете их в эти модели
with a bunch of text data, and you pass it in these models have
, обученные заранее, чтобы выяснить, знаете ли, является ли
been trained in advance to kind of figure out, you know, is the
общий положительный налог не нейтральным, а отрицательным, он может
tax overall positive isn't neutral as a negative, it could
быть более детализированным, чем то, что он не должен быть просто этими
be more granular than that it doesn't have to just be those
тремя категориями. Итак, вы знаете, у вас может быть куча других
three categories. So, you know, you can have a bunch of other
типов категорий настроений. Но, по сути, вы
types of categories of sentiment. But essentially, you
знаете, системы ИИ были обучены делать это довольно хорошо
know, AI systems have been trained to do pretty well at
. Таким образом, они могли сделать это для каждого слова,
doing that. So they could do it on a per sort of word or per
предложения или абзаца. Таким образом, вы можете в основном сказать,
sentence or per paragraph basis. So you can basically say like,
скажем, весь красный текст на этой странице, вы знаете, я его не
let's say all the red text on that page, you know, I haven't
видел. Я нигде не видел шапки . Я бы не стал воровать
seen it. I haven't seen a hat anywhere. I would not steal a
шляпу. потому что в нем есть слово сталь, например,
hat. because it has the word steel in it, for example, the
модель может каким-то образом обнаружить некоторое количество негатива или
model might somehow detect some amount of negativity or
что-то в этом роде и классифицировать этот конкретный абзац как
something and classified this particular paragraph as being
вроде 80%, негативный, вы знаете, 20, ну знаете, 10%, нейтральный и
like 80%, negative, you know, 20, you know, 10%, neutral and
10 % положительных или что-то в этом роде . И эта идея анализа настроений
10% positive or something like that. And that idea of sentiment
была распространена даже на аудиоданные, или данные изображения,
analysis has been extended to even audio data, or image data,
или даже данные зрения, как сказала Памела, где, вы знаете, если
or even vision data, like Pamela said, where, you know, if
кто-то говорит, вы можете как бы определить, звучит ли он в целом
somebody is talking, you can kind of detect, are they overall
счастливо или грустное звучание или что-то в этом роде из
happy sounding, or sad sounding, or something like that from the
аудио, а также изображения, знаете, опять же, лицо,
audio, as well as images, you know, again, the face facial
мимика, и так далее, и тому подобное. Так это можно сделать на
expressions, and so on and so forth. So it can be done on a
налоговой чисто налоговой основе?
tax purely a tax basis?
Что с повторением? Это было то, что меня поразило, как
What about the repetition? That was something that struck me as
я думаю, если бы вы были ребенком, которому читали бы эту книгу или читали
I think if you were a kid having this book read to you or reading
ее, и вы бы видели этот текст здесь? А потом в самом конце
it, and you saw this text here? And then at the very end, the
Медведь говорит, почти то же самое? Думаешь, я не уверен
Bear says, almost the same thing? Do you think I'm not sure
, получится это или нет? Но для меня этот вид выделялся
if it would get that or not? But to me that kind of stood out as
как образец? Потому что ИИ любит шаблоны? И он ищет
a pattern? Because AI loves patterns? And it's looking for
закономерности? Так что это может быть что-то маленький
patterns? So that that might be a little something a little
намек?
hint?
Ну это? Это отличный вопрос. Потому что ИИ. Так что, во-
Well, it's? That's a great question. Because AI. So first
первых, вероятно, не по большей части, потому что
of all, probably not for the most part, because there's a lot
с этим налогом много чего происходит, где, вы знаете, кролик здесь ведет
going on this tax, where, you know, the the rabbit here is
себя как-то подозрительно, прав и виновен и тому подобное, мы как
acting kind of shady, right and guilty and things like that, we
бы улавливаем. что мы такие, ты лжешь. Во-
kind of pick up on that we're like, You're lying. First of
первых, ты, наверное, украл шляпу. И ты как бы перестарался
all, you probably did steal the hat. And you're you're sort of
с ответом на вопрос, который задал медведь, знаешь, ты
over answering the question that the bear asked, you know, you're
говоришь слишком много, что показывает, что ты, может быть, немного
talking a bit too much, which shows that you're maybe a little
нервничаешь, и все в таком духе. Так что здесь многое происходит,
nervous, all that sort of stuff. So there's a lot going on here,
и мы, люди, можем обнаружить, что ИИ не очень хорош в правильном ИИ
that we humans can detect that AI isn't very good at right AI
на самом деле не очень хорош в здравом смысле, рассуждениях и
is not actually very good at Common Sense and reasoning and
тому подобных вещах, о которых мы поговорим чуть позже.
things like that, which we'll talk about a little bit later.
Но что интересно, так это то, что ИИ, обученный
But what what is interesting, though, is AI with when trained
на достаточном количестве данных, может улавливать некоторые интересные вещи. Итак, один
on enough data can pick up on some interesting things. So one
пример, я не знаю, опять же, возвращаясь к Силиконовой долине
example is, I don't know, again, going back to Silicon Valley,
, шоу. По совпадению, парень, который играет генерального директора этого шоу
the show Coincidentally, the guy that plays the CEO of that show,
, у них есть поднятие рук? Кто из вас видел этот ИИ?
is do they have a show of hands? How many of you saw that AI?
Сгенерированный скрипт? И он разыграл это? Хорошо. Да. Итак, что они
Generated script? And he acted it out? Okay. Yeah. So what they
сделали, так это они сделали этот тест, где они взяли, я забыл, сколько, но
did is they did this test where they took I forget how many but
тонны и тонны сценариев и сценариев фильмов из всех
tons and tons of screenplays and movie scripts from like all
этих научно-фантастических фильмов, и в основном из научно-фантастических материалов, и фэнтезийных
these sci fi movies, and mainly sci fi stuff, and fantasy
фильмов, я думаю, из 80-х и 90-е. И затем они заставили
movies, I think from like the 80s and 90s. And then they had
этот ИИ автоматически сгенерировать сценарий. И в сценарии к
this AI auto generate the script. And in the script for
этому новому сценарию. Это персонажи снова и снова, они продолжают
this new screenplay. They're the characters over and over, keep
говорить что-то вроде «Что происходит?» Я не понимаю, что
saying things like, what's going on? I don't understand what is
это? Что творится? Я не понимаю. И причина в том, что
this? What's happening? I don't get it. And the reason being is
внутри фантастики и этого конкретного жанра фильмов, вы знаете, часто
inside fi and that particular genre of movies, you know, often
персонажи находятся на этих разных планетах. И
characters are on these different planets. And there's
эти разные виды инопланетян, и эти
these different species of aliens, and there's these
разные корабли, все сбивает с толку, понимаете, вы
different ships, things are confusing, you know, you're
пытаетесь решить миссию или что-то в этом роде. Таким
trying to solve a mission or something. And so in that way,
образом, модель искусственного интеллекта уловила определенные темы,
the the AI model did sort of pick up on that certain themes
такие как путаница, непонимание, ситуационная
more so of like confusion, lack of understanding, situational
неосведомленность или что-то еще, о чем вы хотите говорить.
unawareness, or whatever, however you want to talk about.
Но да, это довольно сложная проблема,
But yeah, this is a significantly difficult problem,
это медвежье испытание, и мы немного поговорим об этом здесь
this bear test, and we'll talk about that more here in a little
.
bit.
Я был сбит с толку вместо того, чтобы солгать. И, вы знаете, эмоциональный ИИ
I was confused instead of lying. And, you know, emotion AI is
действительно одержим ложью и пытается обнаружить лжецов,
really obsessed with lying as well and trying to detect liars,
Пол Экман, у которого, как вы знаете, есть своего рода фундаментальная теория,
Paul Ekman, who, you know, has sort of the foundational theory
стоящая за нынешним состоянием эмоционального ИИ, также разработал
behind the current state of emotional AI has also developed
так называемое кодирование движений лица. система, которую до того, как она была
what's called the facial action coding system that before it was
закодирована в машинах, научили любить агентов Управления транспортной безопасности, шпионов и
encoded in machines, was taught to like TSA agents and spies and
тому подобное, чтобы посмотреть, могут ли они определить, лгут люди
stuff like that, to see if they could tell if people were lying
или нет. Короткий ответ, не очень. В любом случае, вероятно,
or not. Short answer, not so great. Anyway, probably people
люди немного лучше, чем машины, но,
are a little bit better than the machines but there are some
может быть, есть некоторые сигналы, которые вы намекали на то, что говорите слишком
signals maybe that you that you hinted that here of talking too
быстро, повторяя себя. Я не знаю, ты можешь. Хотя, возможно, на это
fast repeating yourself. I don't know you can. Maybe the way it's
повлияло бы то, как он работает.
run would impact it though.
Итак, эмм, просто краткое примечание о том, что Facebook сделал что-то под
So um, so just a quick side note of Facebook did something called
названием «Ненавистный мем- проект Facebook», где они создали
the Facebook hateful meme project where they created an
алгоритм для прочесывания сети социальных сетей и попытки
algorithm to comb comb the social media network, and try to
найти мемы, которые, возможно, запугивают, а затем помечают их.
find memes that were perhaps bullying and then flagging them.
И в качестве примера они могли
And they would have for an example that it could not flag
бы указать, что ваш новый уход за кожей выглядит великолепно.
would be something like your new skincare routine looks great.
А потом это изображение крокодила, или здесь все твои
And then it's a picture of a crocodile, or here all of your
друзья, а потом это пустыня. Таким образом, компьютер не мог
friends and then it's a desert. So so the computer couldn't
соединиться или ИИ соединил эти две вещи вместе, мы
connect or the AI and connected those two things together, we're
говорим что-то на самом деле обидное. А для меня как для
saying something actually kind of hurtful. And for me as a as a
дилетанта, как я это читаю, так и для игривого, ага. И что касается меня, когда я
layman, as I read this, or playful, yeah. And for me, as I
читаю эту книгу, у меня есть этот экран, потому что я чувствую себя
read this book, I have this screen up because I feel like
Алексом, ты говоришь типа, откуда ты знаешь, что лжешь? В этом
Alex, you're saying like, how do you know you're lying? In this
случае? Если бы система должна была увидеть, скажем, я должен был бы
case? It the system would have to see say, I would have to
понять, что говорят кролики, она говорит, что я нигде не
understand that the rabbits talking, it says, I haven't seen
видел рук, и на ней шляпа. Поэтому мы знаем, что
any hands anywhere, and it has a hat on. So therefore we know we
имеем ложь. Итак, на этой странице многое требуется даже просто
have a lie. So on this page, there's a lot required even just
для того, чтобы понять, что на самом деле говорится. Не могли бы вы
to understand what's actually being said, Could you can you
рассказать больше о такого рода мультимодальных входных данных, о том, как
talk more about that kind of multimodal inputs, how multiple
вводятся несколько вещей? И как тогда в них можно разобраться?
things are put in? And then how sense can be made of them?
Потому что мне кажется, что для меня это своего рода
Because I feel like, for me, it seems like that's the kind of a
ключ к пониманию всего этого.
key to understanding all this.
Да, это отличный вопрос. Такая мультимодальность в ИИ.
Yeah, that's a great question. So multi like modality in AI.
Когда люди используют термин модальность, они обычно
When people use the term modality, they're usually
говорят о типе данных, будь то аудиоданные, изображение,
talking about the type of data, whether it's audio data, image,
данные, текст, данные и тому подобное. Сегодняшний ИИ в основном использует
data, text, data, that sort of thing. Today's AI mainly uses
одну модальность для каждой модели. Итак, вы знаете, модель компьютерного зрения
one modality per model. So you know, a computer vision model
может обнаруживать объекты и подобные вещи на изображении, но она
can detect objects and things like that in an image, but it
не может анализировать текст или понимать налоги или проводить анализ настроений в отношении
can't analyze text or understand tax or do sentiment analysis of
налогов. Точно так же, вы знаете, модель, которая работает с текстом, может быть в
tax. Likewise, you know, a model that works with text might be
состоянии предсказать, знаете, некоторые, например, когда вы печатаете в своем
able to predict, you know, some, like, as you're typing in your
почтовом клиенте, я уверен, что большинство из нас видели автоматический
email client, I'm sure most of us have seen the auto
прогноз, автоматическое завершение, это все управляемый ИИ. Это все
prediction, auto completion, that's all AI driven. That's all
происходит с ИИ, обученным налогообложению, но эта система ИИ
happening with AI that's trained on tax, but that AI system
не может также обнаруживать объекты на изображениях. Таким образом, эти модели
cannot likewise detect objects in images. So these models are
очень специфичны для модальности, для которой они были созданы,
very specific to the modality that they were built for and
обучены и оптимизированы. Теперь, как говорится, мы, как
trained for and optimized for. Now, that being said, we as
люди, можем обрабатывать, обрабатывать, понимать и обнаруживать
humans, we can process and handle and understand and detect
корреляции, паттерны и отношения между всеми
correlations, and patterns and relationships between all
модальностями одновременно. Итак, у нас есть глаза, у нас есть годы, у нас есть
modality simultaneously. So we have eyes, we have years we have
осязание, у нас есть обоняние, вкус, все это. Таким образом, мы собираем
touch, we have smell, taste all this. So we're collecting lots
много данных разных типов в любое время, естественным образом и
of data of different types at all times, naturally, and
беспрепятственно, в основном с высокой скоростью , и мы как бы
seamlessly, at a fast rate, basically, and we're sort of
связываем все эти вещи воедино. И наше понимание
tying all these things together. And our understanding of the
окружающего мира очень всеобъемлющее, потому что мы
world around us is very comprehensive, because we're
можем собрать все эти вещи воедино. Допустим, мы
able to put all these things together. Like let's say, we're
едем в машине, едем по улице, и
driving in a car, we're going down the street, and all of a
вдруг мы слышим громкую автомобильную аварию, мы ее не видим,
sudden, we hear this loud car crash, we don't see it, but we
но сразу слышим, мы можем подумать посмотрите в его
hear it immediately, we might think to look towards the
сторону, чтобы увидеть, не находимся ли мы в непосредственной опасности, потому что
direction of it to see if we're in an immediate danger, because
мы ничего не видели, но слышали. Но мы знаем, что
we didn't see something but we heard it. But we know that we
теперь нам нужно повернуть эту другую модальность, наше зрение, чтобы увидеть,
need to now turn this other modality, our sight to see what
что происходит. Таким образом, мы можем обнаружить эти закономерности. Теперь, чтобы
was going on. So we're able to detect these patterns. Now, to
действительно решить медвежий тест. Что касается вашей точки зрения на
really solve the bear test. And to your point about multi
мультимодальность, то, знаете ли, вам нужно создать систему искусственного интеллекта
modality is that, you know, what you need to do is create an AI
, которая сможет читать эту книгу, как это делает человек. Таким образом, он должен
system that can read this book like a human does. So it has to
иметь возможность принимать как текстовые данные, так и данные изображения
be able to take both the text data and the image data at the
одновременно и понимать и то, и другое одновременно, а
very same time and understand both at the very same time, and
затем отвечать на вопрос в конце, потому что он мог
then answer the question at the end, because it was able to
понимать все виды вещей. происходит с текстом,
understand all the sort of things going on with the text,
включая все очень сложные вещи, о которых
including all the very complex stuff that Pamela has been
говорила Памела, а также то, что происходит с изображениями. И,
talking about, as well as what's going on the images. And by the
кстати, возвращаясь к этой научной фантастике. Здесь стоит отметить одну вещь
way, going back to that sci fi thing. One thing that's worth
: животные не склонны ходить по лесам
noting here is animals don't tend to walk around in forests
естественно и разговаривать друг с другом. И они не склонны
naturally and speak to each other. And they don't tend to
носить такую одежду, как шл� пы. На самом деле, это правда. Это
wear clothes like hats, either. Actually, that's true. That's
правда. Итак, эта, эта, эта книга также представляет некоторые действительно
true. So this, this, this book also introduces some really
интересные сложности, поскольку она нереалистична в реальной жизни
interesting complexities in that it's not realistic in real life
и в детской книжной стране. Но вы знаете, мы, наверное,
and children's book land it is. But you know, we we've probably
не слишком много встречали говорящих черепах. Да, в прошлом, я
not met too many talking Turtles. Yeah, in the past, I
думаю, но
think but
дети были, верно? Да, вот так, а это другой
kids have, right? Yeah, like that's, and that's the other
слой. Итак, Алекс говорил: « Хорошо, у нас есть все эти сенсорные
layer. So Alex was saying like, Okay, we have all these sensory
входы, у нас есть контексты через, мы знаем, аварию. Звук
inputs, we have contexts through, we know, a crash. Sound
во время движения может означать автомобиль. Так что это более широкий контекст, у нас
while we're driving might mean a car. So that's wider context, we
также есть этот социальный, культурный и даже субкультурный
also have this social and cultural and even sub cultural
контекст. И одним из них является детская литература, дети
context. And one of those is children's literature, children
прочитали много детских книг, и они знают
have read lots of children's books, and they know the
условность, что животные не выглядят реалистично, может быть, во всех
convention that animals don't look realistic, maybe in all the
книгах, и что они, знаете ли, делают всякие сумасшедшие
books and that they are, you know, doing all kinds of crazy
вещи, которые им нравятся. не обычно в реальной жизни, это волшебно.
things that they don't normally in real life, it's magical.
Это идеальное время, я собираюсь забрать его. Хорошо, а
This is a perfect time, I'm going to pick it up. Alright, so
теперь добавим поворот в историю. Все, о чем мы здесь говорим,
now to throw a twist in the story. Everything we're talking
было в центре внимания короткометражного фильма, который я снял и
about here was the focus of a short film that I made, and I
выпустил около полутора лет назад. И после того, как я закончил
put out about a year and a half ago. And after I finished the
фильм, я подумал: «Ну, а что другие люди думают об этом?» Позвольте
film, I thought, Well, what do other people think about it? Let
мне позволить мне выпустить это в мир. Итак, я нашел этот веб-сайт
me let me put it out into the world. So I found this website
под названием «дотошный», я не знаю, был ли кто-нибудь из вас на нем.
called meticulous, I don't know if any of you have been to it.
Но метатезис — это место, где вы можете задавать вопросы, а
But metathesis is a place where you can post questions, and then
затем сообщество голосует за вероятность того, что
the community votes on the probability of something
что-то произойдет, либо произойдет ли это, либо когда это может произойти.
happening either if it will happen or when it might happen.
Итак, вот несколько вопросов. Это один из самых забавных.
So here are a few questions. This is one of the funnier ones.
Я думаю, что это обсуждается прямо сейчас. Умрет ли Джордж Р. Р. Мартин
I think that's being debated right now. Will George RR Martin
до выхода последней книги « Песни льда и пламени»? И
die before the final book of Song of Ice and Fire? And the
последнее, что я слышал, он все еще пинает? Я отправил свой вопрос в педантичный
last I heard is he still kick? I posted my question to meticulous
и в течение одного замечательного уик-энда, это была самая
and for one glorious weekend, it was the most argued about and
спорная, обсуждаемая и голосованная тема, которая была на сайте
debated and voted upon topic that was on the site in from
оттуда, она фактически попала на Reddit, и люди обсуждали
there, it actually got onto Reddit and people were debating
ее, кто-то поместил ее в свою подгруппу. Информационный бюллетень sect, парень провел
it, someone put it in their sub sect newsletter, a guy did a
тематическое исследование в своем собственном блоге , автор сам опубликовал его в
case study on it his own blog, the author himself tweeted it
Твиттере для своих 75 000 подписчиков. Так что это был этот мини-момент
out to his 75,000 followers. So it had this, this mini moment of
орального секса, которого я не ожидал. Но что
orality that I was not expecting. But what's
интересно, так это один дотошный пользователь по имени devtech. Он
interesting is one meticulous user named devtech. He's
аноним, я не знаю кто он, он решил взять книгу,
anonymous, I don't know who he is, he decided to take the book,
превратил ее в текстовую версию. Таким образом, мы убрали всю
turned it into a text only version. So we removed the whole
проблему распознавания объектов. Затем он поместил его в GPT
object recognition challenge of it. He then put it into GPT
3, который на данный момент является одной из крупных языковых моделей,
three, which is one of the large language models at the moment,
очень продвинутым искусственным интеллектом, но он существует. И в конце он
very advanced AI, but it's out there. And at the ending, he
спросил его, что случилось с кроликом. И он ответил,
asked it, what happened to the rabbit. And it answered, the
медведь поймал его и съел. Таким образом, этот ИИ, удалив эту
bear caught him and ate him. So this AI by removing that one
часть, смог сделать вывод о том, что произошло в конце, я
portion, was able to conclude what happened at the end, I
думаю, мы можем согласиться на основе теста на медведя, оговорив, что
think we can agree based on the bear test, stipulations that
технический специалист Девин, который понятия не имеет, что он в моей презентации, но
Devin tech who has no idea that he's in my presentation, but
технический специалист не прошел тест. test, потому что он пропустил большую часть
devtech did not pass the test because it missed the bigger
изображения и атрибуции языка. Но это
image and language attribution portion of it. But that does
приводит к следующему большому вопросу, который я хочу задать: исходя из того, что
pivot into the next big question I want to ask is, based on what
мы знаем, основываясь на том, что мы знаем, и основываясь на том, о чем мы
we know, based on what we know, and based on what we've talked
говорили, верите ли вы, что голый тест может быть решен
about, do either view believe that the bare test can be solved
сегодня с помощью ИИ, который у нас есть в настоящее время.
today with the AI that we currently have.
Да, прежде чем углубляться в это, вернемся к примеру с devtech
Yeah, so before diving into that, going back to the devtech
. Итак, причина, по которой этого не произошло, важно сказать, почему
example. So the reason that was not, it's important to say why
это на самом деле не было пройдено медвежьим тестом, а затем поговорить о
that wasn't actually passing the bear test, and then talk about
том, можно ли это сделать сегодня. Причина, по которой он не прошел
whether it can be done today. The reason it wasn't passing the
тест на медведя, заключается в том, что этого человека поместили в GPG, только три атаки. Итак,
bear test is this person put into GPG, three only attacks. So
уже тогда включим большую часть, опять же,
already then include a large part of the, again, the mode
модальности, данных, которые мы, как люди, знаете, если мы
modality, the data that was that us as humans, you know, if we
откроем книгу, сядем и прочитаем ее, мы примем во
open the book, and we sit there and read it, we're taking into
внимание все, что есть. происходящее в этой книге, и то, что
account everything that's happening in that book, and that
мы видим и читаем, к тому времени, когда кто-нибудь спросит нас, ел ли медведь
we see and read, by the time someone asks us did the bear
или что случилось с кроликом. Так что это было не так
eat, or what happened to the rabbit. So that wasn't the case
, в этом примере это просто налог. Во-вторых,
in this, in this example, is just the tax. Secondly, the
человек аннотировал, кто говорил в каждой строке. Итак, они
person annotated who was speaking in every line. So they
сказали, голая кишка, знаете ли, я хочу вернуть свою шляпу, черепаховая кишка,
said, bare colon, you know, I want my hat back, Turtle colon,
бла, бла, бла, как бы там ни было . Так что с GPG, три,
blah, blah, blah, whatever the words are. So with GPG, three,
для тех из вас, кто может или не может быть знаком с ним, это
for those of you that may or may not be familiar with it, it's a
очень интересный тип системы ИИ , называемый большой языковой
very interesting type of AI system called a large language
моделью, который может делать довольно впечатляющие вещи, но
model, that can do some quite impressive things, also falls
при этом во многом ему не хватает. способов на определенные вещи. Для
woefully short to in a lot of ways on certain things. For
уверенности. Тем не менее, он может отвечать на вопросы или обобщать
sure. However, it is able to answer questions or summarize
тексты или создавать тексты и другие вещи с
texts, or create, you know, text and different things with very
очень небольшим обучением, помимо первоначального обучения, которое было сделано,
little training beyond just the original training that was done
что они называют предварительным обучением. И поэтому одна вещь, которую вы можете сделать,
what they call pre training. And so one thing you could do when
когда используете его, — это либо просто задать ему вопрос напрямую,
you use it is you can either just ask it a question directly,
это называется обучением с нулевым выстрелом, потому что вы не
that's called Zero shot learning, because you haven't
предоставили ему никаких новых данных или примеров. Или вы можете попросить его
given it any new data or examples. Or you can ask it to
выполнить определенную задачу и привести примеры. И, и
do a certain task, and provide examples. And, and this
это сочетание вещей называется подсказкой. Итак, вы
combination of things is what's called a prompt. So you're
подсказываете GPD, три, что вы хотите сделать. И вы
prompting GPD, three on what you want it to do. And you're
иногда приводите примеры, это называется обучение N Shot.
sometimes providing examples, that's called N Shot learning.
И когда вы это сделаете, вы обусловите модель, вы
And when you do that, you condition the model, you
обусловите GPT, три, чтобы понять задачу, которую вы
condition GPT, three to understand the task that you're
пытаетесь решить. И это называется контекстным
trying to solve. And that that's, it's called in context
обучением или метаобучением. Другими словами, GPT. Три - это
learning or meta learning. So in other words, GPT. Three is a
модель, которая учит, как узнать, что вы в основном даете примеры,
model that learns how to learn you're basically giving examples
когда этот человек комментирует человека, который говорил, этот
by this person annotating the person that was speaking, this
человек также обусловил GPT, три, чтобы иметь
person also conditioned GPT, three to have the the names of
имена персонажей и текст, который они говорят в способ
the characters, and the text that they're saying in a way
, которого у нас нет, когда мы читаем книгу, потому что нет,
that we don't have when we read the book, because there's not,
вы знаете, мы просто понимаем это естественно, как
you know, we just kind of understand that naturally as
люди. Теперь, что касается того, можно ли это сделать сегодня,
humans. Now, as far as whether or not this can be done today,
нам нужно действительно понять эту концепцию того, что называется
we need to really understand this concept of what's called
эталонами и базовыми показателями в ИИ, чтобы когда-либо сказать,
benchmarks and baselines in AI, to ever say whether or not
можно ли что-то сделать, обычно все начинается с того,
something can be done, it typically all starts with, is
есть ли эталон для этой проблемы. А тест — это
there a benchmark for this problem. And a benchmark is
просто набор данных и набор задач, которые вы пытаетесь выполнить
simply a data set, and a set of tasks that you're trying to do
с этим набором данных. Таким образом, в этом случае, если бы был тест
with that dataset. So in this case, if there was a bear test
на медведя, тест на медведя имел бы способ
benchmark, the bear test benchmark would have a way of
подачи, это был бы набор данных , по сути
feeding a it would be a data set, essentially a
представление этой книги, в двоичной форме какой-то формы данных,
representation of this book, in binary form of some sort data
которая включает изображение данные и текстовые данные.
form that includes the image data and the text data. That's
Это набор данных, который будет частью этого теста. И тогда
the data set that would be part of this benchmark. And then the
задача будет внутри, там может быть более одной задачи. Это может быть не
task would be in there might be more than one task. It might not
просто Только вы знаете, что случилось, задайте вопрос, что
just be Only you know what happened, ask the question what
случилось с кроликом? А потом получить ответ? Это может быть,
happened to the rabbit? And then get an answer out? It could be,
вы знаете, что представляет собой одна сцена,
you know, what is that you know that one scene represent when
когда Памела показала всем, где, вы знаете, медведи
the that Pamela showed everyone where, you know, the bears look
смотрят прямо на кролика, и наоборот. А затем эта
staring the rabbit down directly and vice versa. And then so that
комбинация набора данных и задачи или задач становится так
combination of a data set and a task or tasks becomes what's
называемым эталоном. А затем очень умные люди, очень
known as a benchmark. And then very smart people out there very
умные исследователи ИИ и команды, будь то академические
smart AI researchers and teams, whether they're with academic
институты или компании, такие как Мехта, Google и кто-
institutions or companies like Mehta and Google and whoever
то еще, затем пытаются создать эти модели, чтобы решить эти тесты,
else, then try and create these models to solve these benchmarks
чтобы в основном выполнить задачу и сделать ее лучше. чем любая другая
to basically do the task and do them better than any other
модель. И там буквально становится таблица лидеров. Так что это
model. And there literally becomes leaderboards. So it's
похоже на соревнование, есть таблицы лидеров, и
like a competition, there's leaderboards, and whoever's
та модель, которая находится на вершине таблицы лидеров, становится
model sits at the top of the leaderboard is then becomes
базовой. Это базовая модель, которая лучше всего подходит
known as a baseline. That's the baseline model that is the best
для выполнения этой конкретной задачи с этим конкретным
at performing this particular task with this particular
набором данных. Таким образом, чтобы ответить на вопрос, можно ли решить голый тест
dataset. So to answer the question of, can the bare test
сегодня, технически нам действительно нужен
be solved today, we would technically we really need a
эталон для него и кто-то, кто создаст базовую модель, которая
benchmark for it, and someone to establish a baseline model that
действительно проходит голый тест с правильными данными так
actually passes the bare test with the right data in the way
, как это делают люди. в пределах только текста и данных изображения
that humans kind of within just the text and the image data at
одновременно. Теперь, с учетом сказанного, мы можем определенно сказать
the same time. Now, that being said, we can certainly say
, думаем ли мы, что это может быть принято, и я, безусловно, мог бы
whether or not we think it could be passed, and I could certainly
говорить об этом. Но прежде чем я это сделаю, я просто хочу убедиться.
speak to that. But before I do, I just want to make sure.
Памела, у тебя что-нибудь было?
Pamela, did you have anything?
Да, я имею в виду, я думаю, что мои вопросы, просто что-то вроде большего
Yeah, I mean, I guess my questions, just sort of a bigger
вопроса, типа: «Ну, ладно, а что такое голый тест?» Является ли
question is like, Well, okay, what is the bare test, then? Is
это голым тестом, который решает концовку? Это? Так и было. Но
the bare test that it solves the ending? It? It did. But does
отнимает ли это всю магию книги и эмоциональное
that take away all the magic of the book and the emotional
путешествие, в котором вы находитесь, когда читаете ее, и радость от ее
journey that you're on as you're reading it and the joy of
понимания, или, в случае с моими дочерьми, которые
figuring it out, or in the case of my daughters who are older
сейчас старше, никогда не понимают этого? ? И никогда не желая понять это?
now, never figuring it out? And never wanting to figure it out?
На самом деле, когда они услышали обо всей этой серии Docu, они
In fact, when they heard about this whole Docu series, they're
подумали: «Ну, нет, и им пришлось вернуться и прочитать ее, потому что
like, Well, no, and they had to go back and read it, because
они не хотели верить в то, что, понимаете, они
they didn't want to believe that, you know, they were
думали о счастливых животных». Так что я думаю, может быть, нам стоит подумать
thinking happy animals. So I think maybe we have to think
о том, как мы хотим определить успех, верно? Является ли эта книга
about how we want to define success, right? Is this book a
проблемой, которую нужно решить? Это что- то для расшифровки? Или
problem to be solved? Is it something to be decoded? Or is
есть нечто большее, чем это? В том, что мы хотим, чтобы все это работало
there more to it than that? In that we want it all to work
вместе? И это, это радость. И это его
together? And that's, that's the joy. And that's the discovery of
открытие. Так это в ответе? Или это в путешествии, которое мы предприняли
it. So is it in the answer? Or is it in the journey we took
по пути? И всех друзей, которых мы завели, и тех, кто этого не
along the way? And all the friends we made, and who didn't
сделал?
make it?
Итак, около пяти минут, и вы хотите продолжить, как то, что
So about five minutes, and do you want to ramp up on like what
вы сделали? Думаете, это можно было сделать? Конечно.
you've done? You think this could be done? Sure.
Да. Да. Перейти к последнему вопросу. Да, абсолютно. Итак,
Yeah. Yeah. Go to the last question. Yeah, absolutely. So
возвращаясь к работе, я думаю, что это можно сделать. Так что я
going back to do I think this can be done. So I'm the most
сейчас в курсе самых современных вещей , в мультимодальном машинном
state of the art stuff right now, in multimodal machine
обучении и искусственном интеллекте, есть
learning and artificial intelligence, there's some
довольно интересные вещи. Например, у Google есть что-то
pretty interesting stuff going on. Like, Google has something
под названием Pathways. У открытого ИИ есть то, что называется воспринимающим. В
called Pathways. Open AI has something called perceiver. Io
метаданных Io есть что-то, что называется данными. И они делают некоторые
meta has something called data to back. And they're doing some
действительно захватывающие вещи с тем, что они называют
really fascinating things with what they call transformer
моделями трансформеров, и областью искусственного интеллекта, называемой машинным обучением, называемой
models, and an area of AI called machine learning called semi
полусамостоятельностью. Извините, самоконтролируемое обучение. Таким образом, вместо
self. Sorry, self supervised learning. So instead of having
помеченных данных вы можете просто иметь тонны тонн данных. Как и
labelled data, you can just have tons of tons of data. Like in
в случае с GPT, три, он был обучен на 46 терабайтах данных,
the case of GPT, three, it was trained on 46 terabytes of data
которые включали нечто, называемое общим сканированием, которое, по сути, представляет
that included something called common crawl, which is basically
собой почти весь Интернет в наборе данных. Все
the Think of almost the entire internet in the data set. All
эти книги, я забыл, сколько их могло быть десятками тысяч или
these books, I forget how many might have been 10s of 1000s, or
миллионами, я не знаю. И тогда вся Википедия находится в этом
millions, I don't know. And then all of Wikipedia is in this data
наборе данных. И затем он предварительно обучен этому. Гм, так что с точки зрения
set. And then it's pre trained on that. Um, so in terms of
этих клеток, и это делается в режиме самоконтроля. Таким образом,
these cells, and it's done in a self supervised way. So
просто взяв все эти языковые данные, вы можете
basically just taking all this language data, you can kind of
получить модели, которые изучают правила грамматики, они учатся
have these models that learn grammar rules, they learn how to
устранять неоднозначность определенных слов, которые они изучают, например отношения между
disambiguate certain words they learn like relationships between
разными словами и понятиями. Также антонимы, синонимы,
different words and concepts. Also antonyms, synonyms,
синонимы, все это автоматически, без маркировки,
synonyms, all that all sort of automatically in a non labeled
без контроля, что довольно увлекательно. Итак, эти
non supervised way, which is pretty fascinating. So these
другие примеры, о которых я только что говорил, начинают смотреть на то,
other examples I just talked about, are starting to look at
как вы обучаете одну модель, так что вы генерируете все эти
how do you train one model, so that you you generate all these
параметры в основном, как эти модели заканчиваются. Итак, GPG
parameters basically, is how these models wind up. So GPG
3 имеет 175 миллиардов параметров. Так что подумайте о том, что
three has 175 billion parameters. So think of like
равно mx плюс b, уравнение прямой линии, где m и b
equals mx plus b, the equation of a straight line where m and b
— параметры. Эта модель имеет 175 миллиардов тех
are the parameters. This This model has 175 billion of those
параметров, которые сопоставляют входные данные с выходными. Теперь они
parameters that map's the input to the output. Now, they are
добились прогресса в этих моделях-трансформерах, которые можно одновременно
making progress on these transformer models that can be
обучать различным модальностям . Таким образом, вы можете
trained on different modalities at the same time. And so you can
передавать звук в ту же модель или налоги в ту же модель или
pass audio into the same model or tax into the same model or
изображения в ту же модель, и вы можете обрабатывать это без необходимости
images into same model, and you can handle it without needing to
переобучения модели или изменения параметров. Тем не менее, он по-прежнему
retrain the model or change the parameters. However, it still
может использовать только одну из этих модальностей за раз. Таким образом, вы можете
can only take one of those modalities at a time. So you can
только передавать языковые данные, а затем получать что-то
only pass language data and then get something out relative to
относительно языка. И вы даже должны сказать модели, что это
the language. And you even have to tell the model that it's
связано. Это текстовые данные или данные изображения. Есть еще одна область,
linked. It's text data, or its image data. There's another area
называемая Кювье, или V QA, которая представляет собой визуальные ответы
called Cuvier, which is or V QA, which is visual question
на вопросы. В этом случае вы можете получить изображение и задать вопрос
answering. In this case, you can have an image and ask a question
по изображению. А некоторые ИИ могут ответить на вопрос об
about the image. And some AI can answer the question about the
изображении, просто используя данные изображения. Но опять же, у него также нет
image just using image data. But again, it doesn't also have
языковых данных, которые сопровождают его.
language data that goes with it.
Некоторые из тех же проблем справедливы и для эмоциональной составляющей. Итак
Some of the same problems are true for the emotional bit. So
, скажем, голый тест заключался не просто в поиске ответа в
let's say the bare test wasn't just finding the answer at the
конце, а в попытке передать некоторую эмоциональную
end of it, but instead trying to convey some of the emotional
текстуру на этом пути или в этом путешествии. И та же самая проблема
texture along the way, or that journey. And the same problems
заключается в том, что у вас обычно есть только одна модальность для работы
hold true is that you only have one modality to work with,
, это то, что вы знаете, это то, над
usually, that's something you know, that's something that is
чем вы работаете. Но также я думаю, что с эмоциональным ИИ, есть
being worked on. But also I think with emotion AI, there's a
более важный вопрос о его теоретической основе
bigger question of the theoretical foundation of it
, потому что мы честно рассказываем немного об эмоциях и
too, because we honestly do tell a little bit about emotion and
друг о друге через наше физическое выражение через их
each other through our physical expression through the
воплощение. Это важно. Но я думаю, что большинство
embodiment of it. That's important. But I think most
людей, занимающихся историей, философией,
people who are working in history, philosophy,
неврологией, психологией и изучающими эмоции, согласятся,
neuroscience, psychology and studying emotion would agree
что это еще не все. И это его культурное, его
that that's not the whole story. And that its its cultural, its
социальное. И эти слои очень, очень трудно захватить,
social. And those layers are really, really hard to capture,
потому что они очень зависят от контекста. Так что до
because they're so dependent on the context of it. So it is a
этого уровня далеко.
long way off on that level.
Можем ли мы просто в интересах просто Да, просто Хорошо, поэтому
Could we just in the interest in simple to Yeah, just Alright, so
я спрошу вас в упор, вы верите, что с нашими нынешними
I'm gonna ask you point blank, do you believe with our current
инструментами кто-то может это сделать,
tools, someone could do this,
я не верю, что есть модель, которая может это выдержать data,
I don't believe that there's a model that can take that data,
чтобы иметь текст и данные изображения одновременно, вам нужна
to have the text and the image data at the same time, you need
эта штука, которая называется Joint Embeddings. Для тех из вас
this thing called Joint embeddings. For those of you
, кто может быть знаком с естественным языком и
that might be familiar with natural language, and
встраиваниями, вам нужны вложения соединений, вам, вероятно, понадобится
embeddings, you need join embeddings, you need probably a
концепция, называемая совместным вниманием. Все это очень передовые современные
concept called co attention. These are all very cutting edge
концепции в области искусственного интеллекта. Я думаю, что
state of the art emerging sort of concepts in AI. I think
там определенно проделана большая работа . Есть
there's definitely a lot of work being done out there. There's a
много исследований. Но я не верю, что сегодня существует модель,
lot of research. But I don't believe that there's a model
которая могла бы это сделать. Там может быть что-то, что
that could do that today. There may be something that that could
может сделать и выплюнуть ответ. Но тогда также возникает вопрос,
can do and spit out an answer. But then the question also
сделал ли он это, потому что ему просто повезло. Как,
becomes did it do that because it just got kind of lucky. Like,
например, в Википедии, корпус, который представляет собой тот большой
for example, in Wikipedia, the corpus, which is that large
набор языковых данных, о котором я говорил, что GPT, на котором обучались три,
language data set I talked about that GPT, three was trained on,
он, вероятно, встречался в Википедии, в книгах, из которых он
it's probably come across in Wikipedia, in the books that it
узнал в Интернете, эта идея о более крупных
learned from in the internet stuff, this idea of bigger
животных, поедающих более мелких животных, так что в этом есть что-
animals eating smaller animals, so it sort of has that kind of
то вроде понимания . Так что нам может повезти, и мы
like, understanding a little bit. So we might get lucky and
сделаем предположение, основываясь на чем-то подобном. Но это,
make a guess, based on something like that. But it would
безусловно, было бы больше похоже на догадку с высокой вероятностью, чем
certainly be more of just like a high probability guess more than
даже если бы ее можно было решить. И опять же, я не верю, что существует
even if it could be solved. And again, I don't believe there's a
модель, которая могла бы это сделать, как человек сделал бы это с объединенными
model that could do it, like a human would do it with the joint
модальностями в одно и то же время сегодня. Я могу ошибаться. Если
modalities at the same time today. I could be wrong. If
кто-нибудь знает, дайте нам знать. Итак, мы узнали от вас. Хорошо.
anybody knows, let us know. So we got to know from you. Okay.
Да. Извиняюсь. Мое многословное нет, я просто хочу перейти
Yeah. Sorry. My long winded No, I just want to get to
к последнему вопросу, потому что меня это больше всего интересует. И
the last question, because I'm most interested. And
мы знаем, и, может быть, вам даже не стоит пытаться.
we know, and maybe you shouldn't even try.
Хорошо, так что я собираюсь обратиться к аудитории. У нас есть
Alright, so I'm going to turn it to the audience. Do we have
кто-нибудь здесь? Нет, не вопросы. Кто-нибудь здесь
anyone in here? No, not questions. Does anyone here
думает, что это можно сделать сегодня? После того, как мы закончим? Нет.
think that this could be done today? After we're done? No. All
Хорошо. О, этот парень. Хорошо. Интересно. Просто получите следующий
right. Oh, this guy. Okay. Interesting. Just get the next
вопрос. Итак, последний вопрос здесь. И что, я думаю, может
question. So the final question here. And what I think might be
быть самым интересным для меня, так это то, что когда мы смогли понять
the most interesting for me is when we when we were able to do
и обработать естественный язык, вдруг стали возможны такие вещи,
natural language understanding and processing, suddenly, things
как Siri и Alexa . Когда мы станем действительно
like Siri and Alexa are possible. When we got really
хороши в компьютерном зрении и распознавании объектов, тогда
good at computer vision and object recognition, then
автономные автомобили станут более вероятными. Таким образом, благодаря патенту, путем
autonomous cars could be more likely. So by by patent by kind
завоевания чего-то одного, стали возможными другие вещи. Итак,
of conquering one thing, more things were made possible. So
что мы думаем? Что это будет означать, когда мы сможем пройти медвежье
what do we think? What will it mean, when we can pass the bear
испытание? Что это значит из потребительской электроники? Что
test? What does it mean from consumer electronics? What does
это означает для состояния ИИ в целом? Что ж, однажды, когда
it mean for the state of AI generally? Well, one day when
какая-нибудь программа сможет взять это и ответить на него, что еще можно
some program can take this and answer it, what else can be
сделать? И я скажу кому-нибудь?
done? And I'll tell somebody?
Ну, опять же, я имею в виду, я думаю, это зависит от того, что мы называем
Well, again, I mean, I think it depends on what we say is the
ответом. Если это просто решит проблему концовки, то я
answer. If it just solves the problem of the ending, then I
думаю, что это, вероятно, не так уж и далеко. Но если бы это могло
think that's that's probably not too far off. But if it could go
пройти и на самом деле, вы знаете, как бы забрало все.
through and actually, you know, sort of taken everything. And
И вопрос в том, что еще он мог бы сделать на основе этого? Ну,
the question is like, what else could it do based on that? Well,
я имею в виду, я думаю, что часть мечты об ИИ заключается не столько в том, что
I mean, I think part of the dream of AI is not so much that
он может заменить нас или делать что-то вместо нас, а в том, чтобы стать отличным
it could replace us or do things instead of us, but be a great
способом увеличить наш интеллект и отразиться на
way to augment and our intelligence and reflect back on
нас самих. Так что, если бы мы могли понять эмоциональный
ourselves. So if we could understand the emotional meaning
смысл слов и понять это, что ж, это могло бы
behind the words, and get a sense of that, well, that might
привести к интерфейсам, которые кажутся более интуитивными,
translate to interfaces that feel more intuitive, that feel
более уважительными, более человечными, знаете ли, и сохраняют некоторые
more respectful, that feel more humane, you know, and keep some
из них. магии взаимодействия. Это
of that kind of magic of interaction. It's a long way
далеко.
off.
Алекс, есть мысли?
Alex, any thoughts?
Определенно да. Так что я подойду к этому двумя способами. Во-первых,
Yeah, definitely. So I'll approach that two ways. One is,
в каком-то смысле мы до сих пор не знаем, каков правильный ответ.
in some ways, we still don't know what the right answer is.
Несмотря на то, что Джон Клоусон сказал ответ, его не было
Even though John Clawson said what the answer was, it wasn't
в книге. И у нас было, знаете ли, Кейси пришлось выследить его
in the book. And we had the you know, Casey had to hunt him down
и заставить его сказать, что тот самый кролик, верно,
and get him to say that, that that the very the rabbit, right,
так что если бы этого не случилось, можно было бы утверждать, что
so it had that not happen, one could argue there really was no
на медвежьем тесте действительно нет ответа, или это эта концепция его прохождения. Но
answer to the bear test, or this this concept of passing it. But
, как говорится, если бы мы могли передать, если есть способ
that being said, if we could pass in if there is a way to
понять это, я думаю, что это делает интересным то, что
understand that, I think what makes that interesting is that
оно открывает это, это немного больше меняет динамику, где
it opens it, it changes the dynamic a little bit more, where
ИИ имеет немного более глубокое понимание. и
AI has a bit more of a deeper understanding and comprehension
понимание вещей, в отличие от простого вероятностного
of things, as opposed to just a pure sort of like, probabilistic
статистического сопоставления входов и выходов без
statistical mapper of inputs to outputs type thing without
понимания всех других вещей, которые мы, люди,
understanding all the sort of other things that we as humans
можем понять, которые скрыты в контексте,
might understand, that are buried in the context,
контекстуальные вещи, подобные этому. , или то, чего нет.
contextual stuff like that, or the things that aren't there.
Но мы понимаем, потому что у нас есть здравый смысл и тому
But we understand because we have common sense and things
подобное. Кроме того, способность решить эту проблему и, прежде
like that. Also, the ability to solve this, and more than
всего, способность иметь дело с несколькими модальностями означает,
anything, be able to deal with the multiple modalities means
что это может открыть возможности для помощи людям
that that can unlock opportunities to helping people
с ограниченными возможностями, например, таким как люди, слепые люди,
with disabilities, for example, like people, blind people,
люди, у которых нет некоторых из этих сенсорных механизмов,
people that don't have the some of those sensory mechanisms, is
есть ли способ помочь этому дополнению, которое по-разному
there a way to help with that augment that in different ways,
могло бы также привести к более справедливому и безопасному искусственному
it also could lead to more fair and safer artificial
интеллекту, что действительно важно. Прямо сейчас с
intelligence as well, which is really important. Right now with
некоторыми из этих моделей, вы знаете, они как бы
some of these models, you know, they're they're sort of
неразборчивы, верно? Они просто такие, их маленькие машины, в
indiscriminate, right? They're just like, their little machines
которые вы что-то вставляете, просто что-то выплевывают, даже не
that you put something in it just spit something out, with no
задумываясь об этом. Это просто калькулятор. На самом деле, это
thought to. It's just a calculator. Effectively, it's
не так, я слишком упрощаю, но, знаете, чем ближе вы подходите
not, I'm oversimplifying, but, but you know, the closer you get
к настоящему осмыслению вещей, пониманию вещей,
to actually reasoning through things, understanding things,
понимаете, к способности сказать в конце, эй, я могу дать
you know, being able to say at the end, hey, I could give
разные ответы. Я не уверен. Даже возможность сказать, что я не
different answers. I'm not sure. Even the ability to say I don't
знаю ответа. Или, может быть, мне вообще не стоит отвечать
know the answer. Or maybe it's not a good idea for me to answer
на этот вопрос. Это все вещи, которые люди делают
this in the first place. These are all things that humans do
естественным образом. А вот машины и ИИ вообще ничего не делают, эффективно,
naturally. But machines and ai do not do at all, effectively,
да? Так. И из- за отсутствия этого, знаете ли,
right? So. And as a result of the lack of that, you know,
осознания и рассуждений, логики и всего прочего, знаете,
awareness and reasoning, and logic and everything, you know,
иногда мы видим эти примеры несправедливого и предвзятого ИИ
sometimes we do see those examples of unfair and biased AI
и всего такого, потому что он просто выплевывает то, на чем его
and everything because it just, it spits out whatever it was
обучали. . И если это включает в себя данные, то это то,
trained on. And if that's including the data, that's what
чему он научился.
it learned kind of thing.
Да, как бы дать вам последнее слово. Да,
Yeah, kind of give you the last word. Yeah, I
я просто хотел сказать и ответить на большой вопрос, который, я думаю,
was just gonna say and to answer the big question that I think is
у всех на уме, поможет ли это родителям, которые должны
on everyone's mind, is this gonna help parents who have to
читать этот ряд по 10 раз каждую ночь как любимую книгу? Может быть,
read this 10 times row every night as a favorite book? Maybe
если бы ИИ стал достаточно хорош, чтобы просто не раскрывать концовку и не говорить,
if the AI got good enough not to just reveal the ending and say,
типа, я хочу вернуть свою шляпу? Ну, вы знаете, конец этого.
like, I want my hat back? Well, you know, the ending of this.
Мол, это разрушит его. Вы знаете, отчасти это волшебство
Like, that's gonna wreck it. You know, part of it is the magic
и понимание рассказывания историй и понимание
and understanding storytelling and understanding that
того момента, когда истории могут быть между родителями
connection making moment that stories can be between parents
и детьми. И поэтому, если бы мы могли немного приблизиться к этому
and kids. And so if we could get a little closer to that,
, не изобретая это заново, или не просматривая эти
without, you know, reinventing it, or you surfing that
отношения, может быть , ситуация была бы лучше, лучше.
relationship, might be might be a better, better situation.
Хорошо, позвольте мне сделать быстрое закрытие. А затем, я думаю, у нас
Alright, well, let me do a quick closing. And then I think we'll
будет несколько минут для вопросов. Весь
have a few minutes for questions. The whole project
проект, над которым я работал, исходит из простого
this thing I've been working on it, it comes from just the
желания понять все эти богоподобные технологии, которые у нас есть, и
desire to understand all this godlike technology we have and
все эти прорывы, и все эти новости, которые у нас есть, через,
all these breakthroughs and all this news we have through
возможно, более доступную линзу. Поэтому всякий раз, когда я читаю о новостях о
perhaps a more accessible lens. So whenever I read about news of
том, на что способна новая языковая модель или на что способно компьютерное
what the new language model can do, or what computer vision can
зрение, помнить об этой книге и этом медвежьем тесте —
do, having this book in mind, and this bear test for me is a
полезный способ сформулировать это. И, надеюсь, когда вы
helpful way to frame it. And hopefully you when you either go
выйдете и узнаете об ИИ или сами прочитаете эту книгу,
out and learn about AI or you read this book yourself, it
она тоже поможет вам сформулировать ее. И я знаю, вам всем интересно, как дела у
helps you frame it too. And I know you're all wondering how
Генри. Итак, это наш последний вопрос, и давайте
Henry is doing. So this is our most recent question, and let's
посмотрим, как он это сделает. Что случилось с раундом?
see how he does. What happened to the round?
Я не знаю. Не спрашивайте меня, что это такое. Спасибо. Спасибо.
I don't know. Don't ask me what That's it. Thank you. Thank you.
Итак, большое-большое спасибо Алексу и Памеле за то, что дали нам свое
So, a big, big thank you to Alex and Pamela, for giving us your
понимание. Думаю, у нас осталось около пяти-девяти минут. Так что, если
insight. I think we've got about five, nine minutes left. So if
кто-то хочет остаться и задать вопросы, я начну
anyone wants to hang around and ask questions, and I'll start
с вас прямо здесь. Вы упомянули текст и изображения. Одна
with you right here. You mentioned text and images. One
вещь, которую я заметил, заключалась в том, что когда они узнают,
thing I noticed was that when they're found out
да, я думаю, как мы это сделали, я не думаю, что они могут это сделать,
Yeah, I think how we squared it is, I don't think it can do it
потому что это слишком двусмысленный сигнал, хотя нам, людям
because it's too ambiguous of a signal, even though we as humans
, легко сказать: Ладно , на странице
have an easy time saying, Okay, there's red on the page, there's
красное, в шапке красное. Мы знаем символическую природу красного цвета или имеем
red in the hat. We know some the symbolic nature of red or have
о ней какое-то представление. Этому многому ИИ еще не научился
some sense of it. That's a lot that AI hasn't been trained on
, в основном, и не знает. Поэтому мы считаем само собой разумеющимся
yet, basically, and doesn't know. So we take for granted
, что можем сделать что-то из этого, даже если это немного двусмысленно,
that we can do some of that, even if it's a little ambiguous,
и на это тоже нет единственно правильного ответа. Я еще не
and there isn't like a one right answer to that either. I can't
могу этого сделать.
do that yet.
Мне очень жаль. Я не видел там очереди. Вы хотите пойти, сэр?
I'm so sorry. I didn't see the line there. You want to go sir?
Да, во-первых, большое спасибо. Именно за
Yeah, first, thank you so much. This is exactly the kind of
этим я и приезжаю на Юг. Во-первых, для меня это работает
thing I come to South by for so. First, to me that this works on
на многих уровнях, потому что у медведя
a lot of levels, because the bear is having a multi
мультимодальная проблема, верно? Да, если бы он мог сопоставить,
multimodal problem, right? Yeah, if he could put it together that
что шляпа была на кролике, он бы разгадал ее, но он просто
the hat was on the rabbit, he would solve it, but he was just
впитывал текст. Итак, вам когда-нибудь приходило в голову, что
taking in the text. So Has it ever occurred to you that the
медведь — это ИИ? Кролик? А я сяду Подожди, скажи еще раз
bear is the AI? The rabbit? And I'll sit down Wait, say again,
, медведи эпохи ИИ - это ИИ, который еще не понял? И
the bears the AI era is the AI who doesn't get it yet? And the
человек мог быть кроликом, рассказывающим это? Нет, нет, не сосредотачивайтесь
human could be the rabbit telling it? No, no, don't focus
на нескольких вещах. Просто сосредоточься на том, что я говорю. И что в
on multiple things. Just focus on what I say. And that
конце концов у нас могут быть проблемы. Да.
eventually we might be in trouble. Yeah.
Я просто хотел сказать, что это напоминает мне тест на гориллу.
I was just gonna say that reminds me of the gorilla test.
Так что я не знаю, знаете ли вы это и психологию, когда
So I don't know if you know that and psychology, where the
исследователи просили людей сосредоточиться на том, сколько раз мяч
researchers asked people to focus on how many times the ball
передается вперед и назад. И там проходит чувак в
is being passed back and forth. And there's a dude in a gorilla
костюме гориллы. И большинство людей не
suit walking through. And the majority of people don't notice
замечают чувака в костюме гориллы. Теперь вы все будете. И это
the dude in the gorilla suit. Now, you all will. And it's
правильно для вас, потому что я сказал вам, но это похоже на то,
right for you, because I told you, but it's kind of like that
что внимание сосредоточено только на одном . Итак, вместо того, чтобы
the focus is just on the one thing. So instead of like the
лайкать весь контекст,
whole context around,
могу я сказать кое-что очень быстро? Да, должен сказать, мне
can I say something really quickly? Yeah, I have to say, I
нравится, как серьезно все относятся к такому глупому вопросу,
love how serious everyone's taking such a silly question
который я задал. Так что спасибо всем за то, что вы здесь.
that I put forward. So thank you, everyone for being here.
Извиняюсь. Да. Так что это отличный вопрос. Я собираюсь рассказать
Sorry. Yeah. So that's a great question. I'm going to tell you
вам маленький грязный секрет. Когда он читал мне книгу в том
a dirty little secret. When he read the book to me in that
интервью, он показал видео, я на самом деле не знал, что
interview, he showed a video, I actually didn't know what
случилось с кроликом. Но вот почему. Интересно, да.
happened to the rabbit. But here's why. Interestingly, yeah.
В той части, где медведь подходит к кролику и спрашивает, не видел ли он
In the part where the bear goes up to the rabbit and asks if he
его шапку, а тот говорит: «Нет, я шапки не видел». Я бы
seen his hat, and he says, No, I haven't seen a hat. I wouldn't
не стал воровать шляпу, кролики в шляпе. Верно. И для
not steal hat, the rabbits wearing his hat. Right. And to
меня тот факт, что медведь не узнает свою шляпу
me the fact that the bear doesn't recognize his own hat,
и смотрит прямо на нее , не является непосредственным. О, ну,
and he's looking right at it isn't immediate. Oh, well,
это не его шляпа. Ясно, что, это уже
that's not his hat. Clearly that, that like that already
исключило это или что-то в этом роде. Верно. Точно. Так что в конце
ruled it out or something. Right. Exactly. So the end, I
я подумал, что понятия не имею, что произошло. Что тут происходит?
was like, I have no idea what happened. What's going on here?
Вроде как размер, я думаю, но, но к вашей точке. Это,
Kind of like the size, I think but but to your point. That's,
это очень интересно, потому что я мог бы подчеркнуть
that's very interesting, because I could highlight the inability
неспособность кролика-медведя, казалось бы, замечать вещи, которые
of the rabbit the bear to seemingly notice things that
должны быть очевидны для людей.
should be obvious to people.
И понравиться джентльмену, который думает, что это можно
And to like that to the gentleman who thinks it can be
передать сегодня. да.
passed today. Yes.
Нет, мне просто нравится быть противным, но извините, если
No, I just like being a contrarian, but I'm sorry if
это немного сумбурно. Но мой вопрос касается мотивации,
it's a little bit rambley. But my question is on motivation,
и если это что-то поднятое ИИ, и я спросил, потому что
and if that's something broached by AI, and I asked, because I
был очарован тем, как люди коллективно пришли к
was fascinated by how humans collectively came to, like the
осознанию того, что, как вы знаете, вероятная мотивация медведя
realization that, you know, the probable motivation for the bear
— убийство. В этом случае, когда не было ничего подобного
is murder. In this case, when there was nothing explicit like
, мы не видели, как он лепил кролика или совал его ему в
that we didn't see him modeling the rabbit or popping it in its
рот. И я просто думаю, знаете ли, в стране фантазий и
mouth. And I just think, you know, in fantasy land and
детских книгах вполне возможно, что кролик мог
children's book, it's very possible the rabbit could have
просто телепортироваться на Луну или еще что-нибудь глупое. Но у нас есть
just teleported to the moon or something silly. But we have
своего рода неотъемлемое понимание того, что это, вероятно,
this like sort of inherent understanding that it probably
убило кролика. И поэтому мне как бы интересно, если разница
murdered the rabbit. And so I'm kind of wondering if the divide
между детьми, которые не могут получить это, заключается в том, что у них нет
between children not being able to get it is they don't have
такого предлога, как более темная сторона человечества. Да,
that pretext that like the darker side of humanity. Yeah,
вот что мне интересно.
that's what I'm curious about.
Да, я имею в виду, это такой хороший момент. Потому что я думаю, что это
Yeah, I mean, that's such a good point. Because I think that's
правда. У нас другой тип мышления, в который мы входим, когда
true. We have a different kind of mindset that we go into when
читаем детскую книгу, или сказки обладают тем
we're reading a children's book, or fairy tales have kind of that
же свойством, что они могут быть мрачными, но в то же время волшебными. И
same property where they can be dark, but it's also magical. And
поэтому мы хотим верить во что -то другое и верить, что все
so we want to believe something else and believe everything is
возможно. И это своего рода более общий идеал, стоящий за большой частью
possible. And that's kind of the larger ethos behind a lot of
детской литературы, состоит в том, чтобы дать детям почувствовать, что мир
children's literature is to make kids feel like the world is
волшебный и все возможно, и что они могут попробовать
magical and anything's possible and They can try out a lot of
много вещей и быть разными вещами. Итак, чтобы обучить ИИ
things and be a lot of different things. And so to train AI to
знать это, и, знаете, я не знаю, мы могли бы сделать то, что
know that and and, you know, I don't know, we could do that
Алекс упомянул, ну знаете, он мог бы, он мог бы знать, что
Alex mentioned that, you know, it could, it could know that,
медведи едят кроликов.
oh, bears eat rabbits.
Да. И на самом деле, очень быстро на том, что я не делал
Yeah. And actually, just real quick on that I didn't do the
пример с растением раньше. Так что это на самом деле хорошее время для
plant example earlier. So this is actually a good good time for
этого. Итак, давайте проведем более простую версию медвежьего домика, по-настоящему
this. So just let's do a simpler version of the bears house real
быстрый мысленный эксперимент, все в комнате представьте
quick thought experiment, everybody in the room, imagine a
картинку. И это рука, нарисованная как мультфильм или что-то в этом роде, где
picture. And it's a hand drawn like a cartoon or something of a
человек в своей гостиной поливает растение, верно, зеленое
person in their living room watering a plant, right, a green
растение. И в комнате есть другие растения . И скажем,
plant. And there's other plants in the room. And let's say
есть одна строка налога, в которой говорится: «Я люблю свои растения». Вот и
there's one line of tax that says, I love my plants. That's
все. Всего одно изображение — один налог, в этой книге 30 страниц с изображениями
it. Just one image one tax, this book has 30 pages with images
и налогом, но мы будем говорить об одном изображении — одном налоге. Тогда можно было
and tax, but we're going to talk one image one tax. So one could
бы спросить, почему этот человек любит растения? Верно? Почему они
then ask, why does this person love plants? Right? Why do they
любят свои растения? Ну, мы, потому что у нас есть здравый
love their plants? Well, we because we have that common
смысл. И, к твоему сведению, у нас есть такой контекст таких вещей, как
sense. And to your point, we have that context of things like
концепции убийства, и мы видели фильмы, в которых триллеры
concepts of murder, and we've seen movies that in thrillers
и все такое прочее, знаешь, мы могли бы сказать, что можем хорошо рассуждать
and all this stuff, you know, we might say we might reason well,
, знаешь, им нравится зеленый цвет, им нравятся естественные объекты
you know, they like the color green, they like natural objects
в комнате, полной неестественных искусственных объектов. Им нравится
in a room full of non natural manmade objects. They like to
фунг-шуй, им нравится, что он генерирует больше кислорода
Fung Shui it up, they like that it generates oxygen more oxygen
в комнате, им это нравится. Вы знаете, это и растения? Да,
in the room, they like that. You know, it's and plants are? Yeah,
заставляет их чувствовать себя хорошо. Растения — это , знаете ли, чудеса биологии,
makes them feel good. Plants are marvels of, you know, biology,
они могут превращать солнечный свет в энергию, и все в порядке. И
they can turn sunlight into energy and all this right. And
чтобы сделать это ничего из того, что на картинке. И ничего из этого нет
to to do that none of that's in the picture. And none of that's
в налоге. Я люблю растения, да. Но мы знаем, что можем
in the tax. I love plants, right. But we know we can answer
ответить на это так же, как и ИИ. И мы можем даже пойти еще дальше.
that in a way that AI can. And we can even go a step further.
Что, если бы мы сказали: «Почему этот человек выбрал именно эти
What if we said, Well, why did that person choose those
растения?» Ну, мы могли бы сказать, ну, потому что они хотели
specific plants? Well, we might say, well, because they wanted
что-то не требующее особого ухода, они не хотели поливать его все
something low maintenance, they didn't want to water it all the
время, или у них не было много естественного солнечного света в комнате. Поэтому
time, or they don't have much natural sunlight in the room. So
им нужно было что-то хорошее для этого. Или, может быть, это
they needed something that's good for that. Or maybe it's a
подарок от кого-то, может быть, это да, или хорошо подходит для определенной области.
gift from some maybe it's Yeah, or fits well, in a certain area.
ИИ, что нет ИИ с таким уровнем понимания или
AI that there's no AI that has that level of comprehension or
понимания, или здравого смысла и рассуждений, или даже
understanding or common sense and reasoning, or even the
способности рассуждать об этих вещах, просто для этого простого
ability to reason out these things, just for this simple
изображения кого-то, кто поливает растение, не говоря уже о
image of someone watering a plant, much less, you know, an
целой книге вроде это. Так оно и есть, это довольно интересно.
entire book like this. So it's it's, it's quite interesting.
Теперь, как было сказано, это стало тем, что я сказал ранее
Now, that being said, that became a thing I said earlier,
, визуальным ответом на вопрос, который
the visual question answering thing, that which is very state
, кстати, является очень современным, потенциально может ответить на вопрос:
of the art, by the way, could potentially answer the question,
Какого цвета растение, которое поливают? А можно сказать
What color is the plant that is being watered? And you could say
зеленый? Вот об этом. И налог не учитывали
green? That's about it. And they wouldn't take into account the
. Я люблю растения. Так или иначе, да, у нас есть. У нас есть
tax. I love the plants. So anyway, yes, we have. We have
бесконечно больше понимания мира из нашего опыта
infinitely more understanding of the world from our experience
и всего остального, чего нет у машин в ваших
and everything else that machines don't have to your
точках. Поэтому,
points. So
когда кто-то говорит, что ИИ отнимет у вас работу, он настроен скептически.
when somebody says AI is gonna take your job, he's skeptical.
да. Так что я думаю, что это все время, которое у нас есть. Мы собираемся быть
Yes. So I think that's all the time we have. We're gonna be
на фестивале. В Интернете есть дополнительная информация, если
around for the festival. There's more information online if you
хотите. Они призывают вас оставлять отзывы здесь, потому что это
want it. They encourage you to give reviews on here because it
помогает нам, если мы хотим вернуться. Но спасибо всем
helps us if we want to come back. But thank you, everyone