Искусственный интеллект достиг значительных успехов в различных областях, от написания текстов до решения сложных математических задач. Однако недавние события показали, что даже самые современные языковые модели, такие как GPT-4, сталкиваются с проблемами, которые могут показаться тривиальными, но на самом деле подчеркивают их ограничения. Примером этого является неспособность ИИ точно определить количество букв в слове "клубника" в английском языке, что стало предметом обсуждения и даже мемов в интернете.
Согласно исследованиям, ИИ-модель сообщит, что буква "r" встречается в слове "strawberry" дважды. Несмотря на то, что такие системы, как GPT-4, способны обрабатывать огромные объемы данных и генерировать тексты за считанные секунды, они не обладают истинным пониманием языка. Это связано с тем, что языковые модели не "думают" так, как люди, и не могут воспринимать текст в привычном для нас смысле.
Большинство современных языковых моделей основаны на архитектуре трансформеров, которая разбивает текст на токены — единицы, которые могут представлять слова, слоги или даже буквы. Однако, как объясняет исследователь ИИ Мэтью Гуздиал, модели не читают текст в привычном смысле. Когда ИИ-модель получает слово, оно преобразуется в числовое представление, которое затем используется для генерации ответов. Это означает, что хотя ИИ может знать, что "straw" и "berry" составляют "strawberry", он не понимает, какие буквы входят в это слово и в каком порядке.
Эта проблема усугубляется, когда речь идет о многоязычных моделях. Токенизация, которая предполагает, что пробел всегда предшествует новому слову, не работает в языках, таких как китайский или японский, где пробелы не используются. Исследования показывают, что для передачи аналогичного значения на других языках может потребоваться в десять раз больше токенов. Это создает дополнительные сложности для языковых моделей, которые не всегда могут эффективно обрабатывать различные языковые структуры.
Генераторы изображений, такие как Midjourney и DALL-E, используют другую архитектуру, основанную на моделях диффузии, которые обучаются на больших наборах данных изображений. Эти модели лучше справляются с определенными задачами, такими как создание изображений автомобилей или лиц, но также сталкиваются с проблемами при генерации мелких деталей, таких как пальцы. Это подтверждает, что проблемы, с которыми сталкиваются ИИ, могут варьироваться в зависимости от типа задачи.
Смешение мемов о неспособности ИИ написать по английски "клубника" с новыми разработками OpenAI, кодовым названием Strawberry, создает интересный контраст. Новый продукт, как сообщается, будет способен генерировать точные синтетические данные, что может улучшить работу языковых моделей. Ожидается, что Strawberry сможет решать более сложные задачи, такие как словесные головоломки и математические уравнения, которые раньше вызывали затруднения.
Ситуация с неспособностью ИИ правильно написать слово "strawberry" напоминает нам о том, что, несмотря на технологические достижения, искусственный интеллект все еще далек от человеческого уровня понимания.