Найти в Дзене

"chatGPT тупой, не отвечает, лжет мне за мои же деньги!" - частая претензия, чтобы понять феномен, прочитайте рассуждение Эндрю Карпаты (экс

"chatGPT тупой, не отвечает, лжет мне за мои же деньги!" - частая претензия, чтобы понять феномен, прочитайте рассуждение Эндрю Карпаты (экс создатель ИИ автопилота Теслы - шарит в теме).

Короткий спойлер:

Хорошая новость - ИИ еще в начале пути, и это ЕДИНСТВЕННАЯ причина, почему 98% из вас еще получают зарплату.

Плохая новость - когда проблемы ниже будет решены - 98% из вас потеряют свою работы без шанса найти новую.

Кстати, вчера на одном totally бесполезном мероприятии, организаторы которого обманом украли пол-дня моего времени, я объяснял успешному риэлтору, почему в течении 3 лет рынок недвиги в Долине ждет кровавая бойня.

Она бывший успешный разработчик с фундаментальным образованием, потом успешный риэлтор, потом успешный девелопер (в недвиге, не софте), т.е сечет.

Почему я уверен? Потому что кормовая база недвиги в Долине - прогеры 10 ведущих корпораций, перекормленные деньгами, как гуси на убой. И зная, что происходит в этих корпорациях сейчас, я понимаю, что 90% всех этих гусей на убой и пойдут. В том числе и когда ИИ справится с проблемами, о которых говорит г-н Карпаты.

После текста, в котором вы ничего не поймете, я привел перевод на языке 10-летнего ребенка. (можете скипать текст Карпаты и сразу читать для нормальных).

🥶"Нам не хватает (как минимум одной) важной парадигмы обучения для больших языковых моделей (LLM). Я не уверен, как её назвать — возможно, у неё уже есть название, например, обучение системному промпту?

Предобучение нужно для получения знаний.

Дообучение (с учителем или с подкреплением) — для формирования привычного поведения.

Оба этих процесса предполагают изменение параметров модели, но большая часть человеческого обучения больше похожа на изменение системного промпта. Ты сталкиваешься с проблемой, что-то осознаёшь, а потом “запоминаешь” это в довольно явной форме на будущее. Например: «Кажется, когда я сталкиваюсь с такой-то и такой-то проблемой, мне стоит попробовать такой-то и такой-то подход/решение». Это похоже на то, как будто ты записываешь себе заметку, — то есть, это нечто вроде функции “памяти”, но не для хранения случайных фактов о пользователе, а для общих знаний и стратегий решения задач.

LLM в буквальном смысле похожи на персонажа из фильма Memento, только мы ещё не дали им блокнот для записей. Заметь, эта парадигма потенциально намного более мощная и эффективная с точки зрения использования данных, потому что стадия “обзора знаний” предоставляет значительно более высокоразмерный канал обратной связи, чем скалярная награда.

На этот поток мыслей меня натолкнуло чтение системного промпта Claude, который, похоже, сейчас насчитывает около 17 000 слов. Там указано не только общее поведение и предпочтения (например, отказываться от определённых типов запросов, связанных с текстами песен), но и множество общих стратегий решения задач, например:

«Если у Claude просят посчитать слова, буквы или символы, он размышляет пошагово перед ответом. Он явно считает слова, буквы или символы, присваивая номер каждому. Он отвечает только после того, как выполнит этот явный этап подсчёта.»

Это помогает Claude, например, правильно решать задачи вроде “найди ‘r’ в strawberry”. По моему мнению, это не тот тип знаний для решения задач, который стоит встраивать в веса модели через обучение с подкреплением — по крайней мере, не сразу и не исключительно таким способом. И уж точно это не должно писаться вручную инженерами в системных промптах.

Это должно происходить через обучение системному промпту — процесс, похожий на RL по постановке задачи, но отличающийся по алгоритму обучения (редактирование текста вместо градиентного спуска). Большая часть системного промпта LLM может быть написана самими моделями через это обучение — по сути, как если бы модель писала для себя книгу о том, как решать задачи.