Найти в Дзене
Ольга В.

ChatGPT-5 провалился вслед за ChatGPT-4.5

По мере сил и возможностей я слежу за новостями, связанными с искусственным интеллектом и LLM нейросеток, потомков Т9. Поначалу новости были вау-вау-вау, нас всех заменят! Искусственный интеллект (ИИ) переворачивает мир! Программисты, копирайтеры, преподаватели, юристы и прочие – идите учиться класть плитку и осваивайте рабочие специальности. Вот график из книги Пшинника Кирилла, основателя Zerocoder’а, в которой предоставлен прогноз появления общего ИИ. Под общим ИИ понимаются «машины, которые могли бы выполнять любую задачу лучше и дешевле, чем люди». Однако, в последние месяцы прогнозы совсем не такие восторженные и оптимистичные, и кажется, нейронки LLM достигли предела в своем машин лернинг, когда количество перестало переходить в качество. Приведу тут заметку финансового аналитика Павла Рябова, более известного как Spydell: Во-первых, современные ГИИ в принципе не приспособлены к серьезной исследовательской работе. Заявленное контекстное окно – ничего не значит, это номинальные

По мере сил и возможностей я слежу за новостями, связанными с искусственным интеллектом и LLM нейросеток, потомков Т9.

Поначалу новости были вау-вау-вау, нас всех заменят! Искусственный интеллект (ИИ) переворачивает мир! Программисты, копирайтеры, преподаватели, юристы и прочие – идите учиться класть плитку и осваивайте рабочие специальности.

Вот график из книги Пшинника Кирилла, основателя Zerocoder’а, в которой предоставлен прогноз появления общего ИИ. Под общим ИИ понимаются «машины, которые могли бы выполнять любую задачу лучше и дешевле, чем люди».

Фото страницы
Фото страницы

Однако, в последние месяцы прогнозы совсем не такие восторженные и оптимистичные, и кажется, нейронки LLM достигли предела в своем машин лернинг, когда количество перестало переходить в качество.

Приведу тут заметку финансового аналитика Павла Рябова, более известного как Spydell:

Во-первых, современные ГИИ в принципе не приспособлены к серьезной исследовательской работе.
Заявленное контекстное окно – ничего не значит, это номинальные показатели. Реальные или эффективные показатели те, в рамках которых модель показывает высокую стабильность и точность, как минимум на уровне 99%.
Для большинства флагманских моделей – это реальное контекстное окно шириной 20-30 тыс токенов. После 50к идет «завал» стабильности с резкой эскалацией «бредо-генератора». На 100к токенов – это сплошной фейкодром.
Во-вторых, нет адекватного критерия истинности.
"Истинность" для ИИ - это то, что чаще всего встречается в обученных данных как последовательный паттерн. Например, если в миллионах источников написано, что Земля круглая, модель с высокой вероятностью выдаст это как факт.
Критерий "истины" в ИИ - это то, что лучше всего соответствует контексту запроса и обученным паттернам, а если данные противоречивые, вероятность ошибочного выбора резко возрастает.
"Истина" в ИИ - это консенсус источников, а не универсальная правда. Соответственно, чем меньше выборка в знаниях или в источниках запрашиваемой темы – тем ниже точность. Чем более редкая тема, тем выше уровень галлюцинаций или бреда.
Сейчас LLM могут выступать, как «справочное бюро» на основе уже изученных, сформулированных алгоритмов, теорией, концепций, но не способны генерировать собственные концепции, т.к. для этого необходимо иметь высокоразвитое междисциплинарное взаимодействие знаний, понимать причинно-следственные связи, физику/логику динамических процессов в условиях противоречивых данных с несформированной иерархией.

И заключение Spydell по ChatGPT-5:

ChatGPT-5 с данными работает намного хуже, чем любая из ранее представленных флагманских моделей, даже o3, но возможно, это временно.

Что же касается меня, то нейронки – отличный помощник, когда нужно что-то достать из хорошо известной и вылизанной информации, ибо всего в своей человеческой голове не удержишь. Например, даты жизни Ансельма Кентерберийского или должности Черчилля на его карьерном пути. Дипсик отлично делает конспекты документов и небольших книжек, проходные папские энциклики я преимущественно через него «читаю». А вот более сложные вопросы требуют проверки и порой обычные поисковики даже предпочтительнее.