790 подписчиков

Пошаговость над гештальтностью, экспертность над эрудитностью, членораздельное над голографическим

18 сентября 202318 сен 2023

6 мин

Гештальт – это одномоментное выделение фигуры из фона, сборка какого-то целого из частей, одномоментное выхватывание паттерна из многочисленных его деталей. Этому соответствует быстрое интуитивное мышление S1 по Канеману, этому соответствует голографическое у Широнина (“Об членораздельное и голографическое в социологии”, Об членораздельное и голографическое в социологии: ailev — LiveJournal), этому соответствует работа LLM. Царство интуиции, неожиданных аналогий, неминуемых искажений, то есть генерация мутаций.

В подразделе “творчество” раздела “12. познание/исследования” курса “Интеллект-стек” описывается, как устроено творчество на базе эволюционных алгоритмов: генерируется догадка (тут работает LLM), а затем она критикуется в том же вычислителе (это творчество-in-the-small, критиковать может та же LLM, просто там задействуется другая часть знаний), потом коллективно (другие LLM, творчество in-the-large), потом ещё и с использованием данных эксперимента (выбор между несколькими догадками лучшей на основе данных измерений чего-то в реальном мире). Вот этот эволюционный алгоритм предполагает цикл генерации догадок, которые потом фильтруются критикой, и дальше распространяются не просто “мутации”, а “смарт мутации”, хорошо прокритикованные (в две стадии, in-the-small и in-the-large, различение было сформулировано для software engineering в Lecture Notes on Programming in the Large Versus - Theory of Computing | CMSC 858P | Study notes Biostatistics | Docsity). Ссылок на литературу и разъяснений терминов тут не даю, в курсе “Интеллект-стек” всё это есть.

В случае LLM основные ходы на критику и получение тем самым режима “логичного рассуждения” шли по линии нейросимволических (neuro-symbolic) рассуждений, что сводилось к какой-то всеобщей формализации и получению графа знаний (ontology/knowledge graph – там был ребрендинг), а затем предполагалось какими-то болтами прикрутить этот граф знаний к нейросетке (или нейросетка тупо этот граф выучивает, или наборот – может обратиться к reasoner, сидящему на этом графе).

Проблема когда-то была чётко сформулирована людьми из команды IBM Watson: если мы не знаем, какой будет вопрос, то мы не можем “моделировать впрок” – то есть мы не можем текст представлять в виде графа знаний, если не знаем, о чём там будет спрошено. Ибо моделирование – это “оставить важное, убрать неважное – это сжатие информации”. И для какого-то вопроса это будет крайне удобно, а для какого-то вопроса ответ на него будет из исходных текстов отжат и выкинут. Поэтому IBM Watson был суперкомпьютером, работал для ответа на каждый вопрос с исходными текстами. И я даже предложил в 2014 году такие системы называть не экспертными (слово уже занято было для систем с логическим выводом на базе knowledge graph), а эрудитными (IBM Watson как раз победил эрудитов в Jeopardy!, американском варианте что-где-когда), Новый материал для нитей мировой паутины и эрудитные системы: ailev — LiveJournal.

Сейчас вроде как эрудитные системы не размышляют логически, они задействуют LLM, а LLM становится всё круче и круче.

Ход CYC тут был на то, что надо просто иметь сеть из “ускорителей”, в которых перемешаны эрудитные системы, экспертные системы и самые разные их гибриды – и они дают “общее мышление, когда надо гештальтное, а когда надо – пошаговое”.

Хинт был в том, что графы знаний и LLM задействовались как бы параллельно, они были одноуровневы по сравнению с объемлющей их когнитивной архитектурой. Формализация для S2 была предварительна (знаем, на какие вопросы отвечать), upfront. А процессинг эрудитности шёл рядом в LLM. Это была архитектура “S1 рядом с S2” – “пошаговость рядом с гештальтностью”, “экспертность рядом с эрудитностью”.

Текущий же тренд – это пошаговость задействования S1 как для порождения идей, так и для их критики. Экспертность над эрудитностью, что позволяет не отжимать информацию предварительно, формализация/сжатие информации идёт по ходу размышления.

Началось всё с chain-of-thoughts, затем цепочки стали tree-of-thoughts, затем всё было обобщено до graph-of-thoughts ([2308.09687] Graph of Thoughts: Solving Elaborate Problems with Large Language Models). Последний шаг в этом направлении – это chain-of-density, пошаговое составление summary текста, “сгущение” выжимки, [2309.04269] From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting.

Это всё архитектура “S2 над S1”: не “голографическое против членораздельного”, “эрудитное против экспертного”, “пошаговое против гештальтного”, а “членораздельное над голографическим”, “экспертное над эрудитным”, “пошаговое над гештальтным”.

Это всё обсуждается не как “логическая парадигма” и вообще не обсуждается как S2, а идёт как prompt engineering или даже prompting (например, название статьи по предыдущей ссылке – From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting). Но это и есть современная форма реализации S2, “пошаговый процесс рассуждений, ведущий к цели, основа рациональности, inference”.

В Software 3.0 (подробней об этом тоже в курсе “Интеллект-стек”) повторяется та же история, что в Software 1.0: cначала идёт развитие интерпретаторов, а не компиляторов. Важно exploratory programming, динамические типы. Не работа с предварительно откомпилированными сводами знаний, а ситуационное сведение знаний (это термин, предложенный в моей работе “Ситуационное сведение знаний: требования и нормативные акты, curriculum, метод” 2015 года, Ситуационное сведение знаний: требования и нормативные акты, curriculum, метод: ailev — LiveJournal, “Документированные знания мультимодальны (текст на естественном языке, формулы и прочие формальные языки, графики и другие картинки, таблицы и базы данных) и раздроблены по разным текстам. Для каждого отдельного проекта (или даже группы как-то связанных проектов) требуются не все знания человечества, а только какой-то маленький их кусочек, сведённый вместе. Назовём этот кусочек ситуационным сводом знаний. Свод знаний (по аналогии со сводом нормативно-правовых актов – собрание текущей конфигурации нормативных текстов с учётом всех обновлений, дополнений, исключений, подразумевающий также некоторую полноту охвата предметной области и официальный статус) из каких-то его модулей вовне головы”. Сегодня я бы добавил, что и модулей “внутри головы”, ибо разный промптинг нацеливает внимание LLM (мокрой или сухой нейросети – неважно) на разные части этих знаний. Опять же, “модулей”, “кластеров” или чего там ещё – неважно.

Только позже можно будет ожидать следующего шага, работы со строгой типизацией, то есть таки обращения эрудитной S1 к upfront подготовленным сводам экспертных знаний, по которым идут экспертные вычисления S2.

И надо указать на ещё один шаг: если мы начинаем говорить об “S2 над S1”, то можно иметь и множество S1 разной природы, в том числе считать, что какие-то S1 даны через интерфейсы вовне – и выходить тем самым на интерактивные системы с участием и людей, и разнообразной нежити.

Картинка от GigaChat, промпт “Нарисуй пошаговасть над гештальтностью, экспертность над эрудитностью, членораздельное над голографическим”. Что хорошо в нейрохудожниках, так что они не отказываются рисовать то, что им непонятно. Но и результат понять тогда нельзя. “Вы это просили, вот вам”, и это одинаково что для людей, что для нежити.

UPDATE: В чате блога (обсуждение с Telegram: Contact @ailev_blog_discussion) замечание Виктора Агроскина, что лучше бы рассматривать двумерные архитектуры, ибо есть два измерения: отжатие-формализация (дискретизация-непрерывность как символизация) и последовательное против гештальтного (рассуждения), и это не сводится к простой оппозиции или простому надстраиванию разных S. В тексте у меня всё это есть, но перепутано. А надо бы распутать.

#гештальт

#интересное

#новости
#познавательное
#левенчук