Окей, раз уж мы разобрались подробно, что удивительного умеют делать текстовые нейросети – то чем нас могут удивить модели, которые работают с изображениями? Хм-м, даже не знаю – как насчет чтения мыслей? Идея здесь такая: ученые уже раньше пробовали засовывать людей головой в fMRI-сканеры, показывать им всякое разное на экране – а параллельно записывать со сканера данные о том, какие изменения происходят у них в мозгу. Натренированную на таком наборе данных нейросетку уже давно научили генерировать из данных со сканера очень грубую, очень мутно-расплывчатую версию того, что могли бы видеть люди в этот момент – выглядело это примерно так же, как видел бы пьяный человек со зрением –10 без очков (ну то есть – плоховато, какие-то мутные очертания в основном). А тут, значит, выяснили, что если всё это заполировать сверху прогоном через обычную нейросетку Stable Diffusion (ну, на самом деле, через еще одну промежуточную модель, которая генерирует специальный запрос уже к Stable Diffusion) –