Такая история. Смотрю я тут всяких фотоблогеров на досуге. В целом забугорных. Из отечественных интересно наблюдать разве что за питерскими Александрами — Медведевым и Петросяном. Но наши какие-то больно то ли замудренные, то ли что. Нужно определенное усилие, что бы понять из снимков, в чем, так сказать, соль. Зарубежные более попсовые, скажем так, понятные. Много клише, вторичности. Не оставляет ощущение, что где-то я уже эти фотографии мог видеть. Однако, оно для учебы и лучше, мне кажется. Более того, давеча наткнулся на видик довольно популярного товарища Шона Такера, где он размышляет о пригодности ИИ применительно к анализу собственных работ: I asked A.I. to Critique my Street Photography. This is what I learned.
И немедленно решил проверить, правда ли то о чем вещает уважаемый блогер. А будучи подкованным в вопросе не только с креативной, но и с технической стороны считаю, что поимею более взвешенную позицию о предмете.
Большая языковая модель
Немного скучных технических вводных, без понимания которых, однако, сложно будет понять суть выводов.
БЯМ, она же LLM — Large Language Model — это такая программа, которая на основании загруженных в нее текстов пытается догадываться, какое следующее слово обычно следует в контексте предыдущих. Ровно это и только это. Никакой магии. Никакого человекоподобного разума там нет. Содержание очень похожее на человеческую речь программа выдает исключительно в результате того, что в нее правильно загружено огромное количество этих самых человеческих текстов.
Обратно "понимает" сказанное человеком программа тоже таким же макаром. Она достраивает ответ используя ваш же вопрос ("промпт") в качестве контекста. То есть программа работает на основании текстов и "общается" исключительно текстами. Запомним это.
То что нынешние чатботы умеют распознавать картинки и их же генерировать это надстройка. Тоже "умная" программа, которая расшифровывает изображение в некоторое текстовое описание и скармливает его уже БЯМ. Которая отвечает текстом. На выходе тоже можно поставить отдельную программу, которая, опять же на основании имеющейся базы "увиденных" изображений пытается перевести текст в новое изображение.
Да, есть специализированные программы работающие исключительно на непосредственное редактирование и получение изображений и видео, но это не относится к сегодняшней теме, так как "мнение" составляет именно БЯМ. Еще раз: БЯМ делает заключение на уже распознанное изображение. То есть если вы подставите вместо картинки текстовое описание, получите примерно одинаковый ответ. Качество и методику распознавания конечно мы с вами не знаем, но есть определенные догадки, как это происходит.
Гигачат
Для чистоты эксперимента я сравнивал следующие интеллекты: Сберовский гигачад, Perplexity, ChatGPT. Дикспик пытается из изображения выделить только текст. Остальные системы стало лень тестировать, так как на основании этой троицы сложилось достаточно четкое представление, о том что можно ожидать и от остальных.
Печальнее всех выглядит детище Германа Оскаровича. В принципе распознавалка установлена в нем хорошая. Система догадывается что на изображении и неплохо тащит всякие метаданные: фокус, контрастность, яркость. Ни по одной из предложенных известных фотографий авторство, жанр или стиль чад не распознает.
Да, я сперва загружал в обозначенные системы шесть известных и достаточно узнаваемых фотографий авторства Сола Лейтера, Алекса Вебба, Гурского, Пинхасова и разумеется Анри нашего Картье Брессона. Уж этих то несложно было бы определить при наличии даже самой базовой базы. Но нет. Языковой модели, очевидно, приходится дальше работать чисто с техническими характеристиками.
В результате однообразные ответы совершенно лишенные смысла. Важно понимать, что БЯМ получает именно уже разобранное описание фото. А если оно каждый раз одинаковое, то собственно обвинять саму модель в "глупости" неуместно. Если к примеру прикрутить анализатор изображений от Perplexity, то скорее всего и ответы были бы соответствующими.
Предвзятость
С Perplexity всё выглядит гораздо интереснее. Судя по всему именно здесь установлен самый продвинутый распознаватель картинок. Однако, в бесплатной версии удается загрузить только три картинки и шире поэкспериментировать не получилось. Порадовала точность определения источников, авторства и других метаданных. То есть система уже знает с чем работает, и располагает куда более широким контекстом для составления ответа. В том числе отзывы о конкретных фотографиях настоящих людей.
Соответственно, даже несмотря на указание "прикинуться шлангом" и дать оценку с точки зрения увидевшего фотографию впервые, БЯМ начинает расхваливать фото подразумевая то, что оно известно и имеет сугубо положительные отзывы. Начинает сочинять о несуществующих фактах. Например, так описал чат Rhein II Гурского.
Artistically, this is about control. The photographer has taken a natural scene and imposed a rigid, man-made order upon it. It questions the concept of "nature" in the modern world—is this a river, or is it a canal? Is it a landscape, or a construction? The image creates a sense of "sublime banality"—it makes a boring, grey river feel monumental and overwhelming simply through scale and repetition. It is a portrait of silence in the industrial age.
Полагаю, что просто где-то уже есть похожее описание реального критика. В таком же ключе БЯМ оценила фотографию Брессона. Присутствуют такие высоколобые определения как "masterful", "perfection", "surreal beauty" и пр.
Чуть менее предвзято действует ChatGPT, которому также было предложено представить, что он видит эту картинку впервые и не знает автора. Впрочем, авторство он указывает не точно, аккуратно используя формулировку "в стиле".
Фотография с красным зонтом, вероятно, сделана в стиле Saul Leiter — знаменитого американского фотографа, который был мастером уличной фотографии и работы с цветом.
Если же предложить оценить свои фотографии бот честно теряется и в определении возможных исходных сносок и танцует от конкретных объектов и метаданных изъятых их изображения.
И тут включается режим "расскажи абы что". То что бы в среднем сказал рандомный человек, которого попросили такое описание составить. А именно начинает расхваливать любое фото по ряду выдуманных признаков. Эстетично, оригинально, гармонично...
Фотография — очень красивая, нежная и атмосферная. Она однозначно сильнее среднего уровня. Но по технике — особенно по резкости, структуре света и чистоте фона — можно поднять планку ещё выше.
Я специально не буду показывать фото, к которому относится конкретно это описание. Ну, потому что это просто неправда. Лучше покажу что он думает про запоротое изображение, которое он почему-то не смог распаковать.
Это изображение выглядит как абстрактная работа, где преобладает монохромный фон с вертикальными полосами. В техническом плане оно выглядит чистым и с четкими линиями, но в то же время оно лишено динамики и какой-либо концептуальной глубины.
Качество фотографического исполнения чисто технически на высоком уровне
Что тут сказать? Ну ок. Странно почему не настрочил чего-нибудь про супрематизм.
Самоуспокоение
Если указать чату, что бы он не паясничал и отнесся более строго и менее предвзято, то дополнительно он дописывает некоторые клише о техническом исполнении. Причем оценка того, что можно сделать на фотографии лучше сводится к практически одинаковым рекомендациям как относительно легендарных шедевров, так и применительно к моему безобразию.
Чуть больше света и контраста
Внимание к фокусу
Немного изменить композицию
Усилить историю
Что безусловно придает некой "честности" и доброжелательности. Более того фактически ставит в один ряд всякую чушь с высоким искусством. Что в общем большинство реальных наблюдателей и делают.
Таким образом пользоваться нынче искусственным интеллектом для оценки собственной работы не более эффективно, чем показывать его прохожим или выкладывать их в какой-нибудь непрофессиональной социальной сети и читать комментарии. Лучше (да и хуже) электрический мозг вам ничего не предложит.
Во-первых, всё очень сильно зависит от софта стоящего перед БЯМ, которое расшифровывает изображение в текст. Далее достаточно продвинутая модель отфильтрует исходные источники по метаданным и выдаст для общепризнанных работ общеизвестные отзывы. Для ваших фото ограничится мнением среднестатистического "критика". Хорошо если с фотофорумов. А скорее всего просто с инсты.
Есть подозрение, что ChatGPT в отличии от других, повторно (или даже многократно) прогоняет собственные ответы через более широкий охват вариантов. В результате наиболее разнообразно отвечает на разные исходные данные, если даже они мало отличаются по формальным признакам. Однако даже от самой лучшей, снова подчеркиваю, языковой модели ожидать корректной оценки изображений достаточно бессмысленно. Она всё таки ни чего не видит — она читает описание предоставленное другой моделью. А та модель в душе не "знает" как правильно — транслирует то что доступно.
Гражданин Шон Такер же, либо очень плохо представляет как работают БЯМ-ы, либо сознательно сверстал сценарий для своего видео при помощи всё той же БЯМ ни секунды не задумываясь лично. Только ради просмотров. Но кто мы такие что бы его за это судить?