16 подписчиков

Что "под капотом": как 🤖ChatGPT и другие современные ИИ на самом деле "видят" изображения

29 августа 202529 авг 2025

1 мин

Что "под капотом": как 🤖ChatGPT и другие современные ИИ на самом деле "видят" изображения 👀 🟦Когда вы загружаете фотографии, для модели это не милый котик или красивый закат, а огромная матрица чисел. Каждый пиксель представлен числовыми значениями: для черно-белого изображения это одно число от 0 до 255, для цветного — три числа, соответствующие интенсивности красного, зеленого и синего. 🎨Например, яркий красный пиксель может выглядеть как [255, 0, 0], а темно-синий — как [0, 0, 128]. Модель анализирует миллионы таких значений одновременно. ✖️Система работает в несколько этапов: сначала изображение разбивается на небольшие участки, затем каждый участок анализируется на предмет базовых визуальных признаков, после чего модель объединяет всю информацию в целостное понимание содержимого. Современные мультимодальные модели могут распознавать объекты и их количество, считывать и интерпретировать текст на изображениях, анализировать графики и диаграммы, определять эмоции и настроение

Что "под капотом": как 🤖ChatGPT и другие современные ИИ на самом деле "видят" изображения 👀

🟦Когда вы загружаете фотографии, для модели это не милый котик или красивый закат, а огромная матрица чисел. Каждый пиксель представлен числовыми значениями: для черно-белого изображения это одно число от 0 до 255, для цветного — три числа, соответствующие интенсивности красного, зеленого и синего.

🎨Например, яркий красный пиксель может выглядеть как [255, 0, 0], а темно-синий — как [0, 0, 128]. Модель анализирует миллионы таких значений одновременно.

✖️Система работает в несколько этапов: сначала изображение разбивается на небольшие участки, затем каждый участок анализируется на предмет базовых визуальных признаков, после чего модель объединяет всю информацию в целостное понимание содержимого.

Современные мультимодальные модели могут распознавать объекты и их количество, считывать и интерпретировать текст на изображениях, анализировать графики и диаграммы, определять эмоции и настроение, описывать сцены и взаимоотношения между объектами.

Но несмотря на впечатляющие способности, ИИ-системы все еще могут ошибаться при работе со сложным контекстом, с оптическими иллюзиями, сильно искаженными фото, очень специфическими профессиональными изображениями и картинками с необычными ракурсами.

🤖:

Поэтому предупреждение “Модель может допускать ошибки. Рекомендуем проверять важную информацию.” на обработку как рабочих диаграмм, так и мемов тоже распространяется. 😎

👉Устроить коллаборацию с ИИ.

👉Подписаться✨