Большие языковые модели научились описывать картинки, читать текст и интерпретировать графики, но считать объекты не могли. Теперь исследователи из Университета Цинхуа создали Count Anything, которая считает всё: от голов в толпе до бактерий в чашке Петри. Секрет — комбинация рамок вокруг крупных объектов и точек на мелких. Модель доучивает адаптеры поверх нейросети Meta* SAM3, не переобучая всё с нуля. Для обучения собрали датасет CLOC: 220 тысяч изображений, 619 категорий и 15 миллионов объектов из шести областей — от обычных фото до культур бактерий. Чем больше данных, тем точнее результат, и одна модель заменяет десяток специализированных. * Компания Meta признана экстремистской и запрещена на территории РФ ВК