Для обучения больших языковых моделей вроде ChatGPT хватило всего интернета – триллионов слов, собранных с миллионов сайтов. У роботов такой роскоши нет.
Человекоподобные машины должны учиться двигаться и взаимодействовать с физическим миром с нуля, а для этого нужны совершенно другие данные – не текст, а видео реальных людей, выполняющих реальные задачи. Именно это породило новую и быстро растущую индустрию, эпицентром которой стала Индия.
На фабриках в Ченнаи, Пуне и других производственных центрах страны рабочие крепят на головы камеры и записывают в мельчайших деталях свои повседневные операции – шитьё одежды, сборку электроники, сортировку компонентов, складывание ткани.
Эти неприметные объекты уже получили неофициальное название "фермы движений рук" – сотни работников часами выполняют рутинные задачи перед камерами, фиксирующими каждое сгибание пальца и микрокоррекцию хвата.
Отснятый материал отправляется в ИИ-лаборатории США, где нейросети покадрово анализируют записи, чтобы научить роботов воспроизводить человеческую ловкость.
Такие данные называют "эгоцентрическими" – это видео от первого лица, передающее именно ту перспективу и контекст принятия решений, которые нужны роботу для имитации человеческих действий.
Спрос на подобные записи колоссален. Инвесторы вложили более 6 миллиардов долларов в человекоподобную робототехнику только в 2025 году, а сбор данных от первого лица стал стремительно растущим сегментом гиг-экономики по всему миру.
Компания Micro1 из Пало-Альто, одна из ключевых игроков рынка, наняла тысячи подрядчиков более чем в 50 странах, включая Индию, Нигерию и Аргентину. По оценке главы Micro1 Али Ансари, робототехнические компании тратят сейчас более 100 миллионов долларов ежегодно на закупку реальных данных у подобных посредников.
Почему именно Индия? Ответ прост – стоимость рабочей силы. Некоторые заказчики готовы платить за данные из американских домохозяйств втрое больше, чем за записи из Индии или Вьетнама, ведь 90% клиентов базируются в США и рассчитывают, что первыми роботов в быту начнут использовать именно американские потребители. При этом индийские данные остаются критически важными для обучения роботов промышленным задачам – швейному производству, складской логистике, сборке электроники.
Параллельно с фабричным сбором существует и домашний формат. Гиг-работники по всему миру получают наголовные камеры, инструкции и список задач – готовка, уборка, работа в саду, уход за домашними животными. От каждого подрядчика ожидается минимум 10 часов видео в неделю с чередованием различных заданий.
Однако создание разнообразного контента в маленьких квартирах – задача не из простых. Один из подрядчиков из Дели рассказал, что тратит час на производство 15-минутного ролика, так как большую часть времени уходит на придумывание новых домашних дел для записи.
Этическая сторона этой практики вызывает беспокойство. Критики используют термин "призрачное обучение" (ghost training) – ситуацию, при которой рабочие фактически создают данные для подготовки собственных заменителей.
Ни один из работников, опрошенных MIT Technology Review, не знал, как именно его данные будут использованы, храниться и передаваться третьим сторонам, включая робототехнические компании-покупатели.
Micro1 не раскрывает подрядчикам имена клиентов и специфику конкретных задач, ссылаясь на конфиденциальность.
Вопрос приватности стоит не менее остро. Даже без лиц камеры фиксируют интимные детали жизни работников – интерьеры их домов, личные вещи, распорядок дня. Компания просит не показывать лица и личную информацию, а затем использует ИИ и живых модераторов для фильтрации случайных утечек.
Однако для работников с семьями это превращается в постоянную борьбу – один подрядчик описал, как регулярно пытается удержать двухлетнюю дочь вне кадра.
Помимо этических вопросов, остаётся открытым и вопрос качества. Основатель компании Objectways Рави Раджалингам отметил, что лишь около половины присылаемого видеоматериала оказывается пригодным для использования. А отдельные эксперты предупреждают о рисках безопасности – если работник демонстрирует небезопасные приёмы, робот может их воспроизвести.
Раджалингам привёл наглядный пример – если робот в детской комнате не сможет отличить куклу от живого младенца, последствия будут катастрофическими.
Сооснователь компании Labellerr AI Пунит Джиндал считает, что приоритет живых данных сохранится ещё как минимум три года. Однако затем ИИ, возможно, научится конвертировать обычные видео с YouTube в формат от первого лица, и потребность в живых записях снизится.
Впрочем, даже сами робототехнические лаборатории пока не уверены, какие именно данные понадобятся через 12 месяцев. Индустрия находится в самом начале пути – и пока спрос многократно превышает предложение, десятки тысяч людей по всему миру продолжат крепить камеры к голове и записывать, как они складывают полотенца.