8 подписчиков

Пока одни учат нейросети писать код и ускорять будущее, другие заняты куда более приземлённой задачей: учат роботов жить в физическом мире

25 июня25 июн

2 мин

И делают это старым добрым способом — через дешёвый человеческий труд. В Индии людей просят носить камеры на голове и выполнять обычные действия: резать манго, мыть посуду, складывать полотенца, убирать кухню, работать на фабрике. Камера снимает всё от первого лица: куда человек смотрит, как двигает руками, как берёт предмет, как исправляет ошибку. Таниша Редди, учительница частной школы на юге Индии, подрабатывает тренером роботов. День она начинает с того, что записывает видео от первого лица: как выполняет обычные бытовые задачи — готовит, моет посуду, собирает обед с собой. Вечером она повторяет процесс и в итоге каждый день создаёт по 3–4 часа видео. За каждый час записи ей платят меньше 4 долларов. Почему Индия? Потому что дёшево, массово и уже есть инфраструктура для такой работы. Раньше там размечали картинки, чистили датасеты, модерировали контент и отвечали в поддержке. Теперь размечают не текст и не изображения, а человеческие движения. Это следующий слой ИИ-экономики: оц

Пока одни учат нейросети писать код и ускорять будущее, другие заняты куда более приземлённой задачей: учат роботов жить в физическом мире. И делают это старым добрым способом — через дешёвый человеческий труд.

В Индии людей просят носить камеры на голове и выполнять обычные действия: резать манго, мыть посуду, складывать полотенца, убирать кухню, работать на фабрике. Камера снимает всё от первого лица: куда человек смотрит, как двигает руками, как берёт предмет, как исправляет ошибку.

Таниша Редди, учительница частной школы на юге Индии, подрабатывает тренером роботов. День она начинает с того, что записывает видео от первого лица: как выполняет обычные бытовые задачи — готовит, моет посуду, собирает обед с собой. Вечером она повторяет процесс и в итоге каждый день создаёт по 3–4 часа видео. За каждый час записи ей платят меньше 4 долларов.

Почему Индия? Потому что дёшево, массово и уже есть инфраструктура для такой работы. Раньше там размечали картинки, чистили датасеты, модерировали контент и отвечали в поддержке. Теперь размечают не текст и не изображения, а человеческие движения. Это следующий слой ИИ-экономики: оцифровка не знаний, а труда.

Но здесь есть деталь, о которой в красивых презентациях про домашних роботов обычно не говорят. Дёшево почти никогда не означает хорошо. Чаще это означает: быстрее, грязнее, хуже проконтролировано и с большим количеством скрытого брака.

Когда робот учится готовить еду на видео из случайной кухни, он учится не только резать овощи. Он учится всей сцене целиком. Как человек трогает продукты. Моет ли руки. Разделяет ли сырое мясо и овощи. Кладёт ли нож на грязную доску. Пользуется ли одной и той же тряпкой для стола, рук и посуды. Что делает с упавшим куском. Как хранит продукты. Какие бытовые привычки считает нормальными.

Проблема в том, что дешёвый датасет из неконтролируемой бытовой среды может превратить будущего робота-повара не в аккуратного помощника, а в автоматизированный переносчик чужих плохих привычек. Просто раньше эти привычки оставались в одной кухне, а теперь их можно масштабировать на миллионы устройств.

С текстовыми моделями мы уже это проходили. Их учили на интернете, а потом удивлялись, что вместе со знаниями они впитали мусор, токсичность, ошибки и уверенную чушь. Теперь тот же риск переезжает в физический мир. Только последствия будут не в плохом ответе на экране, а в грязной разделочной доске, опасном движении ножом или неправильной обработке еды.

Эдак мы получим не искусственный интеллект в теле робота, а дешёвую автоматизацию бытового хаоса.

@gostev_future