Найти в Дзене
Умная безопасность

"Фабрики данных": за кулисами ИИ-амбиций Китая

Изображение: nytimes.com
Изображение: nytimes.com

Часть важной работы по обеспечению лидерских амбиций Китая в сфере развития искусственного интеллекта (ИИ), выполняется здесь, в помещениях бывшего цементного завода в городе Хэбэй провинции Наньгунши, вдали от устремленных в будущее Пекина и Шэньчжэня. Внутри этого здания 24-летняя Хоу Сяменг управляет небольшой ИИ-компанией "Yunzhi Data Processing", которая помогает искусственному интеллекту "познавать" мир. Для этого два десятка молодых людей просматривают фотографии и видео и маркируют практически все, что они видят: "это машина", "это светофор", "это хлеб", "это молоко", "это человек идёт".

Здание "Фабрики данных" Yunzhi Data Processing Company. Изображение: nytimes.com
Здание "Фабрики данных" Yunzhi Data Processing Company. Изображение: nytimes.com

Первой работой после окончания колледжа Хоу была маркировка изображений лиц для китайского ИИ-"единорога" Megvii (технологии распознавания лиц), наиболее известной благодаря своей технологической платформе под названием "Face++". По сей день некоторые системы распознавания лиц узнают ее раньше, чем ее знакомых, потому что, по словам Хоу, "ее лицо находится в исходной базе данных". Но жизнь в Пекине была слишком тяжелой и дорогой. И она вместе со своим женихом решила вернуться в родной город и основать собственную "фабрику данных". Родители Хоу оплатили компьютеры и рабочие столы. Вместе отремонтировали склад по соседству, чтобы нанять еще 80 работников.

Офис "Фабрики данных" Yunzhi Data Processing Company. Изображение: nytimes.com
Офис "Фабрики данных" Yunzhi Data Processing Company. Изображение: nytimes.com

В Китае, который сам по себе является крупнейшей мировой производственной "фабрикой", новое поколение низкооплачиваемых работников "куёт" основу "будущего" Китая, как крупнейшей мировой "Фабрики технологий искусственного интеллекта".

Стартапы начинают работать в небольших, более дешевых для жизни и работы городах, чтобы промаркировать, "затегировать" огромные массивы изображений и видеоматериалов для того, чтобы они могли стать основой обучения алгоритмов искусственного интеллекта под различные цели.

Если Китай, по утверждению одного из экспертов, это "Саудовская Аравия больших данных", то эти стартапы являются "нефтеперерабатывающими заводами", превращающими необработанные данные в топливо, которое поможет обеспечить Китаю лидерство в развитии искусственного интеллекта.

"Раньше я думала, что машины - гении, - говорит Хоу Сяменг, - Теперь я знаю, что мы - основа этого гения"

Фабрики данных появляются в районах, удаленных от крупнейших городов, там, где рабочая сила и офисные помещения дешевы. Многие из работников фабрик данных - это те люди, которые когда-то работали на сборочных линиях и стройках в больших городах. Но работы становится всё меньше, рост заработной платы замедлился, и многие китайцы предпочитают перебираться поближе к родному дому.

36-летний Йи Якэ остался без работы и пытался начать свое дело с одноклассниками, когда кто-то упомянул маркировку данных для ИИ. После онлайн поиска он понял, что это главная проблема не во владении супер технологиями, а, прежде всего, в наличии дешевой рабочей силы, которую Хэнань имеет в избытке.

Йи со своими друзьями основали компанию "Ruijin Technology", которая арендует офисы, размером в две профессиональные баскетбольные площадки в индустриальном парке за 21 000 долларов в год. "Ruijin Technology" в настоящее время имеет 300 сотрудников, но планирует увеличить ее до 1000 человек.

Зарплата в "Ruijin Technology" колеблется от 400 до 500 долларов в месяц и выше средней в городе Цзясянь. Некоторые потенциальные кандидаты на работу опасаются, что ничего не знают об ИИ. Другие находят работу скучной. Но для некоторых бывших рабочих-мигрантов эта работа всё же представляется лучшей, чем работа на сборочных линиях. "Это была такая же работа, такое же постоянное движение, день за днем", - сказал 28-летний сотрудник "Ruijin Technology" Йи Чжэньчжэнь, который когда-то работал на производстве электронных компонентов, - Теперь я хотя бы немного задействую свой мозг".

В большинстве случаев клиенты не сообщают фабрикам данных цели маркировки данных. Некоторые из них очевидны. Маркировка светофоров, дорожных знаков и пешеходов обычно предназначена для автономного вождения. Маркировка многих видов цветов камелии может быть предназначена для поисковых систем. Однажды "Ruijin Technology" было поручено промаркировать изображения миллионов человеческих ртов. Йи сказал, что не представляет, для чего это было нужно. Может быть, для технологии распознавания лиц.

В отличие от рабочих предприятий и бизнес-работников по всему миру, Йи не тревожится о том, что ИИ лишит его работы.

"Машины еще недостаточно умны, чтобы обходиться без обучения", - говорит Йи Якэ, соучредитель "фабрики" по маркировке данных в городе Цзясянь центральной провинции Хэнань "Ruijin Technology", - Мы строители в цифровом мире. Наша задача - укладывать один кирпичик за другим. Но мы играем важную роль в ИИ. Без нас не смогут построить небоскребы"

Несмотря на то, что ИИ очень быстро учатся и хорошо выполняют сложные вычисления, им не хватает познавательных возможностей и не "дотягивают" в этом даже до уровня среднестатистического 5-летнего ребенка, который, например, может не отличать пикап от седана, но знает, что и то, и другое - автомобили или знает, что и коричневый кокер-спаниель, и черный дог - это собаки. Что же касается современного ИИ, то, для того, чтобы он "понимал" информацию об автомобилях и собаках, хотя бы на уровне этого 5-летнего ребенка, он должен быть обучен, то есть изучить огромное количество фотографий и видео, которые содержат понимаемые ИИ маркеры, указывающие, что "это автомобиль", а "это собака". Это именно та сфера, куда приходят "фабрики данных" и их работники.

К примеру, фабрики маркировки данных помогли ИИ-компании "AInnovation" из Пекина, которая разработала для пекарен автоматизированную систему кассы без персонала. Решение "AInnovation", основанное на технологии машинного зрения состоит в том, что покупатели могут положить выпечку под объектив видеокамеры, и система определит, что именно покупатель собирался купить, сформирует счет и примет оплату. "AInnovation" имеет в своем штате менее 30 маркировщиков и не всегда справляется с работой своими силами.

"Весь искусственный интеллект построен на человеческом труде", - сказал Лян Руи, глава "AInnovation"

Однажды компании потребовалось срочно, за три дня, промаркировать около 20 000 фотографий под конкретную задачу. И одна из фабрик данных сделала эту работу для "AInnovation" всего за пару тысяч долларов.

Как заключенные в финских тюрьмах "куют" искусственный интеллект. Читать

Расхожее мнение гласит, что Китай и США борются за превосходство в сфере ИИ, и что у Китая есть несомненные преимущества. Правительство Китая широко поддерживает ИИ-компании, и в финансовом, и в административном отношении. В 2017 году китайские ИИ-стартапы захватили треть мирового рынка технологий компьютерного зрения, обогнав по этому показателю компании из США. Китайские научные статьи по ИИ чаще цитируются. В своем ключевом политическом заявлении в ноябре прошлого года, правительство Китая заявило о своем ожидании, что к 2030 году страна станет мировым лидером в области искусственного интеллекта.

Объем собираемых “больших данных” дает Китаю преимущество в развитии ИИ Читать
Сможет ли США удержать лидерство в сфере ИИ за счёт новых "больших идей" Читать

И, что важно, правительство и компании Китая имеют практически неограниченный доступ к массивам больших данных из-за слабости законов о защите конфиденциальности. Кроме тех данных, что скопили Facebook, Google и Amazon, китайские интернет-компании получают и используют больше данных, поскольку китайцы очень активно используют мобильные телефоны для покупок и оплаты.Но даже большие данные могут оказаться бесполезными, если прежде кто-то их не структурирует и не каталогизирует. И в этой способности промаркировать все эти данные, может заключаться истинная сила Китая и единственное, с чем США могут быть не в состоянии соперничать. В Китае эта новая отрасль обработки "сырых" данных дает представление о том будущем, которое правительство давно обещало: экономика, основанная на технологиях, а не на производстве.

Понравился пост? Поставьте 👍 или поделитесь им в социальной сети, чтобы мы могли рассказать ещё больше о новых технологиях.
Подпишитесь на наш канал "Умная безопасность" ( @smartsafecity ) в Телеграм , чтобы узнать больше новостей о новых технологиях.

По материалам статьи Li Yuan. How Cheap Labor Drives China’s A.I. Ambitions / The New York Times, Nov. 25, 2018