Автор Шэрон Голдман
Создание сегодняшних огромных моделей ИИ может стоить сотни миллионов долларов, а прогнозы предполагают, что в течение нескольких лет эта сумма может достичь ошеломляющего миллиарда долларов.
Большая часть этих расходов приходится на вычислительную мощность специализированных чипов — обычно графических процессоров Nvidia, которых может потребоваться десятки тысяч, стоимостью до 30 000 долларов каждый.
Но компании, обучающие модели ИИ или настраивающие существующие модели для повышения производительности при выполнении определенных задач, также сталкиваются с другой часто упускаемой из виду и растущей стоимостью: маркировкой данных. Это кропотливый процесс, в ходе которого генеративные модели ИИ обучаются с использованием данных, к которым прикреплены теги, чтобы модель могла распознавать и интерпретировать закономерности.
Маркировка данных уже давно используется для разработки моделей ИИ, например, для беспилотных автомобилей. Камера снимает изображения пешеходов, дорожных знаков, автомобилей и светофоров, а люди-аннотаторы маркируют изображения словами, такими как «пешеход», «грузовик» или «стоп-сигнал». Трудоемкий процесс также вызвал этические проблемы. После выпуска ChatGPT в 2022 году OpenAI подверглась широкой критике за аутсорсинг работы по маркировке данных, что помогло сделать чат-бота менее токсичным для кенийцев, зарабатывающих менее 2 долларов в час.
Сегодняшние общие большие языковые модели (LLM) проходят через упражнение, связанное с маркировкой данных, называемое Reinforcement Learning Human Feedback (обучение с подкреплением на основе человеческих предпочтений/отзывов), в котором люди предоставляют качественную обратную связь или рейтинги того, что производит модель. Это один из существенных источников роста затрат, как и усилия, связанные с маркировкой частных данных, которые компании хотят включить в свои модели ИИ, такие как информация о клиентах или внутренние корпоративные данные.
Кроме того, маркировка высокотехнических данных экспертного уровня в таких областях, как юриспруденция, финансы и здравоохранение, приводит к росту расходов. Это связано с тем, что некоторые компании нанимают дорогостоящих врачей, юристов, докторов наук и ученых для маркировки определенных данных или передают эту работу на аутсорсинг сторонним компаниям, таким как Scale AI, которая недавно получила ошеломляющее финансирование в размере 1 миллиарда долларов, поскольку ее генеральный директор предсказал сильный рост доходов к концу года.
«Теперь вам нужен юрист, чтобы маркировать вещи, [что является] безумным использованием юридических часов», — сказал Уильям Фалькон, генеральный директор платформы разработки ИИ Lightning AI. «Все, что имеет высокие ставки», требует маркировки на уровне эксперта, объяснил он. «Беседа с «виртуальным лучшим другом» — это не высокие ставки, а предоставление юридических консультаций — это высокие ставки».
Алекс Ратнер, генеральный директор стартапа по маркировке данных Snorkel AI, говорит, что корпоративные клиенты могут тратить миллионы долларов на маркировку данных и другие задачи по работе с данными, что может занять 80% их времени и бюджета на ИИ. Со временем данные также необходимо перемаркировать, чтобы они оставались актуальными, добавил он. Мэтт Шумер, генеральный директор и соучредитель стартапа по ИИ-помощнику Otherside AI, согласился, что тонкая настройка LLM стала дорогой. «За последние пару лет мы прошли путь от приемлемых данных уровня средней школы до необходимости получения данных в старшей школе, колледже, а теперь и в экспертах», — сказал он. «Очевидно, что это недешево». Это может создать бюджетные проблемы для технологических стартапов, работающих в таких важных областях, как здравоохранение. Нил Шах, генеральный директор CareYaya, платформы для лиц, осуществляющих уход за пожилыми людьми, говорит, что его компания получила грант от Университета Джонса Хопкинса на создание «первого в мире тренажера для ухода за больными деменцией на основе ИИ», но расходы на маркировку данных «съедают нас заживо». По его словам, стоимость взлетела на 40% за последний год из-за специализированной информации, необходимой от геронтологов, экспертов по деменции и ветеранов-опекунов. Он работает над сокращением этих расходов, привлекая студентов-медиков и преподавателей колледжей к маркировке.
Боб Роджерс, генеральный директор Oii.ai, компании по науке о данных, специализирующейся на моделировании цепочек поставок, сказал, что видел проекты по маркировке данных, которые стоили миллионы. По его словам, такие платформы, как BeeKeeper AI, могут помочь снизить расходы, позволяя нескольким компаниям обмениваться экспертами, данными и алгоритмами, не раскрывая свои личные данные другим.
Кьелл Карлссон, руководитель стратегии ИИ в Domino Data Lab, добавил, что некоторые компании снижают расходы, используя «синтетические» данные — или данные, сгенерированные самим ИИ — для хотя бы частичной автоматизации сбора и маркировки данных. В некоторых случаях модели могут полностью автоматизировать любую маркировку данных. Например, биофармацевтические компании обучают генеративные модели ИИ для разработки синтетических белков для таких состояний, как колоректальный рак, диабет и болезни сердца. Компании автоматически проводят эксперименты на основе результатов генеративных моделей ИИ, которые предоставляют новые данные для обучения, которые поставляются с метками.
Суть, однако, в том, что маркировка данных может быть дорогостоящей и трудоемкой, но она того стоит. «Маркировка данных — это чудовищная работа», — сказал Шах из CareYaya. «Но потенциальная отдача огромна».