Найти в Дзене
ART_M (AI Management)

ChatGPT и проекты в области Data Science

Генеративный ИИ, используемый в Bard (Google Gemini), ChatGPT, Сбере и других компаниях, предоставляет инновационные способы для команд сотрудничать и реализовывать проекты, трансформируя работу и взаимодействие команд в области анализа данных. Проще говоря, по мере развития этих моделей их потенциальное влияние на выполнение проектов в сфере Data Science будет значительным. Более широко, генеративный ИИ, основанный на больших языковых моделях, революционизирует ландшафт Data Science. ChatGPT уже продемонстрировал выдающиеся достижения, такие как успешное прохождение университетских экзаменов, таких как, экзамена на право работы адвокатом в США и экзаменов для поступления в медицинские школы. Ответы на подобные вопросы требуют не просто «поиска в Google», но интеграции множества концепций и фактов. С появлением более специализированных моделей в будущем их влияние на различные отрасли, несомненно, будет значительным. В этом посте я рассмотрю, как инструменты, управляемые ИИ, могут улуч
Оглавление

Генеративный ИИ, используемый в Bard (Google Gemini), ChatGPT, Сбере и других компаниях, предоставляет инновационные способы для команд сотрудничать и реализовывать проекты, трансформируя работу и взаимодействие команд в области анализа данных. Проще говоря, по мере развития этих моделей их потенциальное влияние на выполнение проектов в сфере Data Science будет значительным.

Более широко, генеративный ИИ, основанный на больших языковых моделях, революционизирует ландшафт Data Science. ChatGPT уже продемонстрировал выдающиеся достижения, такие как успешное прохождение университетских экзаменов, таких как, экзамена на право работы адвокатом в США и экзаменов для поступления в медицинские школы.

Ответы на подобные вопросы требуют не просто «поиска в Google», но интеграции множества концепций и фактов. С появлением более специализированных моделей в будущем их влияние на различные отрасли, несомненно, будет значительным.

В этом посте я рассмотрю, как инструменты, управляемые ИИ, могут улучшить командные процессы и взаимодействие в контексте проектов Data Science или ИИ.

Итак, как ChatGPT (или аналогичный инструмент, например, GigaChat) повлияет на то, как команды проводят проекты в области Data Science? Этот вопрос имеет два аспекта. Во-первых, мы можем рассмотреть, как специалисты по данным и другие члены команды могут использовать ChatGPT для предоставления более качественных и быстрых аналитических выводов, анализируя его влияние как с точки зрения жизненного цикла Data Science, так и с точки зрения командного взаимодействия.

Использование ChatGPT на протяжении жизненного цикла Data Science

Давайте рассмотрим, как инструмент, подобный ChatGPT, может быть использован на различных этапах жизненного цикла Data Science, следуя фазам, определенным в CRISP-DM.

Схема CRISP-DM
Схема CRISP-DM

Понимание бизнеса:

ChatGPT может помочь командам Data Science более эффективно взаимодействовать с заинтересованными сторонами, способствуя лучшему пониманию проблемы и потенциальному использованию предсказательных моделей. В будущем чат-боты могут взаимодействовать с заинтересованными сторонами для уточнения требований проекта, таких как способы использования модели и изменения в организационных процессах, которые потребуются для ее внедрения.

Понимание данных:

Чат-боты могут взаимодействовать с архитекторами данных (или другим ботом, помогающим архитектору данных), чтобы помочь лучше понять доступные данные, их атрибуты, такие как значение различных полей данных, и качество данных.

Подготовка данных:

GPT может предоставлять рекомендации по преобразованию и хранению данных (или выполнять эти задачи самостоятельно). Он также может генерировать код для объединения наборов данных, например, преобразовывать данные в DataFrame, который можно использовать для моделирования. Кроме того, ChatGPT может предлагать идеи для инженерии признаков.

Такие технологии, как ChatGPT, уже показали значительное улучшение продуктивности в разработке программного обеспечения, особенно для менее опытных программистов. Например, недавно было обнаружено, что разработчики, работающие в паре с «ИИ-программистом», были на **56% продуктивнее**, чем контрольная группа.

Следовательно, ChatGPT может ускорить процесс кодирования, необходимого для подготовки данных. Однако также было замечено, что большие языковые модели могут генерировать некорректный код. Поэтому в обозримом будущем можно представить сценарий парного программирования, где бот сотрудничает с человеком для более эффективной разработки кода. Хотя в долгосрочной перспективе бот может научиться генерировать код по общим инструкциям, на текущем этапе «человек в цикле» остается необходимым.

Моделирование:

На текущем этапе версии ChatGPT могут быть полезны для разработки кода машинного обучения (например, на Python или R). Таким образом, простой способ использования ChatGPT в проекте Data Science – это ускорение написания кода на R и Python для очистки и хранения данных, создания визуализаций и построения моделей машинного обучения (возможно, в режиме парного программирования человека и чат-бота). Уже существуют инструменты, которые интегрируют GPT в редакторы кода в качестве помощника.

Оценка:

Определение точности модели может быть сложной задачей. Иными словами, понимание того, является ли модель «правильной», часто представляет собой трудность. Распространенный подход – это тестирование модели на данных, которые не использовались для ее обучения (так называемое back-testing). Чат-бот может помочь обеспечить комплексную оценку, включая исследование возможных предвзятостей модели. Хотя текущие версии чат-ботов, таких как ChatGPT-4, не могут выполнять фактическую оценку моделей, они могут предоставить структуру, помогающую командам правильно оценивать модель и сообщать результаты заинтересованным сторонам.

Внедрение:

Требования к внедрению могут значительно варьироваться в зависимости от организации и контекста проекта Data Science. Внедрение может потребовать от организации изменения своих процессов, чтобы эффективно использовать результаты машинного обучения. В этом случае чат-бот может помочь людям понять, как их роль меняется, и как лучше использовать выводы ML. Также возможно, что для развертывания системы машинного обучения потребуется ИТ-инфраструктура и поддержка. В таком случае бот может помочь инженерам по релизам настроить и развернуть надежную инфраструктуру для нового ML-решения.

ChatGPT как фасилитатор проектов в области Data Science и эксперт по процессам

ChatGPT может стать ценным ресурсом для облегчения работы над проектами в области Data Science. Другими словами, ChatGPT может «изучить» все наши в базе знаний (а также множество другой информации, посвященной эффективному выполнению проектов Data Science, включая академические статьи и видео на YouTube). Используя эти данные, ChatGPT или специализированная модель на его основе может быть обучена для сопровождения команд через весь процесс работы над проектом.

Например, чат-бот может быть полезен для следующих задач:

- Выступать в роли эксперта по процессам: GPT может, например, организовывать ежедневные собрания, следить за их соблюдением графика (например, предлагать вынести обсуждение проблем за рамки встречи) и документировать ключевые действия. Эти задачи затем можно приоритизировать и отслеживать.

- Стимулировать коммуникацию: Чат-бот может способствовать эффективному взаимодействию между владельцем продукта, командой и заинтересованными сторонами. Это может помочь команде лучше понять, как предсказательная модель может использоваться в конкретном организационном контексте.

- Способствовать улучшению процессов: В качестве фасилитатора коммуникации и координации чат-бот может участвовать в ретроспективных встречах, помогая выявлять и предлагать способы повышения эффективности работы команды.

- Оказывать поддержку в этическом надзоре: С увеличением распространения ИИ и моделей машинного обучения растут опасения по поводу их этического и ответственного использования. Специалисты по данным должны гарантировать, что эти модели разрабатываются, внедряются и мониторятся с учетом таких вопросов, как справедливость, прозрачность и конфиденциальность. Чат-бот может помочь специалистам по данным выявлять потенциальные этические проблемы и предлагать лучшие практики для их решения.

Таким образом, выступая в роли фасилитатора и эксперта по процессам, ChatGPT может значительно повысить эффективность и продуктивность проектов в области Data Science, помогая командам оставаться в рамках графика, эффективно взаимодействовать и непрерывно улучшать свои процессы.

Влияние больших языковых моделей на потребность в проектах Data Science

Хотя ChatGPT и аналогичные инструменты могут ускорить процесс работы над проектами Data Science, важно учитывать, как появление генеративных моделей машинного обучения может повлиять на спрос на такие проекты. Снизит ли наличие этих чат-ботов, способных создавать и развертывать небольшие, узконаправленные модели машинного обучения, потребность в проектах Data Science?

С одной стороны, можно представить, что общая модель, такая как ChatGPT, могла бы быть достаточной для решения практически всех сценариев. В этом случае единственными проектами Data Science останутся те, которые направлены на улучшение ChatGPT и его конкурентов. При таком сценарии ChatGPT будет вести интерактивные обсуждения для понимания бизнес-проблемы, идентификации доступных данных, а затем создания специализированной модели (либо генеративной, либо более узкоспециализированной в зависимости от ситуации).

Однако более вероятным сценарием является то, что будет развернуто множество генеративных моделей ИИ, каждая из которых обучена на специфических наборах данных. Например, версия для бухгалтерии может потребовать обучения на данных конкретной налоговой юрисдикции, чтобы избежать смешения различных налоговых законов в единую «псевдо-налоговую» модель.

Таким образом, появление генеративных моделей машинного обучения, таких как ChatGPT, с большей вероятностью приведет к увеличению числа проектов в области Data Science, а не к их сокращению. Это связано с тем, что эти модели предлагают новые возможности, которые можно использовать в различных сферах, стимулируя инновации и расширяя потенциальные применения Data Science.

Сейчас и потенциальное будущее

Хотя текущая версия ChatGPT не способна выполнять все перечисленные задачи, вполне вероятно, что будущие версии смогут справляться с этим. Воздействие моделей машинного обучения следующего поколения, включая эволюцию ChatGPT и конкурирующих инструментов в ближайшие годы, будет значительным. Однако сроки этих достижений остаются неопределенными.

Изначально инструменты, подобные ChatGPT, сделают специалистов по данным более эффективными, особенно младших специалистов, которые смогут воспользоваться уже доступными предложениями от ChatGPT. Кроме того, такие инструменты могут быть полезны при документировании проектов.

Тем не менее, будущее командного взаимодействия в процессе разработки и использования приложений ИИ остается открытым вопросом. Однако появление более мощных моделей машинного обучения, по крайней мере в обозримом будущем, не отменяет необходимости в командах по работе с данными и эффективных командных процессах. Заинтересованные стороны, специалисты по данным, инженеры по машинному обучению и другие участники все равно будут должны работать вместе, чтобы гарантировать создание и использование эффективных предсказательных моделей.

Для эксперимента, рекомендую обратиться к вашему GPT со следующим запросом и посмотреть, что он вам выдаст:

Я хотел бы написать пост в блоге о том, как ChatGPT-4 (и будущие версии ChatGPT) повлияют на выполнение проектов в области Data Science. Мой акцент – на командных процессах: жизненном цикле Data Science (например, CRISP-DM) и координации команд (например, Scrum и Data-Driven Scrum). Обратите внимание, что это не технические детали создания моделей. Можете создать черновик поста для меня?

Заключение:

По мере того как языковые модели на основе ИИ, такие как ChatGPT-4, становятся более продвинутыми и интегрируются в рабочие процессы Data Science, их потенциальное влияние на командные процессы и взаимодействие становится огромным. Оптимизируя жизненный цикл Data Science, улучшая коммуникацию и трансформируя фреймворки, такие как Scrum и Data-Driven Scrum, ChatGPT-4 и его будущие версии обещают революционизировать работу команд в области Data Science. Используя эти новые инструменты, команды могут достичь новых уровней эффективности, инноваций и успеха в своих проектах.

Подписывайтесь на мой телеграмм: ART_M (AI Management)

Слушайте мой подкаст: ART_M podcast