9 подписчиков

Создание ИИ, обучающего ИИ. Зачем?

3 минуты

18 апреля

ИИ и нейросети

Искусственный интеллект (ИИ) — это компьютерные программы, которые анализируют данные и делают выводы, решая различные задачи: от распознавания изображений до прогнозирования и разработки новых программ.

Нейронные сети — это один из видов ИИ, построенный по принципу работы человеческого мозга с множеством "нейронов", обрабатывающих информацию. Особенность нейросетей в их способности адаптироваться к новым условиям.

Основные задачи, которые решают нейросети:

Генерация: создание изображений, текстов, музыки и видео по заданным параметрам (как в случае с DALL-E).
Прогнозирование временных рядов: прогнозы погоды, цен, поведения участников дорожного движения.
Регрессия: оценка стоимости недвижимости, возраста и пола по фотографии.
Кластеризация: объединение данных в группы по признакам.
Классификация: распознавание объектов, людей, животных, дизайнерских решений.

Несмотря на впечатляющие способности, нейросети все еще уступают человеческому мастерству в некоторых сферах, таких как профессиональный дизайн. Но их развитие продолжается, и они становятся все более востребованными для решения широкого круга задач.

Обучение ИИ

Машинное обучение (Machine Learning или ML) — одно из самых сложных и перспективных направлений развития искусственного интеллекта (ИИ). Это набор методов и алгоритмов, позволяющих системам на основе ИИ учиться и решать задачи, не ограничиваясь строгими рамками заданных программ, а постоянно совершенствуя свои знания и накапливая опыт.

Три ключевых компонента обучения нейросетей:

Данные — большие массивы информации, на основе которых нейросеть может обучаться. Это могут быть статистические данные, исторические факты, примеры переводов, изображения и т.д.
Признаки (характеристики) — свойства этих данных, на которые должна обращать внимание нейросеть в процессе обучения. Например, частотность слов в тексте или цена товаров.
Алгоритмы — методы решения задач, которые нейросеть будет использовать. Современные ML-модели вынуждены учитывать десятки миллионов таких признаков.

Процесс обучения нейросетей

Интересным и малоизвестным фактом является то, что значительную часть этой рутинной работы по подготовке данных для обучения нейросетей выполняют не машины, а люди. Для этого широко используются краудсорсинговые сервисы, где тысячи работников выполняют различные задания, связанные с разметкой, обобщением и преобразованием данных.
Исследователи из EPFL решили провести эксперимент, чтобы изучить этот процесс. Они наняли 44 человека через платформу Amazon Mechanical Turk для обобщения тезисов 16 медицинских исследований. Цель заключалась в том, чтобы затем внести эти данные в нейросеть и обучить ее новым способам извлечения основной идеи из подобной литературы. Однако параллельно ученые разработали специальный классификатор, который позволял определить, будут ли работники выполнять задание самостоятельно или прибегнут к помощи нейросетей для повышения скорости. К их удивлению, от 33% до 46% полученных текстовых отрывков было сгенерировано нейросетью, а не написано человеком.
Это демонстрирует определенную тревожную тенденцию. Если большие языковые модели, такие как GPT-4 от OpenAI, будут обучаться на собственных данных, сгенерированных ими самими, это может привести к снижению качества их работы или замедлению развития в будущем.
Крупные компании, вроде OpenAI, держат свои методы обучения в строжайшем секрете, но многие другие фирмы, возможно, полагаются на труд наемных работников для обучения собственных ИИ-моделей. Это требует очень четкого техзадания и инструментов контроля, чтобы избежать использования сгенерированного нейросетями текста, который может существенно снизить ценность полученных данных.
Исследователи из EPFL считают, что в будущем человеческие данные могут стать даже более ценными, чем сейчас, несмотря на стремительное совершенствование языковых моделей ИИ. Это связано с тем, что ответы, генерируемые современными моделями ИИ, часто бывают тривиальными и не отражают сложность и разнообразие человеческого творчества.

Нейросети, действительно, прорывная технология, но при правильном обучении 😉 Что думаете?