11 подписчиков

2. Процесс создания ИИ

23 июля 202523 июл 2025

5 мин

Первый шаг в создании ИИ — это сбор данных. Данные могут быть структурированными (таблицы) или неструктурированными (тексты, изображения). Важно обеспечить разнообразие и качество данных, чтобы модель могла обобщать свои выводы. Перед тем как использовать данные для обучения модели, их необходимо обработать. Это включает в себя: Существует множество моделей машинного обучения и глубокого обучения. Выбор модели зависит от задачи: Логистическая регрессия — это статистический метод, который используется для предсказания вероятности принадлежности объекта к определённому классу. Это делается с помощью логистической функции (сигмоиды: это плавные S-образные кривые. Это просто гладкая "переключалка" между двумя состояниями), которая преобразует линейную комбинацию входных признаков в значение от 0 до 1, иногда 0,5, если значение находится в промежутке. Применения: Деревья решений — это метод, который использует модель в виде дерева для принятия решений. Каждая ветвь дерева представляет соб

Оглавление

2.1 Сбор данных
2.2 Предобработка данных
2.3 Выбор модели

2.1 Сбор данных

2.2 Предобработка данных

Перед тем как использовать данные для обучения модели, их необходимо обработать. Это включает в себя:

Очистку данных от ошибок и пропусков.
Нормализацию и стандартизацию.
Преобразование текстов в числовые форматы (например, с помощью векторизации).

2.3 Выбор модели

Существует множество моделей машинного обучения и глубокого обучения. Выбор модели зависит от задачи:

Для классификации можно использовать логистическую регрессию или деревья решений.

2.3.1 Логистическая регрессия

Логистическая регрессия — это статистический метод, который используется для предсказания вероятности принадлежности объекта к определённому классу. Это делается с помощью логистической функции (сигмоиды: это плавные S-образные кривые. Это просто гладкая "переключалка" между двумя состояниями), которая преобразует линейную комбинацию входных признаков в значение от 0 до 1, иногда 0,5, если значение находится в промежутке.

Применения:

Медицинская диагностика: Определение вероятности наличия заболевания на основе различных медицинских показателей. Как раз в России есть такая ИИ, которая позволяет определять, чем может болеть пациент.
Маркетинг: Оценка вероятности того, что клиент совершит покупку на основе его характеристик и поведения.
Финансовый анализ: Оценка риска невыплаты кредита.

2.3.2 Деревья решений

Деревья решений — это метод, который использует модель в виде дерева для принятия решений. Каждая ветвь дерева представляет собой тест на определённый признак, а конечные узлы (листья) представляют собой классы(почти как в логической регрессии, но чуть-чуть наоборот) или значения, которые мы пытаемся предсказать.

Применения:

Классификация: Определение класса объекта на основе его характеристик (например, классификация клиентов по сегментам).
Регрессия: Прогнозирование числовых значений (например, прогнозирование цен на жильё).
Анализ данных: Помогает визуализировать и интерпретировать данные благодаря своей простой и понятной структуре.

2.3.3 Сверточные нейронные сети (CNN).

Для обработки изображений — сверточные нейронные сети (CNN).

Сверточные нейронные сети (CNN, Convolutional Neural Networks) — это тип глубоких нейронных сетей, который особенно хорошо подходит для обработки данных с сетчатой структурой, таких как изображения. Они широко используются в задачах компьютерного зрения, таких как распознавание объектов, классификация изображений и сегментация.

Сетчатая структура в свою очередь - это способ организации данных или компонентов системы в виде сети, где элементы связаны между собой не строго иерархически (как в дереве), а более гибко, с множеством возможных соединений. Это как паутина, где всё взаимосвязано, и нет жёсткого "начальника". Она используется везде, где важна устойчивость и гибкость.

Основные компоненты CNN:

1. Сверточные слои (Convolutional Layers):
- Основной элемент CNN. Эти слои применяют свертку к входным данным с использованием фильтров (или ядер). Фильтры сканируют изображение и извлекают важные признаки, такие как края, текстуры и формы.
- Каждый фильтр создает отдельную карту признаков (feature map), которая подчеркивает определенные характеристики изображения.

2. Слои подвыборки (Pooling Layers):
- Эти слои уменьшают размерность карт признаков, сохраняя при этом важные данные. Наиболее часто используемый метод — это максимальная подвыборка (max pooling), которая выбирает максимальное значение из области, определенной фильтром.
- Это помогает уменьшить вычислительные затраты и предотвращает переобучение. Переобучение у нейросети - это когда нейросеть не придумывает ответ, а дает уже заученный ответ.

3. Полносвязные слои (Fully Connected Layers):
- На выходе из сверточных и подвыборочных слоев данные обычно "разворачиваются" в одномерный вектор и передаются в полносвязные слои. Эти слои принимают решения на основе извлеченных признаков. Короче говоря, все суммируется и складывается в одно большое логическое умозаключение.
- Полносвязные слои работают аналогично обычным нейронным сетям, где каждый нейрон связан со всеми нейронами предыдущего слоя.

4. Активационные функции:

- Используются для введения нелинейности в модель. Наиболее распространенной функцией активации является ReLU (Rectified Linear Unit), которая заменяет все отрицательные значения на ноль. Простыми словами, это функция, благодаря которой нейросеть определяет насколько правильное решение оно получило, если он будет слабым, то и отправлять мы этот ответ не будем

2.3.4 Рекуррентные нейронные сети (RNN)

Рекуррентные нейронные сети — это тип нейронной сети, который предназначен для обработки последовательной информации. Они имеют циклическую структуру, что позволяет им сохранять информацию о предыдущих состояниях.

Как это работает?

Берутся последовательные данные(слова в предложении). Они записываются в скрытое состояние(память самой нейросети, в которой находятся связи и важная информация). После используется активационная функция, о ней писал чуть выше.

2.3.5 Трансформеры

Трансформеры — они основаны на механизме внимания и не используют рекуррентные связи. Короче, круче, чем прошлая модель

Как это работает?

В трансформерах есть механизм внимания, который позволяет смотреть на различные входные данные при записи выходных данных. Нейросеть смотрит на контекст, а не на последовательность данных. Потом используется энкодер, чтобы преобразовать входные данные в набор векторов. Потом декодер берет эти вектора и генерирует выходные наборы данных. Так как у этой модели нет рекуррентных связей, они используют позиционную кодировку(к вектору добавляется дополнительное число, которое рассчитывается с помощью синусов и косинусов(да-да, и здесь они, не зря математичка говорила их учить)), чтобы учитывать порядок в последовательности. Ну а потом ты получаешь ответ на свой запрос: "Сколько будет 2+2"

2.4 Обучение модели

На этом этапе модель обучается на подготовленных данных. Процесс обучения включает в себя:

Разделение данных на обучающую и тестовую выборки.
Настройку гиперпараметров модели. Это предварительные "настройки", которые задаются вручную. От них будет зависеть насколько хорошо будет отвечать или решать задачу ИИ
Оценку качества модели с помощью метрик (точность, полнота и другие).

2.5 Тестирование и внедрение

После обучения модель тестируется на новых данных, чтобы проверить её способность обобщать. Если результаты удовлетворительные, модель можно внедрять в реальное приложение. Проще говоря, после внедрения всех данных, мы тестируем рандомными данными, которых не было во время обучения