Здравствуйте. Знаю что эту тему поднимали уже многие, но я лично читая разные источники, понял что мне так или иначе не хватает подробностей или деталей того как устроена самая простая НС и мне захотелось написать собственную статью (наверно даже больше для себя), такую что даже первоклассник сможет понять что к чему)
...естественно я буду брать информацию с глобальной сети, но постараюсь её чательно проверять. (удачи мне)
И так, сама концепция нейросети начала формироваться в 1940-1950-х годах. Тогда исследователи-математики пытались создать машину, которая могла бы имитировать или заменять функции человеческого мозга.
(правда что само слово "нейросеть" появилось только не давно, ранее же просто, искусственный интеллект и машинное обучение.)
Как и положено в приличных местах, познакомимся с отцами нашумевшего творения.
В 1943-м году Уоррен Мак-Каллок и Уолтер Питтс предложили математическую модель нейрона.
А уже в конце 1950-х Фрэнк Розенблатт представил персептрон, простыми словами - математическая модель мозга. Именно персептрон можно назвать первой практической реализацией нейросети.
Если чуть подробнее, то в 1957м году Ф.Розенблатт предложил спец-тип однослойной нейронной сети, а всего через два года продемонстрировал созданное на её основе устройство, моделирующее человеческий глаз.
Познакомились, теперь разбираемся)
Персептрон — это простая модель машинного обучения, которую создали для помощи компьютерам в обучении на разных данных, которые прописывали и вносили в некую базу в ручную.
Допустим, мы хотим обучить персептрон классифицировать изображения на "яблоки" и "апельсины".
- Берём несколько изображений яблок и апельсинов.
- Даём персептрону по одной картинке. Он её обрабатывает и соотносит к яблоку или апельсину.
- Если ответ правильный, мы ничего не меняем. Если ответ неправильный, то мы корректируем правила внутри персептрона, чтобы в следующий раз он не ошибся.
- Повторяем процесс для всех изображений, пока он не перестаёт ошибаться.
- Далее мы тестируем персептрон уже с другими изображениями яблок и апельсинов.
Это очень простой пример того, как можно обучить и протестировать персептрон. В реальности процесс более сложный и включает в себя настройку гораздо большего количества переменных и правил, но основная идея та же.
Персептрон — это очень базовая модель, но она проложила путь к разработке более совершенных алгоритмов машинного обучения, которые используются сегодня.
1980-2000: Первый, весомый прорыв МОРО
или метод обратного распространения ошибки и нелинейные функции активации.
Несмотря на крутость персептрона, исследования и вычислительные возможности того времени не позволяли сильно развить идею нейросетей. В какой-то степени, от неё даже отказались, но не на долго.
Уже ближе к концу 20-го века исследователи добились большого прогресса. Был разработан "Метод обратного распространения ошибки".
Точнее, Впервые метод был описан в 1974г. А.И. Галушкиным и потом только существенно развит в 1986г. Американскими учёными.
Метод обратного распространения ошибки
Допустим, нейросеть пытается распознать рукописные цифры от 0 до 9. Ей сначала дают примеры для обучения, а потом она их использует, чтобы выдавать собственные предположения.
нейросеть выдает предположение о конкретной цифре на изображении, а затем сравнивает это предположение с реальным значением и вычисляет разницу между ними (ошибку). Затем ошибка используется для корректировки, которая влияет на выходные данные нейросети. Процесс повторяется много раз, пока сеть не начинает распознавать цифры с максимально высокой точностью.
До появления Метода обучать нейросети было крайне сложно, потому что было трудно обновлять сети для оптимизации работы.
В дополнение к Методу исследователи придумали нелинейные функции активации. Они позволяют сети моделировать сложные взаимосвязи между входами и выходами. Это заложило основу для недавнего "возрождения" нейронных сетей уже в лице Deep Learning (Глубокое обучение).
далее кратко эпилоги, так как тему считаю закрытой)
2000-2020: Развитие Deep Learning
В "нулевых" появились мощные графические процессоры и стали доступны большие объёмы данных. Результаты исследований начали демонстрировать высокие результаты в обучении и составлении прогнозов на основе больших объёмов передачи и обработки данных.
Развитие Deep Learning привело к разработке новых архитектур, алгоритмов и инструментов для построения и обучения нейросетей.
2020е: наши дни
Одной из самых прорывных историй является создание модели GPT-3 или по другому Generative Pretrained Transformer 3.
GPT-3 языковая модель, разработанная OpenAI (кстати они и создали Chat GPT). Модель была представлена в 2020 году и хорошо нашумела. Её натренировали на огромном количестве текстовых данных и научили выполнять разные языковые задачи.
В конце ноября 2022-го года в свет выходит ChatGPT и спустя 2 месяца преодолевает отметку в 100 миллионов пользователей, получив статус самого быстрорастущего онлайн-сервиса за всю историю.
спасибо за внимание и хорошего вам дня)