123 подписчика

Reccurrent Neural Network (RNN) - архитектура для работы с последовательностями

26 мая26 мая

~1 мин

RNN (Reccurrent Neural Network, рекуррентная нейросеть) — это архитектура для работы с последовательностями: текстом, речью, временными рядами. Её главный принцип — наличие памяти о предыдущих шагах. Обычная сеть обрабатывает каждый вход независимо. RNN же работает циклически: на каждом шаге она получает не только новые данные, но и скрытое состояние с предыдущего шага — «сжатое воспоминание» о том, что было раньше. Пример: Вы читаете предложение «Я люблю ...». RNN обрабатывает слово «Я», запоминает, что речь о первом лице. Затем «люблю» — запоминает глагол. Когда доходит до следующего слова, сеть предсказывает его, используя оба воспоминания. Так она понимает, что после «Я люблю» вероятнее «кофе», а не «бегает». Однако у простых RNN есть проблема: они быстро забывают дальний контекст (например, начало длинного абзаца). Этот недостаток исправляют более сложные версии — LSTM и GRU, у которых память регулируется специальными «вентилями». В отличие от BERT (смотрит весь текст целиком) и G

Обычная сеть обрабатывает каждый вход независимо. RNN же работает циклически: на каждом шаге она получает не только новые данные, но и скрытое состояние с предыдущего шага — «сжатое воспоминание» о том, что было раньше.

Пример: Вы читаете предложение «Я люблю ...». RNN обрабатывает слово «Я», запоминает, что речь о первом лице. Затем «люблю» — запоминает глагол. Когда доходит до следующего слова, сеть предсказывает его, используя оба воспоминания. Так она понимает, что после «Я люблю» вероятнее «кофе», а не «бегает».

Однако у простых RNN есть проблема: они быстро забывают дальний контекст (например, начало длинного абзаца). Этот недостаток исправляют более сложные версии — LSTM и GRU, у которых память регулируется специальными «вентилями».

В отличие от BERT (смотрит весь текст целиком) и GPT (генерирует только вперёд), RNN обрабатывает данные строго последовательно, сохраняя память о прошлом.