123 подписчика

Gated Recurrent Unit (GRU) - упрощённая и более быстрая версия LSTM

26 мая26 мая

~1 мин

GRU (Gated Recurrent Unit) — это упрощённая и более быстрая версия LSTM, созданная для тех же целей: запоминать важное надолго и забывать ненужное. Главный принцип — два вентиля вместо трёх. В GRU всего два регулирующих механизма: 1. Вентиль обновления — решает, сколько прошлой памяти оставить и сколько новой информации добавить. Он объединяет функции входного вентиля и вентиля забывания из LSTM. 2. Вентиль сброса — решает, насколько сильно "забыть" прошлое состояние, чтобы обработать текущий вход. Если прошлое не важно — вентиль его обнуляет. В отличие от LSTM, у GRU нет отдельной ячейки долговременной памяти. Вся информация хранится в одном скрытом состоянии, которое обновляется напрямую. Это делает GRU проще, быстрее обучается и требует меньше вычислительных ресурсов. Аналогия: Если LSTM — это аккуратный секретарь с тремя папками (забыть, записать, выдать), то GRU — расторопный помощник с двумя: заменить старое на новое и обнулить при необходимости. GRU работает практически так же

В GRU всего два регулирующих механизма:

1. Вентиль обновления — решает, сколько прошлой памяти оставить и сколько новой информации добавить. Он объединяет функции входного вентиля и вентиля забывания из LSTM.

2. Вентиль сброса — решает, насколько сильно "забыть" прошлое состояние, чтобы обработать текущий вход. Если прошлое не важно — вентиль его обнуляет.

В отличие от LSTM, у GRU нет отдельной ячейки долговременной памяти. Вся информация хранится в одном скрытом состоянии, которое обновляется напрямую. Это делает GRU проще, быстрее обучается и требует меньше вычислительных ресурсов.

Аналогия: Если LSTM — это аккуратный секретарь с тремя папками (забыть, записать, выдать), то GRU — расторопный помощник с двумя: заменить старое на новое и обнулить при необходимости.

GRU работает практически так же хорошо, как LSTM, на большинстве задач (обработка речи, текста, временных рядов), но тренируется заметно быстрее.