3D CNN (трёхмерные сверточные нейросети) — это архитектура, которая одновременно обрабатывает не только ширину и высоту кадра, но и ось времени, поэтому она «видит» движение, а не отдельные статичные картинки.
В обычной 2D‑CNN ядро скользит по изображению в двух измерениях: ширина × высота, а время (кадры) обрабатываются по отдельности или через рекуррентные блоки. В 3D‑CNN ядро имеет размер kx×ky×ktk_x \times k_y \times k_tkx×ky×kt и «скользит» одновременно по кадрам и по времени, захватывая пространственно‑временные паттерны: как объекты меняют положение, форму, освещённость от кадра к кадру.
На вход подается не одиночное изображение, а видео‑клип — обычно несколько подряд идущих кадров, собранных в объём «глубина × высота × ширина × каналы». Сеть состоит из нескольких слоёв 3D‑свёрток (часто с ядрами 3×3×3) и 3D‑пулинга, которые постепенно вычленяют всё более абстрактные пространственно‑временные признаки.
В верхней части модели используются глобальный pooling и полносвязные слои,