179 подписчиков

Моя платформа для нейросетей , часть 2. Универсальный каунтер

12 ноября 202412 ноя 2024

4 мин

Вкратце — ученые из МФТИ придумали алгоритм, который очень упрощает обучение нейросетей через работу с видеопотоками. Упрощает настолько, что можно даже использовать термин “самообучающаяся нейросеть”. Как это часто бывает с большой наукой, ученым понадобились идеи, как применить их алгоритм на пользу общества. Поэтому они пришли ко мне. А я собрал команду и придумал концепцию. Это значит, что по мере накопления нейросетей в базе, на каком-то этапе мы можем из десяти уже существующих нейросетей надергать данные и, как из Лего, быстро обучить одиннадцатую. Из этого следует, что однажды мы накопим данные и распознаем всё. Сначала в магазине, потом в ТЦ, затем в городе. Это технология нового уровня. Первым продуктом, который мы делаем, является универсальный «counter» — счётчик предметов или объектов. Что это значит? Когда камера смотрит на объект, идёт видеопоток, и в кадре есть разные объекты и предметы: человек, паллета, грузовик, каска, обувь, асфальт, стена, дом, окно и так далее. Эт

Оглавление

Привет, это Леонид Стариков, и это вторая часть моего рассказа о самом масштабном проекте в моей жизни. Первая часть здесь.
Мы делаем глобальную платформу, на которой крутятся нейросети, созданные под запросы клиентов. Секрет в том, что эти нейросети работают с общей базой распознанных объектов, и дополняют друг друга.
Эта технология может изменить мир и принести огромные деньги, а значит, она неизбежна.

Привет, это Леонид Стариков, и это вторая часть моего рассказа о самом масштабном проекте в моей жизни. Первая часть здесь.

Мы делаем глобальную платформу, на которой крутятся нейросети, созданные под запросы клиентов. Секрет в том, что эти нейросети работают с общей базой распознанных объектов, и дополняют друг друга.

Это значит, что по мере накопления нейросетей в базе, на каком-то этапе мы можем из десяти уже существующих нейросетей надергать данные и, как из Лего, быстро обучить одиннадцатую. Из этого следует, что однажды мы накопим данные и распознаем всё. Сначала в магазине, потом в ТЦ, затем в городе. Это технология нового уровня.

Эта технология может изменить мир и принести огромные деньги, а значит, она неизбежна.

Первым продуктом, который мы делаем, является универсальный «counter» — счётчик предметов или объектов. Что это значит? Когда камера смотрит на объект, идёт видеопоток, и в кадре есть разные объекты и предметы: человек, паллета, грузовик, каска, обувь, асфальт, стена, дом, окно и так далее. Это почти бесконечный список объектов.

На нашей платформе уже работает десяток, а будет работать несколько сотен нейросетей, заточённых под очень локальные задачи клиентов. Они станут частью глобальной базы нашего универсального каунтера и откроют большие возможности для бизнеса.

Предположим, к нам пришла одна госмонополия, связанная с нефтянкой. У них список из 100 нейросетей, которые нужны, чтобы описать процессы, которые они хотят контролировать. На рынке существует примерно 20: автомобили, люди, каски и прочее. Они уже есть. А остальных 80 — нет. Например, плакат на стене в комнате инструктажа, который обязательно должен быть во время проведения инструктажа для допуска людей к работе. Такой у них процесс: он должен быть выполнен, и галочка должна быть поставлена.

Но учить нейросеть различать плакат — дорого и бессмысленно. К тому же такую нейросеть невозможно масштабировать. Возможно, клиенты скажут: «Ладно, окей, мы готовы за это заплатить, научите нам нейросеть, которая распознаёт плакаты». Но им нужно сейчас, в момент, 100 нейросетей. Если они придут и всем раздадут по одной нейросети, им всё равно этот проект год будут сдавать сто подрядчиков за космическую цену. Кошмарная история со стороны клиента.

А вот если бы у них был наш универсальный каунтер, мы бы просто из большой модели дистиллировали 100 локальных нейронок. Собственно, так и будет через несколько лет.

Но это не главное, что будет уметь наша платформа. Представьте себе, что в ней уже есть тысяча объектов — это тысяча взаимодействий.

Далее мы добавляем к объектам факт наличия, время наличия, время отсутствия и время нахождения в кадре. Это ещё ×4, то есть 4000 взаимодействий. Например, если человек шёл, а потом упал, то мы понимаем, что был человек, стоял, а теперь он лежит. Мы определяем его местоположение в пространстве, и каждое изменение состояния анализируется. Таким образом, опираясь на эти 4000 взаимодействий, мы можем контролировать тысячи технологических процессов.

Например, встроенный редактор сценариев позволяет описывать сложные бизнес-процессы. Возьмём магазин.

Сейчас: есть программа производителя камеры или производителя ПО. Ты покупаешь лицензию на нейронку распознавания №1, покупаешь лицензию на нейронку распознавания №2. Тебе приходит сработка по событию по одной нейронке, сработка по событиям второй нейронки, а дальше в процессе появляется живой человек, который сидит и смотрит на разные виды сработок. Процесса нет. Процесс не описан.

Что происходит, если в магазине внедрить нашу нейросеть: приехавшая фура должна разгружаться не больше часа и уступать место следующей. Нейросеть контролирует, что фура подъехала, не путает фуру с легковой машиной. Грузовик въехал на дебаркадер. Нейросеть запустила таймер.

Если машина опоздала, нейросеть зафиксирует. Это уже плохо. Это значит, что у неё осталось 55 минут на разгрузку. Они должны успеть. Работники выгружают товар, нейросеть смотрит, как это происходит. По регламенту, допустим, паллета с фруктами на морозе не может находиться дольше 5 минут. То есть в первую очередь сотрудники должны паллету с фруктами сразу в тепло унести, иначе будут убытки. Соответственно, другая нейросеть определяет наличие паллеты с фруктами на дебаркадере и засекает время, сколько она там стояла.

Это другой бизнес-процесс, который находится внутри первого бизнес-процесса, и это тоже важно. Затем паллету уносят. Все молодцы, фрукты не испортились. Дальше грузчики разгружают фуру, успевают за 55 минут.

Дальше происходит распределение этого товара по магазину. Коробки с продуктами на полу возле дебаркадера должны находиться не дольше 30 минут. Соответственно, другая нейросеть определяет эти продукты и эти коробки, которые лежат на полу, а должны лежать на полках. И начинается другой процесс. И так далее, вплоть до покупки конкретного товара покупателем, у которого нейросеть распознаёт пол, возраст, регулярность посещения магазина, любимые полки и т. д.

Вся эта совокупность процессов может быть автоматизирована и учтена полностью, без разрывов. Причём контролировать будет одна платформа.

А сейчас внимание. В будущем это может работать так: Ты, как хозяин магазина, можешь спросить нейросеть: «Где я теряю деньги? Что можно улучшить?» И наша нейросеть даст ответ и выведет на экран аргументы.

Такого продукта сейчас на рынке просто нет. Но мы его делаем. В следующих сериях я приведу ещё пару крутых примеров реализации нашего универсального каунтера.

Продолжение

Гаджеты и электроника

5,73 млн интересуются