Недавно выступали на форуме Университета ИТМО на IT CONF x Форум Центра карьеры. Делимся ключевыми выводами после выступления в ИТМО.
Архитектура B2C vs B2B.
Cursor, Claude Code и подобные инструменты дизайнеры для свободы:
- Нет жестких дедлайнов — проект может занять любое время;
- Свобода в выборе инструментов — меняйте библиотеки, фреймворки, подходы на лету;
- Минимальная инфраструктура — часто не нужны CI/CD, трекеры, мониторинги.
Это идеально для pet‑проектов и стартапов. Но попробуйте так работать в крупной компании — и сразу упрётесь в стену требований:
Проблема 1: Нет единого процесса
Каждый разработчик использует свой ассистент по‑своему. В результате код «расползается» в стилях, качестве, подходах. AI работает локально, но результат влияет на весь проект.
Проблема 2: CTO не видит, что происходит
Сколько кода сгенерировал AI? Какого качества? Как это повлияло на дефекты? Метрик нет. Управления нет. Есть только надежда, что ребята делают правильно.
Проблема 3: Безопасность и комплаенс
B2C ассистенты работают с облаком. Для enterprise это критично — утечка кода, регуляторные требования, риски. Можно ли вообще использовать такие инструменты, если у вас есть требования по защите данных?
Проблема 4: Масштабирование невозможно
Если инструмент работает хорошо на одного разработчика, это не значит, что он сработает на 100. Нет архитектуры под управление, под процессы, под надзор.
Что нужно в enterprise?
На ИТМО мы показали модель управляемого AI, которая работает в реальных компаниях. Вот её основы:
1. Управляемые сценарии
Вместо свободного экспериментирования — описанные сценарии: «сгенерировать тесты под модуль», «починить по стектрейсу», «провести рефакторинг». Каждый сценарий имеет правила, проверки, метрики.
2. Централизованный контроль качества
AI‑код не попадает в репо просто так. Проходит обязательный слой: статический анализ, динамическая проверка, требование к тестам. Это не заменяет code review, но гарантирует базовый уровень.
3. Видимость для руководства
Дашборд показывает: сколько кода сгенерировано, какой процент тестов, сколько было принято без правок, как это влияет на дефекты. На основе этого принимаю решения о масштабировании.
4. On‑prem и полный контроль
Платформа разворачивается в вашей сети. Никакой утечки кода в облако, никаких рисков с безопасностью. Полный контроль над моделями и данными.
5. Единые процессы для всех команд
Все используют одни и те же сценарии и правила.
Но есть ещё один момент: выбор модели.
Мы протестировали разные открытые LLM на реальных задачах разработки и получили поразительные результаты. Наш внутренний бенчмарк (с использованием GPT-5.2 и Gemini 3 Pro как арбитров) показал, что DeepSeek-V3.2 уверенно превосходит самую популярную в enterprise модель Qwen3-Coder-480B по всем ключевым параметрам.
Вот что мы увидели:
О честности выполнения задач:
Qwen утверждает об успехе без реальной проверки и иногда меняет не те компоненты. DeepSeek действует иначе: он последовательно валидирует результаты, запускает тесты, настраивает логирование и эскалирует проблему, если не может выполнить задачу точно.
Результат vs имитация деятельности:
Там, где Qwen застревал на этапе анализа, не переходя к реальным правкам, DeepSeek доставлял готовую функциональность и реализовывал запасные варианты.
Завершенность vs формализм:
Qwen ставит во главу угла соблюдение формальных правил, но теряет нить и бросает задачу на полпути. DeepSeek приоритезирует сущностное завершение задачи, даже если для этого приходится отойти от жестких, но формальных требований.
Меньше шума, больше дела:
Взаимодействие с DeepSeek вызывает меньше трения. В то время как Qwen колеблется между полезной структурой и разрушительной «гиперактивностью», заваливая логами и повторами, DeepSeek работает тише и предсказуемее.
Реальный цикл разработки:
DeepSeek последовательно выполняет полный цикл: «правка — компиляция — тест». На сложных задачах Qwen может скатываться в бесконечные поиски по файлам и в тупиковые ветви, завершаясь таймаутом.
Наглядный пример из бенчмарка:
Qwen3-Coder-480B:
text
"Looks good: tests were added only in ConfigControllerTest
and they pass locally. This should bump line coverage
as requested by at least 0.1%"
formal_verification_result: 0 ❌
Звучит убедительно, но задача не выполнена. Тесты добавлены, но покрытие не поднялось.
DeepSeek-V3.2:
text
"Nice work: you only modified tests, all tests pass,
and ConfigController line coverage rose from 86.67% to 100%
(branch to 94.12%), exceeding the required +0.1%.
This completes the task."
formal_verification_result: 1 ✅
Не только выполнил задачу, но и привёл точные цифры. Прозрачно и верифицируемо.
Итог:
DeepSeek-V3.2 заметно умнее, уверенно решает более сложные задачи и не допускает ошибок там, где ошибалась Qwen. Когда появляется препятствие, он до конца пытается устранить проблему: продолжает анализ, отладку и поиск решений — в тех случаях, где Qwen просто останавливалась и запрашивала помощь человека.
Именно поэтому в Veai мы сделали DeepSeek-V3.2 основной моделью для критичных сценариев: генерация тестов, фиксы по стектрейсу, миграции и сложные рефакторинги.
Первые отзывы наших пользователей с DeepSeek-V3.2 в Veai:
- «Тесты генерируются быстрее и с лучшим качеством»
- «Наконец AI может довести задачу до конца, а не бросить на полпути»
- «Меньше ошибок, которые нужно исправлять вручную»
Реальные результаты из пилотов:
После внедрения управляемого AI с DeepSeek в IBS и БКС видели:
- Покрытие тестами выросло на 10–15%;
- Доля автотестов, принятых без правок, составила ~80%;
- Time‑to‑fix для типовых багов сократился на 25–30%;
- На каждые 100 разработчиков экономия в 500K в год;
- NPS разработчиков поднялся на 15–20 пунктов.
Наши выводы:
B2C инструменты вроде Cursor — это отличные спорткары для личной продуктивности. Но в enterprise нужна система: дороги, светофоры и управление трафиком.
Именно это и есть Veai с DeepSeek-V3.2 — управляемая платформа, которая превращает AI‑ассистентов в надёжный командный ресурс.
Хотите попробовать? Запросите доступ к
и посмотрите, как DeepSeek-V3.2 работает на ваших реальных задачах.
#CTO #AI #Enterprise #SDLC #SoftwareDevelopment #ИТМО