Игорь Ашманов: Умная нейросеть – это бредогенератор нового поколения, но очень гладкий и изощренный. С одной стороны, это гигантский прорыв в технологиях генерации текстов и картинок. С другой – искусственный интеллект имеет свойство ухудшать все, до чего он дотрагивается.
Недавно завершился третий раунд обучения моей языковой модели, предназначенной для обработки запросов пользователя на естественном языке - Requestor0.
Данная модель — первая в планируемой серии (из трёх) и её основная специализация — предварительная обработка текстов: перевод, выделение ключевых тем, обобщение, сочинение заголовков, перефразирование, составление пошагового плана для написания текста.
В связке с двумя другими моделями, которые пока что только на начальной стадии планирования, я ожидаю получить полнофункциональный аналог языковой модели общего назначения, но полученную на малых моделях (до 1 млрд. параметров). Это позволит задействовать слабое железо или организовывать распределённые сети для создания более сложных ИИ систем, похожих по некоторым возможностям на ChatGT, Claude, DeepSeek и т. д. Но это ещё не близкая перспектива. Слишком большой объём работы.
Поэтому, имея в распоряжении только первую модель, я намерен сначала сделать её доступной для скачивания и тестирования саму по себе и в составе готового сервиса. Это будет сделано уже в ближайшее время (ориентировочно к середине марта). Часть программы уже написана и я её могу использовать, например для перевода технических статей с английского на русский и генерации на основе исходника новой статьи. Ограничений на длину контента нет (если не считать время выполнения запроса) — достаточно скопировать иностранную статью и нажать на кнопку, чтобы на выходе получилась новая статья по теме предоставленного текста. Некоторые вещи ещё не решены, в частности параллелизм выполнения запросов, интерфейс пользователей, а также исправление огрехов токенизации.
Некоторые технические характеристики модели:
- Тип модели: Seq2Seq Transformer
- Количество слоёв внимания: 6
- Размерность входного слоя: 768
- Размерность выходного слоя: 768
- Размер словаря: 12000
- Число параметров кодера: 37547520
- Число параметров декодера: 42508512
- Общее число параметров: 80056032 (float32)
Минимальное оборудование, пригодное для работы:
- CPU: AMD Athlon II X2 245
- RAM: 2 Gb
- HDD: 96 Mb
Примеры работы модели
1. Перевод с русского на английский
2. Определение темы текста:
3. Генерация вопроса:
4. Генерация заголовка:
5. Генерация вопросов с русского текста на английский (без предварительного перевода):
6. Определение темы текста с русского текста на английский (без предварительного перевода):
Модель хорошо понимает запрос и текст независимо от того, на русском оно или английском. Думаю это позволит также использовать её для задач RAG, чтобы найти все релевантные фрагменты текста независимо от того, на каком языке они написаны.
С английского на русский переводит и выполняет запросы тоже нормально. Хотя бывают и разные огрехи. Например министра финансов модель может перевести как секретаря сокровищ. А "Dirichlet process mixture models" может превратиться в "Модели смеси дьявольцев" (поди пойми, что это, не имея контекста и некоторого понимания темы).
Ну и в заключение - новая статья из исходника в один клик.
Исходник:
- «Восхождение DeepSeek: почему китайская нейросеть превзошла ChatGPT в мире ИИ»
Прорыв ИИ: Запуск DeepSeek и Его Влияние на Рынок
Введение
В мире быстро развивающихся технологий стартап DeepSeek, основанный Ляном Вэньфэном, заявил о себе как о значимом игроке в области искусственного интеллекта (ИИ). Компания привлекла международное внимание благодаря своим инновационным разработкам, которые значительно улучшили производительность ИИ-моделей по сравнению с отраслевыми стандартами.
Технологические Достижения
DeepSeek представил новые модели, которые по своим характеристикам сопоставимы или даже превосходят американские аналоги, при этом предлагая их по значительно более низкой цене. Это стало возможным благодаря использованию передовых технологий, таких как глубокое обучение и нейронные сети.
Финансовые Показатели
Запуск DeepSeek вызвал значительный интерес на рынке. В день после публичного объявления акции компании подешевели на 16,9%, что свидетельствует о высокой волатильности и интересе со стороны инвесторов. Для сравнения, акции Nvidia, лидера в области ИИ, торговались по цене 142 доллара за штуку.
Конкурентная Среда
DeepSeek стал серьезным конкурентом для таких гигантов, как OpenAI с его моделью ChatGPT, и других стартапов, таких как Gemini. Мобильное приложение DeepSeek-R1, предлагающее чатботный интерфейс, быстро завоевало популярность и возглавило рейтинги в Apple App Store, обогнав ChatGPT.
Влияние на Рынок
Успех DeepSeek подчеркивает амбиции Китая в области ИИ и его стремление к лидерству к 2030 году. В то же время США остаются ключевым игроком благодаря значительным финансовым вложениям и развитой исследовательской инфраструктуре.
Технические Преимущества
DeepSeek использует систему Mixture of Experts (MoE), которая позволяет активировать только наиболее релевантные части модели, что делает ее более эффективной. Модели DeepSeek показали высокие результаты в кодировании и математических рассуждениях, что делает их привлекательными для использования на менее мощных устройствах.
Заключение
DeepSeek продемонстрировал, что ИИ-технологии могут быть доступными и высокоэффективными одновременно. Компания продолжает инновации, предлагая уникальные решения, которые могут изменить будущее бизнеса, отраслей и геополитики на глобальном уровне.