Утром 7 января президент NVIDIA Хуан Жэньсюнь выступил с речью на крупнейшей в мире выставке потребительской электроники.
Ранее зарубежные технологические блогеры прогнозировали, что производительность графического процессора предстоящей новой версии видеокарты Nvidia будет значительно улучшена.В сегодняшнем выступлении Хуан Жэньсюнь представил видеокарту Nvidia RTX серии 50.По данным Nvidia, общая производительность RTX 5090 в два раза выше, чем у RTX 4090 предыдущего поколения.
В результате некоторые голоса также обеспокоены тем, не увеличится ли разрыв между китайской индустрией искусственного интеллекта, которая не может получить высокопроизводительные графические процессоры для обучения, и Соединенными Штатами в контексте прекращения Соединенными Штатами поставок высокопроизводительных чипов в Китай.
В области искусственного интеллекта “тревога за вычислительные мощности” всегда была популярным рассказом.Как ведущая компания по производству графических процессоров в мире, количество графических процессоров Nvidia H100 когда-то стало показателем вычислительной мощности крупных модельных компаний. Хуан Жэньсюнь однажды сказал: “Nvidia - двигатель мира искусственного интеллекта”. Под его руководством аппаратное обеспечение Nvidia является решающим продуктом для разработки крупных моделей искусственного интеллекта.
Однако мастер Тан побеседовал со своими друзьями на месте происшествия, и он сказал:
Большие модели вычислительной мощности и искусственного интеллекта больше не являются наиболее актуальными проблемами для большинства компаний на рынке.Напротив, очевидным направлением в 2024 году является применение искусственного интеллекта на практике. В связи с этим во многих случаях не требуются высокопроизводительные графические процессоры.
Напротив, Хуан Жэньсюнь казался менее “спокойным”. В своей речи он заявил, что “чип с архитектурой Blackwell от Nvidia является крупнейшим чипом в истории человечества” и “беспрецедентного масштаба”. В то же время он также применил ту же производительность для своих продуктов потребительского класса, но цена была снижена до трети от стратегии.
Это контрастирует с предыдущими ожиданиями, что продукты Nvidia продолжат дорожать.Очевидно, что в связи с тем, что ее доминирующее положение сталкивается со все большими проблемами, Nvidia также начала подумывать о том, чтобы найти “еще несколько ног” для продвижения.
Фактически, несколько ведущих компаний по всему миру, которые все еще полностью инвестируют в исследования и разработку крупномасштабных моделей искусственного интеллекта, также обозначают тенденцию "перехода к Nvidia”.
Такие компании, как Open AI и Apple, начали разрабатывать свои собственные чипы и экосистемы для поддержки собственного обучения на больших моделях.
Более важное значение этой тенденции заключается в том, что восприятие Nvidia "вычислительной мощности как короля” в маркетинге искусственного интеллекта было нарушено новыми тенденциями в индустрии искусственного интеллекта.
В дополнение к чипам искусственного интеллекта собственной разработки, ведущие мировые компании по искусственному интеллекту, такие как Open AI, больше внимания уделяют оптимизации дизайна самой большой модели.
На уровне обучения модели Mistral AI публично внедрил гибридную экспертную модель в обучение большой модели, используя множество “мелких экспертов” в определенных областях с несколькими “общими экспертами”, чтобы сначала определить тип проблемы, а затем использовать нескольких подходящих экспертов для решения различных типов проблем. Эффективный метод точной настройки, представленный DPO и LoRa, упрощает процесс выравнивания модели, который изначально требовал высокой вычислительной мощности и сложных алгоритмов настройки, значительно снижая сложность выравнивания модели.
В соответствии с этой тенденцией отечественные крупномасштабные модели постепенно уточняли направление своего развития. В 2024 году отечественные крупномасштабные модели будут развиваться семимильными шагами. Есть много случаев, когда за счет базовой оптимизации было использовано 2048 графических процессоров, что близко к производительности больших моделей, которые головная компания может обучать только с десятками тысяч графических процессоров.
В рейтинговом списке крупных моделей с открытым исходным кодом, опубликованном Hugging Face, крупнейшим в мире сообществом крупных моделей и наборов данных, с июня прошлого года отечественная китайская модель large с открытым исходным кодом однажды заняла первое место. К концу года этот рекорд был обновлен новой отечественной моделью large с открытым исходным кодом, и ее позиции в лидирующих рядах стабилизировались..
Инсайдеры отрасли анализируют с помощью Master Tan:
Это может быть сделано потому, что отечественная большая модель в основном внедрила инновации в трех аспектах: инновацию структуры данных базовой большой модели, инновацию процесса обучения и инновацию подготовки данных.
Последние данные Китайского института исследований промышленного интернета показывают, что DeepSeek-V3 эффективно уравновешивает точность обучения за счет применения метода гибридной точности. В сочетании с архитектурой гибридной экспертной модели стоимость обучения больших моделей снижается до 55 миллионов долларов США, что составляет всего 5-10% от аналогичной производительности модели, но ее производительность такая же, как у GPT-4o и Claude 3.5 Sonnet почти одинаковы.В настоящее время стоимость и время обучения аналогичных крупномасштабных моделей в Китае значительно снизились.
Этот новый метод обучения моделям не только значительно снизил порог в индустрии крупных моделей, но и способствовал тенденции снижения цен на крупные модели по всему миру.Снижение цен на большие модели имеет революционное значение для применения и трансформации технологий искусственного интеллекта.
Цены по текущему курсу ЦБ:
rtx 5090 чуть больше 200 000р rtx 5070Ti около 77000р
rtx 5080 порядка 100 000р rtx 5070 чуть выше 56000р
А там сколько за ввоз накинут и конечная сумма будет известна позже.
Отраслевые источники сообщили мастеру Тану:
В нынешней конкуренции за крупномасштабные глобальные модели искусственного интеллекта, хотя вычислительная мощность важна, она никогда не была решающим фактором.Только в сочетании с программным обеспечением и прикладными сценариями это действительно может стать двигателем трансформации отрасли и повышения экономической эффективности.
Напротив, некоторые текущие проекты в области искусственного интеллекта сталкиваются с проблемой “ложного интеллекта” - полагаясь на большое количество данных для наложения ответов, они лишены истинного творчества и воображения.
Это связано с “теорией единственной вычислительной мощности” текущего пути развития.Грубо говоря, многие ИИ, представленные сейчас на рынке, заключаются в том, что пользователь говорит ему, как это изменить, он шаг за шагом подстраивается в соответствии с требованиями и, наконец, генерирует ответ, который выглядит “правильным”, но ему не хватает способности активно думать или предлагать инновационные решения.
Хотя некоторые передовые крупномасштабные модели исследовали "цепочку мышления” и пытались заставить крупномасштабные модели думать в течение длительного времени, чтобы имитировать происхождение человеческого мышления. Это уже дало определенные результаты по некоторым вопросам, но все еще существуют серьезные препятствия для реализации “общего искусственного интеллекта”.
Более серьезная проблема заключается в том, что этот метод, основанный только на вычислительной мощности, рано или поздно достигнет предела.
Анализ, проведенный представителями отрасли и мастером Тан:
Возьмем, к примеру, нынешнюю крупную модель в Соединенных Штатах, их модель уже прочитала почти все книги на английском языке.Но что мне делать дальше?Это узкое место в разработке крупномасштабной модели искусственного интеллекта.Поскольку в мире больше нет новых книг, которыми можно было бы подпитываться, ИИ может позволить себе только писать книги, но этот способ "генерирования и подпитки сам по себе” на самом деле не получил распространения.Это все равно что быть голодным и нечего есть, поэтому вы можете быть только “самодостаточными”, очевидно, ненадолго.
Чтобы преодолеть это узкое место, мы больше не можем просто смотреть на вычислительную мощность и данные, но должны вернуться к технической природе большой модели для решения более важных задач направления.Точно так же, как одноклассник, который не очень умен, но обладает хорошей памятью, после прочтения 10 000 книг, если в книге есть ответ на вопрос, заданный в книге, он может прямо сказать вам, как его решить.Но если этого нет в книге, он не сможет ответить.Это ограничение существующей большой модели.
Другими словами, чтобы действительно хорошо работать с большой моделью, необходимо не просто увеличить вычислительную мощность, но и сделать ее “живой". Это требует разработки и координации операционных систем и сценариев применения, чтобы помочь ит перейти от индукции к инновациям.
Отечественные крупномасштабные модели Китая, очевидно, используют этот эффективный и гибкий путь, чтобы найти более “умное” направление для развития искусственного интеллекта.
Искусственный интеллект - это не беговая гонка с определенной трассой и кругами, а приключение в неизвестное.Направление, выбранное китайскими компаниями, не будет так легко подавлено всевозможными “тревогами”.
Он не тот, кто может это сделать, но он тот, кто может утвердиться и не следовать за ним.
Подпишитесь на наш канал, чтобы следить за актуальными новостями и интересными статьями.
Спасибо, что заглянули для прочтения статьи!!! Всего хорошего!!!