141,9 тыс подписчиков

Одна видеокарта NVIDIA RTX 3090 может поддерживать работу чат-бота с ИИ для 1000 пользователей

24 августа 202424 авг 2024

3 мин

В последние годы искусственный интеллект стал неотъемлемой частью многих бизнес-процессов, и с каждым днем растет потребность в эффективных и доступных решениях. Эстонский облачный стартап Backprop недавно продемонстрировал удивительную способность видеокарты NVIDIA RTX 3090, выпущенной в 2020 году, поддерживать работу чат-бота на базе ИИ, обслуживающего более 1000 пользователей одновременно. Это открытие ставит под сомнение необходимость использования дорогостоящих корпоративных графических процессоров для таких задач.

Согласно данным стартапа, работающего в области облачных вычислений, RTX 3090 способна поддерживать работу языковой модели Llama 3.1 8B на одном графическом процессоре, обеспечивая при этом высокую скорость обработки запросов. В ходе тестирования было установлено, что эта видеокарта может обрабатывать до 100 одновременных запросов от пользователей, что делает ее подходящей для задач, связанных с обслуживанием клиентов через чат-ботов.

Производительность RTX 3090 впечатляет: она достигла скорости обработки 12,88 токенов в секунду, что превышает среднюю скорость чтения человека и значительно выше минимально допустимого уровня для чат-ботов, который составляет 10 токенов в секунду. Это означает, что чат-бот, работающий на базе этой видеокарты, может эффективно взаимодействовать с несколькими сотнями пользователей одновременно, предоставляя им ответы на запросы в реальном времени.

Интересно, что стартап Backprop утверждает, что для обслуживания тысяч пользователей достаточно использовать лишь одну RTX 3090. Это открытие может значительно снизить затраты на инфраструктуру для компаний, которые нуждаются в чат-ботах для поддержки клиентов. Вместо того чтобы инвестировать в дорогостоящие решения, такие как серверные кластеры с множеством графических процессоров, компании могут использовать более доступные и старые модели видеокарт.

Важным аспектом этого тестирования является также то, что Backprop использовал фреймворк vLLM, который позволяет эффективно управлять языковыми моделями на нескольких графических процессорах. Это дает возможность стартапу продемонстрировать, как одна видеокарта может справляться с нагрузкой, которая ранее считалась посильной только для более мощных систем.

Однако стоит отметить, что результаты тестирования имеют свои ограничения. Например, тесты проводились с короткими подсказками, что может не полностью отражать производительность чат-ботов при обработке более сложных запросов. При использовании длинных подсказок с 200-300 токенами RTX 3090 все еще показывала приемлемые результаты, достигая скорости генерации около 11 токенов в секунду при 50 одновременных запросах. Это подтверждает, что видеокарта может быть эффективной даже в условиях увеличенной нагрузки.

Кроме того, стоит учитывать, что производительность RTX 3090 может быть улучшена за счет квантования моделей. Сжатие моделей до более низкой точности, например, до восьми или четырех бит, может значительно увеличить пропускную способность и позволить обслуживать большее количество запросов одновременно. Однако такое квантование может повлиять на точность работы модели, и это следует учитывать при выборе стратегии.

Стартап Backprop также готовит к запуску более мощные решения, включая PCIe-карты A100 с 40 ГБ HBM2e, которые позволят значительно увеличить масштабируемость и пропускную способность. Эти карты, хотя и являются более старыми, предлагают возможности многопользовательского доступа, что может снизить затраты для компаний, стремящихся к масштабированию своих ИИ-систем.