Добавить в корзинуПозвонить
Найти в Дзене

📰 Subquadratic SubQ AI: прорыв в LLM или «искусственный интеллект Theranos»? Разбор сенсации

Стартап из Майами решил, что хватит прятаться. Subquadratic вышел из тени с заявлением, от которого у индустрии глаза полезли на лоб: мы, мол, взломали математический бутылочный горлышек, который душил большие языковые модели добрую декаду. Амбиций — вагон, но деталей — кот наплакал. Многие скептически закатывали глаза. Однако Subquadratic начал подвозить доказательства — опубликовал результаты независимой проверки своей технологии. И они, хм, намекают, что за этим шумом что-то есть. По словам Subquadratic, они разработали новую LLM, названную SubQ, которая работает быстрее, дешевле и жрёт намного меньше энергии, чем любая другая модель на рынке. Мало того — SubQ способна обрабатывать сразу до 12 раз больше текста, чем обычные модели, что позволяет ей ворочать гигантские объёмы данных: анализировать сотни документов, целые кодовые базы и прочие дата-монстры. И при этом, утверждают в Subquadratic, SubQ не уступает по качеству лучшим моделям Google DeepMind, OpenAI и Anthropic в таких з

 📰 Subquadratic SubQ AI: прорыв в LLM или «искусственный интеллект Theranos»? Разбор сенсации

Стартап из Майами решил, что хватит прятаться. Subquadratic вышел из тени с заявлением, от которого у индустрии глаза полезли на лоб: мы, мол, взломали математический бутылочный горлышек, который душил большие языковые модели добрую декаду. Амбиций — вагон, но деталей — кот наплакал. Многие скептически закатывали глаза. Однако Subquadratic начал подвозить доказательства — опубликовал результаты независимой проверки своей технологии. И они, хм, намекают, что за этим шумом что-то есть.

По словам Subquadratic, они разработали новую LLM, названную SubQ, которая работает быстрее, дешевле и жрёт намного меньше энергии, чем любая другая модель на рынке. Мало того — SubQ способна обрабатывать сразу до 12 раз больше текста, чем обычные модели, что позволяет ей ворочать гигантские объёмы данных: анализировать сотни документов, целые кодовые базы и прочие дата-монстры. И при этом, утверждают в Subquadratic, SubQ не уступает по качеству лучшим моделям Google DeepMind, OpenAI и Anthropic в таких задачах, как написание кода.

Проблема была в том, что компания поначалу не предоставила почти никаких доказательств, кроме пары самопальных тестов. Да и саму SubQ в открытый доступ не выложили — не попробуешь. Неудивительно, что к заявлениям отнеслись с изрядной долей скептицизма. Инженер по AI-моделям Дэн Макатир ёмко подытожил реакцию в соцсетях: «SubQ — либо величайший прорыв со времён Transformer, либо AI-версия Theranos».

Прошёл месяц — компания подкинула больше инфы, в том числе результаты независимых тестов от сторонней фирмы Appen. «Мы ожидали здорового скепсиса, — говорит сооснователь и технический директор Subquadratic Алекс Уидон. — Если оглянуться, то публикация сторонних бенчмарков одновременно с анонсом сняла бы много вопросов. Поэтому теперь мы тратим время, чтобы все будущие результаты были тщательно верифицированы». Appen, которая обычно тестирует чужие модели, проверила SubQ. Результаты, похоже, подтверждают большинство заявлений. «Это было реально впечатляюще — их архитектура получила валидацию, — говорит Джинин Синанан-Сингх, директор по генеративному AI-исследованию в Appen. — Я подумала: „Ого, это может перевернуть игру“, потому что модели страдают от медлительности и неэффективности. Но когда у тебя на руках шокирующие результаты, доверия к ним больше, если ты не сам их озвучиваешь».

SubQ не заменит топовые модели на все сто, но для определённых задач она может быть молниеносной и стоить копейки. Впрочем, в Subquadratic настаивают: их прорыв в перспективе изменит то, как строят LLM. «Надеемся, мы открываем новую эру эффективности, — говорит сооснователь и CEO Джастин Дэнджел. — Думаю, через несколько лет никто не будет строить модели на основе Transformer».

Внимание! Чтобы понять, почему заявления Subquadratic — это реально круто, давайте разберёмся, как работает большинство LLM. Главный механизм внутри большой языковой модели — это тип нейросети под названием transformer, который выполняет процесс плотного внимания (dense attention). Сегодняшние LLM обычно нанизывают несколько таких трансформеров друг на друга. (Основополагающая статья эпохи LLM, опубликованная исследователями Google в 2017 году, называлась «Attention Is All You Need».)

Плотное внимание работает так: когда трансформер обрабатывает кусок текста, он сначала кодирует каждое слово (или часть слова — токен) числом....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут