Базирующийся в Майами AI-стартап Subquadratic вышел из тени в прошлом месяце с громким заявлением. Компания объявила, что решила математическую проблему, которая тормозила развитие больших языковых моделей почти десятилетие.
Подробностей было мало, и многие отнеслись к заявлению скептически. Но Subquadratic начал предоставлять доказательства, опубликовав результаты независимой оценки своей новой технологии. Результаты намекают на то, что заявлениям компании, возможно, стоит уделить внимание.
По словам Subquadratic, они разработали новый тип LLM под названием SubQ, который работает быстрее, дешевле и потребляет гораздо меньше энергии, чем любая другая модель на рынке. Компания также утверждает, что SubQ способен обрабатывать одновременно до 12 раз больше текста, чем большинство других моделей, что позволяет ему выполнять широкий спектр задач, требующих работы с большими данными, таких как анализ сотен документов или целых кодовых баз.
Более того, Subquadratic заявляет, что SubQ делает это, практически не уступая по производительности лучшим моделям Google DeepMind, OpenAI и Anthropic в ключевых задачах, таких как программирование.
Проблема в том, что сначала компания предоставила мало доказательств своих утверждений, кроме горстки самостоятельно опубликованных результатов тестов. И она еще не сделала SubQ широкодоступным для самостоятельного тестирования.
Поэтому неудивительно, что заявления Subquadratic были встречены скептически. Дэн МакАтир, инженер по искусственному интеллекту, отразил общую реакцию в X: «SubQ — либо величайший прорыв со времен Трансформера... либо это AI Theranos».
Месяц спустя компания опубликовала дополнительную информацию о своей модели, включая результаты независимых тестов, проведенных сторонней фирмой Appen.
«Мы ожидали здорового скептицизма, — говорит сооснователь и технический директор Subquadratic Алекс Уидон. — Оглядываясь назад, публикация сторонних бенчмарков одновременно с первоначальным объявлением могла бы предотвратить большую часть скептицизма, поэтому мы сейчас уделяем время тому, чтобы любые будущие результаты были полностью проверены перед публикацией».
Subquadratic попросил Appen, которая оценивает модели других компаний, провести свои тесты на SubQ. Результаты, похоже, подтверждают многие заявления Subquadratic. «Это было для меня очень захватывающе, это подтвердило их архитектуру», — говорит Жанин Синанан-Сингх, директор по исследованиям генеративного AI в Appen.
«Я подумала: „Ого, это может изменить правила игры“, потому что модели страдают от проблем со скоростью и эффективностью, — добавляет она. — Но когда у вас такие поразительные результаты, они не вызывают доверия, когда вы заявляете о них сами».
SubQ не заменит существующие топ-модели повсеместно, но может предложить огромное увеличение скорости при доле обычной стоимости для определенных задач. В долгосрочной перспективе, однако, Subquadratic настаивает, что их прорыв может изменить то, как строятся LLM. «Мы надеемся, что начинаем новую эру эффективности, — говорит Джастин Дэнджел, сооснователь и генеральный директор фирмы. — Мы не думаем, что кто-то будет строить на трансформерах через несколько лет».
Внимание!
Чтобы понять, почему заявления Subquadratic — это серьезно, давайте разберемся, как работают большинство LLM. Ключевой механизм внутри LLM — это тип нейронной сети, называемый трансформером, который выполняет процесс, известный как плотное внимание. Сегодняшние LLM обычно объединяют несколько трансформеров в цепочку. (Основополагающая статья эпохи LLM, опубликованная исследователями Google в 2017 году, называлась «Внимание — это все, что вам нужно».)
Плотное внимание работает так: когда трансформер обрабатывает фрагмент текста, он сначала кодирует каждое слово (или часть слова, известную как токен) числом. Чтобы уловить смысл всего текста, он затем умножает каждое из этих чисел на каждое другое число этого текста. Например, для текста длиной 10 000 слов потребуется почти 50 миллионов отдельных умножений. Это огромные вычислительные затраты и основная причина, по которой LLM известны как «пожиратели энергии».
«Если вы хотите сделать краткое содержание „Великого Гэтсби“, вам нужно рассмотреть первое слово вместе с последним, а затем каждую другую комбинацию», — говорит Дэнджел.
По мере увеличения длины текста количество вычислений резко возрастает. Это потому, что каждое дополнительное число должно быть умножено на все предыдущие числа. Удвоение количества слов примерно учетверяет количество вычислений — такой темп роста называется квадратичным расширением.
(Вы можете представить это сами: нарисуйте круг и отметьте точки по его краю. Каждая точка — это токен. Затем нарисуйте линии между парами точек, чтобы представить умножение этих двух токенов. В круге с пятью точками будет 10 пересекающих его линий. Сделайте 10 точек — получится 45 линий, 20 точек — 190 линий и так далее.)
Сокращение затрат
Решение Subquadratic — отказаться от плотного внимания, основной операции трансформера, в пользу так называемого разреженного внимания, которое резко сокращает количество необходимых вычислений. Вместо умножения числа, назначенного каждому токену, на каждое другое число, разреженное внимание выбирает лишь некоторые числа для умножения. Идея в том, что не все отношения между словами в тексте имеют значение.
«Разреженное внимание говорит, что не все эти отношения важны, потому что они и не важны, — говорит Уидон. — Когда вы читаете книгу, вы же не смотрите на первое и второе слово, первое и третье — это безумие».
Это простой подход, и Subquadratic не первая, кто его пробует. «Пробовали практически всё под солнцем, — говорит Уилл Депью, независимый исследователь AI, ранее работавший в OpenAI. — Это не невозможно, но сродни тому, чтобы пробежать милю за четыре минуты».
Предыдущие методы выбора чисел для умножения и игнорирования не смогли создать механизм, который бы улавливал смысл документа так же хорошо, как плотное внимание.
Subquadratic утверждает, что наконец решила эту проблему. Они позиционируют SubQ как первую LLM с разреженным вниманием, которая конкурирует по производительности с主流ными моделями плотного внимания.
«Исторически большинство механизмов использовали фиксированные шаблоны, например, всегда сравнивали первое слово с пятым, — говорит Уидон. — Это довольно ограничительно. Язык слишком сложен для этого. И одна из вещей, которая делает наш механизм уникальным, — это то, что мы динамически выбираем, какие отношения важны».
Фирма не раскрывает, как именно SubQ выбирает слова, на которые следует обратить внимание, но этот выбор вычисляется на лету и отличается для каждого фрагмента текста, подаваемого модели. «Вот где заключается наш секретный ингредиент», — говорит Уидон.
Тесты, тесты
В итоге для определенных задач SubQ может быть быстрее и дешевле в работе, чем большинство других моделей. Appen оценил SubQ по стандартным тестам. В тесте на чистую скорость, который устанавливает базовый уровень того, насколько быстро модель может работать теоретически, а не оценивает ее реальные возможности, Appen обнаружил, что SubQ в 56 раз быстрее моделей, использующих FlashAttention (предыдущую технику разреженного внимания).
На LiveCodeBench, тесте, оценивающем, насколько хорошо модели справляются с задачами по программированию, взятыми из реальных соревнований, SubQ набрал 89,7%, что ставит его на один уровень с другими лучшими моделями для кодинга. «Эта модель продолжает демонстрировать производительность на уровне передовых моделей в программировании», — говорит Синанан-Сингх из Appen.
Заявления Subquadratic о стоимости проверить сложнее, поскольку SubQ пока не широко доступен. По словам Дэнджела, прогнать модель Opus 4.6 от Anthropic через тест RULER 128 (разработан Nvidia для оценки способности модели извлекать информацию из больших наборов данных) стоит 2600 долларов. А SubQ? «Это обошлось нам в восемь долларов», — говорит он.
SubQ действительно, похоже, способен обрабатывать очень большие наборы данных. Модель имеет контекстное окно (примерно аналог рабочей памяти) длиной до 12 миллионов токенов. У большинства современных топ-моделей контекстные окна — один миллион токенов. В демонстрации, которую Уидон провел для меня, он попросил SubQ выполнить задачу, требующую анализа информации из 400 документов. Модель ответила за секунды. Когда он дал то же задание Perplexity (популярному поисковику на основе LLM), тот не смог загрузить все 400 док[...]