Crypto Currency Tracker logo Crypto Currency Tracker logo
Forklog 2026-03-11 14:41:13

Высечь в камне

Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, требующие параллельных вычислений На графическом процессоре можно запустить, например, PoW-майнер для добычи криптовалют, но в условиях конкуренции со специализированным оборудованием GPU-фермы стали решением для нишевых проектов.  Похожая ситуация складывается в сфере ИИ. Видеокарты стали основным вычислительным инструментом для нейронных сетей. Но по мере развития индустрии возник спрос на специализированные решения для работы с ИИ. ForkLog разобрался в новом витке гонки в области искусственного интеллекта. Оптимизация кремния для ИИ Существует несколько подходов к созданию специализированного оборудования для задач искусственного интеллекта. Потребительские GPU можно считать отправной точкой на пути специализации. Их способность работать с параллельными матричными вычислениями пригодилась для развертывания нейросетей и особенно глубокого обучения, но пространства для улучшений оставалось достаточно. Одна из главных проблем ИИ на видеокарте — необходимость постоянно перемещать большие объемы данных между системной памятью и GPU. Эти сопроводительные процессы могут отнимать больше времени и энергии, чем сами полезные вычисления. Другая проблема GPU проистекает из их универсальности. Архитектура видеокарт рассчитана на широкий спектр задач — от рендеринга графики до вычислений общего назначения. В результате часть аппаратных блоков оказывается избыточной для специализированных ИИ-нагрузок. Отдельным ограничением выступает формат данных. Исторически графические процессоры оптимизировались под операции с FP32 — 32-битными числами с плавающей запятой. Для инференса и обучения обычно применяют форматы меньшей точности: 16-битные FP16 и BF16, целочисленные INT4 и INT8. Nvidia H200 и B200 Одни из популярнейших продуктов для инференса и обучения — чипы H200 и серверные системы DGX B200 — по большому счету представляют собой «усиленные» GPU для дата-центров. Основной ИИ-ориентированный элемент этих ускорителей — тензорные ядра, предназначенные для сверхбыстрых матричных операций вроде обучения моделей и пакетного инференса. Чтобы сократить задержки при доступе к данным, Nvidia оборудует свои карты огромным объемом высокопроизводительной памяти (HBM, High Bandwidth Memory). В H200 встроено 141 ГБ HBM3e с пропускной способностью 4,8 ТБ/с, в B200 эти показатели еще больше в зависимости от конфигурации. Tensor Processing Unit К 2015 году в Google разработали Tensor Processing Unit (TPU) — ASIC-процессор на основе систолических массивов, предназначенный для машинного обучения. Tensor Processing Unit 3.0. Источник: Wikipedia. В архитектуре конвенциональных процессоров — CPU и GPU — каждая операция предусматривает считывание, обработку и запись промежуточных данных в память.  TPU пропускает данные через массив блоков, каждый из которых проводит математическую операцию и передает результат следующему. Обращение к памяти происходит только в начале и в конце последовательности вычислений. Такой подход позволяет тратить меньше времени и энергии на ИИ-вычисления, чем неспециализированный графический процессор, однако работа с внешней памятью остается сдерживающим фактором. Cerebras  Американская компания Cerebras нашла способ использовать в качестве процессора цельную пластину кремния, которую обычно нарезают на меньшие элементы для производства чипов. В 2019 году разработчики представили свой первый 300-мм Wafer-Scale Engine. В 2024 компания выпустила усовершенствованный процессор WSE-3 с 460-мм чипом на 900 000 ядер. Cerebras WSE-3 и два чипа Nvidia B200. Источник: Cerebras. Архитектура Cerebras подразумевает распределение блоков памяти SRAM в непосредственной близости от модулей логики на той же пластине кремния. При этом каждое ядро работает с собственными 48 КБ локальной памяти и не конкурирует с другими ядрами за доступ. По словам разработчиков, многим моделям для инференса хватает одного WSE-3. Для более масштабных задач предусмотрена возможность собрать кластер из нескольких таких чипов. Groq LPU Компания Groq (не путать с Grok от xAI) предлагает собственные ASIC для инференса на основе архитектуры Language Processing Unit (LPU).  Чип Groq. Источник: Groq. Одна из ключевых особенностей чипов Groq заключается в оптимизации под последовательные операции.  Инференс полагается на поочередную генерацию токенов: каждый шаг требует финализации предыдущего. В таких условиях производительность в большей степени зависит от скорости работы одного потока, нежели от их количества.  В отличие от привычных процессоров общего назначения и некоторых ИИ-специализированных устройств, Groq не формирует машинные инструкции по ходу выполнения задачи. Каждая операция заранее спланирована в своеобразном «расписании» и привязана к конкретному моменту в работе процессора. При этом, как и ряд других ИИ-акселераторов, LPU совмещает модули логики и памяти на одном чипе для минимизации затрат на перенос данных.  Taalas Все перечисленные выше примеры подразумевают высокую степень программируемости. Модель и необходимые веса загружаются в перезаписываемую память. В любой момент оператор может загрузить абсолютно другую модель или внести коррективы. С таким подходом производительность зависит от доступности, скорости и объема памяти. Разработчики из Taalas пошли дальше, решив «зашить» конкретную модель с готовыми весами прямо в чип на уровне архитектуры транзисторов. Модель, которая обычно выступает программным обеспечением, реализуется на аппаратном уровне, что позволяет отказаться от отдельного универсального хранилища данных и связанных с ним затрат. В своем первом решении — инференс-карте HC1 — компания использовала открытую модель Llama 3.1 8B.  Taalas HC1. Источник: Taalas. Карта поддерживает низкобитовую точность вплоть до 3-битных и 6-битных параметров, что позволяет ускорить обработку. Согласно собственным заявлениям Taalas, HC1 обрабатывает до 17 000 токенов в секунду, оставаясь сравнительно дешевым устройством с низким энергопотреблением.  Фирма заявляет о тысячекратном приросте производительности в сравнении с GPU в пересчете на энергопотребление и стоимость. Однако у такого метода есть фундаментальный недостаток — невозможность обновить модель без полной замены чипа.  В то же время HC1 снабдили поддержкой LoRA — метода «донастройки» LLM через добавление дополнительных весов. С правильной LoRA-конфигурацией модель можно превратить в специалиста в конкретной области. Другая сложность связана с процессом дизайна и производства таких «физических моделей». Разработка ASIC стоит больших денег и может занимать годы. В условиях высокой конкуренции ИИ-индустрии это существенное ограничение. В Taalas заявляют о новом методе генерации архитектуры процессора, призванном решить эту проблему. Автоматическая система превращает модель и набор весов в готовый дизайн чипа в течение недели.  По собственным оценкам компании, производственный цикл от получения новой ранее неизвестной модели до выпуска готовых чипов с ее физическим воплощением будет занимать около 2 месяцев.  Будущее локального инференса Новые специализированные ИИ-чипы прежде всего занимают места в массивных установках дата-центров, обеспечивая облачные услуги за плату. Нетривиальные решения вплоть до «физических моделей», реализованных прямо в кремнии, не исключение.  Для потребителя революционный инженерный прорыв выразится в удешевлении услуг и ускорении работы.  В то же время появление более простых, дешевых и энергоэффективных чипов создает предпосылки для популяризации локальных решений для инференса.  Уже сейчас специализированные ИИ-чипы есть в смартфонах и ноутбуках, камерах наблюдения и даже дверных звонках. Они позволяют выполнять задачи локально, обеспечивая низкую задержку, автономность и приватность. Радикальная оптимизация, пусть и за счет гибкости в выборе и замене модели, существенно расширяет возможности таких устройств и позволяет интегрировать простые ИИ-компоненты в дешевые массовые продукты. Если большинство пользователей начнет направлять свои запросы на модели, работающие на локальных устройствах, нагрузка на мощности дата-центров может снизиться, уменьшая риск перегрузки отрасли. Быть может, тогда не придется искать радикальные пути увеличения вычислительных мощностей — вроде их запуска на орбиту. 

Read the Disclaimer : All content provided herein our website, hyperlinked sites, associated applications, forums, blogs, social media accounts and other platforms (“Site”) is for your general information only, procured from third party sources. We make no warranties of any kind in relation to our content, including but not limited to accuracy and updatedness. No part of the content that we provide constitutes financial advice, legal advice or any other form of advice meant for your specific reliance for any purpose. Any use or reliance on our content is solely at your own risk and discretion. You should conduct your own research, review, analyse and verify our content before relying on them. Trading is a highly risky activity that can lead to major losses, please therefore consult your financial advisor before making any decision. No content on our Site is meant to be a solicitation or offer.