Crypto Currency Tracker logo Crypto Currency Tracker logo
Forklog 2026-03-11 14:41:13

Высечь в камне

Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, требующие параллельных вычислений На графическом процессоре можно запустить, например, PoW-майнер для добычи криптовалют, но в условиях конкуренции со специализированным оборудованием GPU-фермы стали решением для нишевых проектов.  Похожая ситуация складывается в сфере ИИ. Видеокарты стали основным вычислительным инструментом для нейронных сетей. Но по мере развития индустрии возник спрос на специализированные решения для работы с ИИ. ForkLog разобрался в новом витке гонки в области искусственного интеллекта. Оптимизация кремния для ИИ Существует несколько подходов к созданию специализированного оборудования для задач искусственного интеллекта. Потребительские GPU можно считать отправной точкой на пути специализации. Их способность работать с параллельными матричными вычислениями пригодилась для развертывания нейросетей и особенно глубокого обучения, но пространства для улучшений оставалось достаточно. Одна из главных проблем ИИ на видеокарте — необходимость постоянно перемещать большие объемы данных между системной памятью и GPU. Эти сопроводительные процессы могут отнимать больше времени и энергии, чем сами полезные вычисления. Другая проблема GPU проистекает из их универсальности. Архитектура видеокарт рассчитана на широкий спектр задач — от рендеринга графики до вычислений общего назначения. В результате часть аппаратных блоков оказывается избыточной для специализированных ИИ-нагрузок. Отдельным ограничением выступает формат данных. Исторически графические процессоры оптимизировались под операции с FP32 — 32-битными числами с плавающей запятой. Для инференса и обучения обычно применяют форматы меньшей точности: 16-битные FP16 и BF16, целочисленные INT4 и INT8. Nvidia H200 и B200 Одни из популярнейших продуктов для инференса и обучения — чипы H200 и серверные системы DGX B200 — по большому счету представляют собой «усиленные» GPU для дата-центров. Основной ИИ-ориентированный элемент этих ускорителей — тензорные ядра, предназначенные для сверхбыстрых матричных операций вроде обучения моделей и пакетного инференса. Чтобы сократить задержки при доступе к данным, Nvidia оборудует свои карты огромным объемом высокопроизводительной памяти (HBM, High Bandwidth Memory). В H200 встроено 141 ГБ HBM3e с пропускной способностью 4,8 ТБ/с, в B200 эти показатели еще больше в зависимости от конфигурации. Tensor Processing Unit К 2015 году в Google разработали Tensor Processing Unit (TPU) — ASIC-процессор на основе систолических массивов, предназначенный для машинного обучения. Tensor Processing Unit 3.0. Источник: Wikipedia. В архитектуре конвенциональных процессоров — CPU и GPU — каждая операция предусматривает считывание, обработку и запись промежуточных данных в память.  TPU пропускает данные через массив блоков, каждый из которых проводит математическую операцию и передает результат следующему. Обращение к памяти происходит только в начале и в конце последовательности вычислений. Такой подход позволяет тратить меньше времени и энергии на ИИ-вычисления, чем неспециализированный графический процессор, однако работа с внешней памятью остается сдерживающим фактором. Cerebras  Американская компания Cerebras нашла способ использовать в качестве процессора цельную пластину кремния, которую обычно нарезают на меньшие элементы для производства чипов. В 2019 году разработчики представили свой первый 300-мм Wafer-Scale Engine. В 2024 компания выпустила усовершенствованный процессор WSE-3 с 460-мм чипом на 900 000 ядер. Cerebras WSE-3 и два чипа Nvidia B200. Источник: Cerebras. Архитектура Cerebras подразумевает распределение блоков памяти SRAM в непосредственной близости от модулей логики на той же пластине кремния. При этом каждое ядро работает с собственными 48 КБ локальной памяти и не конкурирует с другими ядрами за доступ. По словам разработчиков, многим моделям для инференса хватает одного WSE-3. Для более масштабных задач предусмотрена возможность собрать кластер из нескольких таких чипов. Groq LPU Компания Groq (не путать с Grok от xAI) предлагает собственные ASIC для инференса на основе архитектуры Language Processing Unit (LPU).  Чип Groq. Источник: Groq. Одна из ключевых особенностей чипов Groq заключается в оптимизации под последовательные операции.  Инференс полагается на поочередную генерацию токенов: каждый шаг требует финализации предыдущего. В таких условиях производительность в большей степени зависит от скорости работы одного потока, нежели от их количества.  В отличие от привычных процессоров общего назначения и некоторых ИИ-специализированных устройств, Groq не формирует машинные инструкции по ходу выполнения задачи. Каждая операция заранее спланирована в своеобразном «расписании» и привязана к конкретному моменту в работе процессора. При этом, как и ряд других ИИ-акселераторов, LPU совмещает модули логики и памяти на одном чипе для минимизации затрат на перенос данных.  Taalas Все перечисленные выше примеры подразумевают высокую степень программируемости. Модель и необходимые веса загружаются в перезаписываемую память. В любой момент оператор может загрузить абсолютно другую модель или внести коррективы. С таким подходом производительность зависит от доступности, скорости и объема памяти. Разработчики из Taalas пошли дальше, решив «зашить» конкретную модель с готовыми весами прямо в чип на уровне архитектуры транзисторов. Модель, которая обычно выступает программным обеспечением, реализуется на аппаратном уровне, что позволяет отказаться от отдельного универсального хранилища данных и связанных с ним затрат. В своем первом решении — инференс-карте HC1 — компания использовала открытую модель Llama 3.1 8B.  Taalas HC1. Источник: Taalas. Карта поддерживает низкобитовую точность вплоть до 3-битных и 6-битных параметров, что позволяет ускорить обработку. Согласно собственным заявлениям Taalas, HC1 обрабатывает до 17 000 токенов в секунду, оставаясь сравнительно дешевым устройством с низким энергопотреблением.  Фирма заявляет о тысячекратном приросте производительности в сравнении с GPU в пересчете на энергопотребление и стоимость. Однако у такого метода есть фундаментальный недостаток — невозможность обновить модель без полной замены чипа.  В то же время HC1 снабдили поддержкой LoRA — метода «донастройки» LLM через добавление дополнительных весов. С правильной LoRA-конфигурацией модель можно превратить в специалиста в конкретной области. Другая сложность связана с процессом дизайна и производства таких «физических моделей». Разработка ASIC стоит больших денег и может занимать годы. В условиях высокой конкуренции ИИ-индустрии это существенное ограничение. В Taalas заявляют о новом методе генерации архитектуры процессора, призванном решить эту проблему. Автоматическая система превращает модель и набор весов в готовый дизайн чипа в течение недели.  По собственным оценкам компании, производственный цикл от получения новой ранее неизвестной модели до выпуска готовых чипов с ее физическим воплощением будет занимать около 2 месяцев.  Будущее локального инференса Новые специализированные ИИ-чипы прежде всего занимают места в массивных установках дата-центров, обеспечивая облачные услуги за плату. Нетривиальные решения вплоть до «физических моделей», реализованных прямо в кремнии, не исключение.  Для потребителя революционный инженерный прорыв выразится в удешевлении услуг и ускорении работы.  В то же время появление более простых, дешевых и энергоэффективных чипов создает предпосылки для популяризации локальных решений для инференса.  Уже сейчас специализированные ИИ-чипы есть в смартфонах и ноутбуках, камерах наблюдения и даже дверных звонках. Они позволяют выполнять задачи локально, обеспечивая низкую задержку, автономность и приватность. Радикальная оптимизация, пусть и за счет гибкости в выборе и замене модели, существенно расширяет возможности таких устройств и позволяет интегрировать простые ИИ-компоненты в дешевые массовые продукты. Если большинство пользователей начнет направлять свои запросы на модели, работающие на локальных устройствах, нагрузка на мощности дата-центров может снизиться, уменьшая риск перегрузки отрасли. Быть может, тогда не придется искать радикальные пути увеличения вычислительных мощностей — вроде их запуска на орбиту. 

면책 조항 읽기 : 본 웹 사이트, 하이퍼 링크 사이트, 관련 응용 프로그램, 포럼, 블로그, 소셜 미디어 계정 및 기타 플랫폼 (이하 "사이트")에 제공된 모든 콘텐츠는 제 3 자 출처에서 구입 한 일반적인 정보 용입니다. 우리는 정확성과 업데이트 성을 포함하여 우리의 콘텐츠와 관련하여 어떠한 종류의 보증도하지 않습니다. 우리가 제공하는 컨텐츠의 어떤 부분도 금융 조언, 법률 자문 또는 기타 용도에 대한 귀하의 특정 신뢰를위한 다른 형태의 조언을 구성하지 않습니다. 당사 콘텐츠의 사용 또는 의존은 전적으로 귀하의 책임과 재량에 달려 있습니다. 당신은 그들에게 의존하기 전에 우리 자신의 연구를 수행하고, 검토하고, 분석하고, 검증해야합니다. 거래는 큰 손실로 이어질 수있는 매우 위험한 활동이므로 결정을 내리기 전에 재무 고문에게 문의하십시오. 본 사이트의 어떠한 콘텐츠도 모집 또는 제공을 목적으로하지 않습니다.