20 января китайский ИИ-стартап DeepSeek выпустил ориентированную на рассуждения модель с открытым исходным кодом DeepSeek-R1. На выходных 25-26 января нейросеть привлекла внимание сообщества, что привело к распродажам на рынках акций и криптовалют.
Что такое DeepSeek?
DeepSeek — стартап в области искусственного интеллекта, основанный в 2023 году в Ханчжоу, Китай. Компания специализируется на разработке крупных языковых моделей с открытым исходным кодом.
В ноябре DeepSeek представила думающую «сверхмощную» ИИ-модель DeepSeek-R1-Lite-Preview. Согласно опубликованным тестам, она работает наравне с o1-preview от OpenAI.
В конце декабря фирма показала собственную LLM V3, которая превзошла по тестам конкурентов от Meta и OpenAI.
DeepSeek V3 имеет 671 млрд параметров. Для сравнения, у Llama 3.1 405B их 405 млрд. Показатель отражает способность ИИ адаптироваться к более сложным вариантам применения и давать ответы точнее.
На разработку нейросети понадобилось два месяца, $5,58 млн и значительно меньше вычислительных ресурсов по сравнению с более крупными технологическими компаниями. Применялись чипы Nvidia H800.
Благодаря новой ИИ-модели DeepSeek-R1 чат-бот компании взлетел в рейтинге бесплатных приложений App Store в США, обойдя в том числе ChatGPT.
Топ бесплатных приложений в App Store в США. Данные: App Store.
R1 — убийца o1 от OpenAI
DeepSeek предложила аналогичную топовым моделям производительность за намного меньшие деньги. В ряде тестов, проведенных сторонними разработчиками, китайская модель обошла Llama 3.1, GPT-4o и Claude Sonnet 3.5. Специалисты проверили ИИ на точность ответов, способность решать сложные задачи, математику и программирование.
«[...] Разработчикам действительно удалось создать нейросеть с открытым исходным кодом, которая выполняет вычисления в режиме вывода и является крайне эффективной. Мы должны очень, очень серьезно относиться к разработкам Китая», — прокомментировал CEO Microsoft Сатья Наделла на Всемирном экономическом форуме в Давосе (Швейцария).
DeepSeek удивила также тем, что создателям модели удалось обойти экспортные ограничения США.
China’s #DeepSeek could represent the biggest threat to US equity markets as the company seems to have built a groundbreaking AI model at an extremely low price and w/o having access to cutting-edge chips, calling into question the utility of the hundreds of billions worth of… pic.twitter.com/wMVyczpRgT— Holger Zschaepitz (@Schuldensuehner) January 24, 2025
«Китайская компания DeepSeek может представлять самую большую угрозу для американских фондовых рынков, поскольку она, похоже, построила революционную ИИ-модель по чрезвычайно низкой цене и без доступа к передовым чипам, что ставит под сомнение полезность сотен миллиардов капиталовложений, вливаемых в эту отрасль», — прокомментировал журналист Хольгер Зшапиц.
DeepSeek представила «дистиллированные» версии R1 размером от 1,5 миллиарда параметров до 70 миллиардов параметров. Самая маленькая может работать на ноутбуке.
В одном из примеров DeepSeek R1 запустили даже на смартфоне.
Wow DeepSeek R1 version 1.5B runs perfectly locally on my phone 😳So you can have a model that outperforms GPT-4o and Claude 3.5 Sonnet on math in your pocket.Mind-blowing pic.twitter.com/0J3uLXI6ZR— Paul Couvert (@itsPaulAi) January 22, 2025
Крупная требует мощного оборудования, но доступна через API по цене на 90-95% ниже o1 от OpenAI — $0,14 за миллион токенов по сравнению с $7,5 у американского конкурента.
Чтобы добиться высокой производительности при меньших затратах, китайские разработчики «переосмыслили все с нуля».
Смена парадигмы
Вице-президент по продукту Dropbox Морган Браун объяснил подход и технические решения DeepSeek:
«Традиционный ИИ — это как записать каждое число с 32 знаками после запятой. В DeepSeek подумали: “А что, если мы будем использовать только 8? Это все равно будет достаточно точно!” Бум — на 75% меньше памяти».
Также DeepSeek применили систему «мультитокенов». Стандартный ИИ «читает как первоклассник»: «Кошка... сидела...». Китайская нейросеть читает целые фразы сразу, в 2 раза быстрее и на 90% точнее.
«Но вот что действительно умно: они создали “экспертную систему”. Вместо того, чтобы один массивный ИИ пытался знать все (как если бы один человек был врачом, юристом и инженером), у них есть специализированные эксперты, которые просыпаются только тогда, когда это необходимо», — отметил Браун.
В традиционных моделях все 1,8 трлн параметров активны все время. У DeepSeek 671 млрд параметров, но только 37 млрд активны одновременно.
«Это все равно что иметь огромную команду, но привлекать только тех специалистов, которые действительно нужны для каждой задачи», — добавил вице-президент по продукту Dropbox.
Результаты «поражают воображение», отметил эксперт:
стоимость обучения: $100 млн — > $5 млн;
необходимые графические процессоры: 100 000 — > 2000;
затраты на API: на 95% дешевле;
может работать на игровых GPU.
«Но подождите, скажете вы, здесь должен быть какой-то подвох! В том-то и дело, что все это с открытым исходным кодом. Любой может проверить их работу. Код общедоступен. В технических документах все объясняется. Это не волшебство, а просто невероятно умная инженерия», — заключил Браун.
DeepSeek добились этих результатов с командой менее чем из 200 человек.
У R1 есть обратная сторона успеха — цензура. Будучи китайской моделью, она подлежит контролю со стороны властей. Ее ответы не коснутся площади Тяньаньмэнь или автономии Тайваня.
DeepSeek r1 takeaways for policy: 1. Chinese labs will likely continue to be fast followers in terms of reaching similar benchmark performance to US models. 2. The impressive performance of DeepSeek's distilled models (smaller versions of r1) means that very capable reasoners…— Dean W. Ball (@deanwball) January 20, 2025
«Впечатляющая производительность дистиллированных моделей DeepSeek означает, что очень способные рассуждающие системы будут продолжать широко распространяться и запускаться на локальном оборудовании, вдали от глаз любого контроля», — отметил исследователь ИИ из Университета Джорджа Мейсона Дин Болл.
Распродажа
Резкий рост популярности DeepSeek привел к распродаже акций и криптовалют. Инвесторы обеспокоились наличием пузыря в секторе искусственного интеллекта.
Американские ИИ-стартапы тратят миллиарды долларов на обучение нейросетей, а их оценки достигают сотен миллиардов долларов. DeepSeek продемонстрировала, что это необязательно.
https://forklog.com/news/ai/tramp-anonsiroval-investitsii-na-500-mlrd-v-ii-infrastrukturu?utm_source=fltgmain&utm_medium=social&utm_campaign=fltrack&sntzd_campaign=1
27 января акции связанных с производством чипов японских компаний упали.
Акции Renesas Electronics Corporation. Данные: Yahoo Finance.
Акции SoftBank. Данные: Yahoo Finance.
На американском фондовом рынке также наблюдается существенное падение. В первую очередь страдают бумаги главного бенефициара бума ИИ — Nvidia.
Акции Nvidia. Данные: Yahoo Finance.
Распродажи в TradFi привели к падению криптовалют, в первую очередь связанных с искусственным интеллектом токенов. В особенности досталось ИИ-агентам.
Рейтинг ИИ-токенов. Данные: CoinMarketCap.
Рейтинг токенов среди ИИ-агентов. Данные: CoinMarketCap.
Видимо, криптоинвесторы «переваривают» влияние DeepSeek на будущее ИИ-сектора в индустрии цифровых активов.
Напомним, 27 января котировки первой криптовалюты упали ниже $100 000. Ведущие альткоины продемонстрировали еще более глубокое падение.