Crypto Currency Tracker logo Crypto Currency Tracker logo
Forklog 2025-04-21 11:10:45

Топовые ИИ-модели не осилили видеоигры девяностых

Даже самые продвинутые ИИ-модели не способны эффективно играть в классический шутер от первого лица Doom. К такому выводу пришли эксперты после проверки нейросетей в новом бенчмарке VideoGameBench.  Claude can play Pokemon, but can it play DOOM?With a simple agent, we let VLMs play it, and found Sonnet 3.7 to get the furthest, finding the blue room!Our VideoGameBench (twenty games from the 90s) and agent are open source so you can try it yourself now --> 🧵 pic.twitter.com/vl9NNZPBHY— Alex Zhang (@a1zhang) April 17, 2025 Тест призван проверить способность современных нейросетей играть и побеждать в 20 популярных видеоиграх. Использовать они могут только информацию с экрана.  «Современные модели VLM с трудом справляются с видеоиграми из-за высокой задержки вывода. Когда агент делает снимок экрана и запрашивает VLM о том, какое действие ему следует предпринять, к моменту получения ответа состояние игры значительно меняется, и действие уже неактуально», — отметили исследователи.  Для теста использовались классические игры из 1990 годов из-за простых визуальных эффектов и различных стилей ввода вроде мыши, клавиатуры и игрового контроллера. Такой подход позволяет проверить у модели пространственное мышление и «зрение». VideoGameBench разработан ученым и ИИ-исследователем Алексом Чжаном. В бенчмарк входят Warcraft II, Age of Empires, Prince of Persia и другие игры.  Список игр из бенчмарка VideoGameBench. Данные: сайт vgbench. Sonnet 3.7 справилась с Doom лучше остальных — нейросеть нашла синюю комнату.  Исследователи подчеркнули, что задержка реакции — главная проблема в шутерах от первого лица. В быстро меняющейся обстановке враг может переместиться или даже добраться до игрока раньше его реакции на происходящее.  Помимо проблем с пониманием игрового окружения, модели также не могли выполнить основные действия. «Мы часто наблюдали случаи, когда агент не мог понять, как его действия вроде движения вправо будут отображаться на экране. Самой распространенной ошибкой среди всех протестированных нами пограничных моделей оказалась неспособность надежно управлять мышью в таких играх, как Civilization и Warcraft II, где очень важны точные и частые движения», — отметили эксперты.  Также модели не всегда понимают игровые механики, когда нет прямой инструкции о необходимых действиях.  Напомним, в феврале ИИ-стартап Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet, которая прошла игру Pokemon.

Lesen Sie den Haftungsausschluss : Alle hierin bereitgestellten Inhalte unserer Website, Hyperlinks, zugehörige Anwendungen, Foren, Blogs, Social-Media-Konten und andere Plattformen („Website“) dienen ausschließlich Ihrer allgemeinen Information und werden aus Quellen Dritter bezogen. Wir geben keinerlei Garantien in Bezug auf unseren Inhalt, einschließlich, aber nicht beschränkt auf Genauigkeit und Aktualität. Kein Teil der Inhalte, die wir zur Verfügung stellen, stellt Finanzberatung, Rechtsberatung oder eine andere Form der Beratung dar, die für Ihr spezifisches Vertrauen zu irgendeinem Zweck bestimmt ist. Die Verwendung oder das Vertrauen in unsere Inhalte erfolgt ausschließlich auf eigenes Risiko und Ermessen. Sie sollten Ihre eigenen Untersuchungen durchführen, unsere Inhalte prüfen, analysieren und überprüfen, bevor Sie sich darauf verlassen. Der Handel ist eine sehr riskante Aktivität, die zu erheblichen Verlusten führen kann. Konsultieren Sie daher Ihren Finanzberater, bevor Sie eine Entscheidung treffen. Kein Inhalt unserer Website ist als Aufforderung oder Angebot zu verstehen