Crypto Currency Tracker logo Crypto Currency Tracker logo
Forklog 2025-03-25 13:15:08

Новый тест поставил в тупик большинство ИИ-моделей

Некоммерческая организация Arc Prize объявила о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей.  Большинство нейросетей не смогли справиться с ARC-AGI-2. Его тесты состоят из похожих на головоломки задач, в которых искусственному интеллекту необходимо определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку ответа.  Пример вопроса из ARC-AGI-2. Данные: Arc Prize. Тест призван заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.  «Разумные» нейросети вроде o1-pro от OpenAI и R1 от DeepSeek набирают от 1% до 1,3% в ходе прохождения ARC-AGI-2. У мощных не рассуждающих искусственных интеллектов, таких как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показатель около 1%. Для сравнения, в среднем люди правильно отвечают на 60% вопросов. Для анализа фонд попросил пройти тест 400 человек.  Сооснователь организации Франсуа Шолле подчеркнул, что новый бенчмарк призван измерить гибкость искусственного интеллекта, а не запоминание навыков. Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp— François Chollet (@fchollet) March 24, 2025 Он добавил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям полагаться на «грубую силу» — применение большого количества вычислительных ресурсов для поиска решения. Это было главным недостатком предыдущей версии бенчмарка.  «Интеллект определяется не только способностью решать проблемы или достигать высоких результатов. Эффективность, с которой эти навыки приобретаются и применяются, является важнейшим, определяющим компонентом. Основной вопрос, который мы задаем, заключается не только в том, может ли ИИ приобрести [навык] для решения задачи, но и в том, с какой эффективностью или ценой [он это сделает]», — отметил соучредитель Arc Prize Foundation Грег Камрадт. ИИ-модели не могли пройти ARC-AGI-1 на протяжении примерно пяти лет — до декабря 2024 года, когда OpenAI выпустила «думающий» ИИ o3. Он сравнялся с человеческими показателями.  Версия модели o3 (low) набрала 75,7% баллов в тесте ARC-AGI-1 и 4% в ARC-AGI-2. Данные: Arc Prize. Ранее ориентированная на рассуждения ИИ-модель o1-preview путем манипуляций в файловой системе самостоятельно и без подсказок взломала тестовую среду, чтобы не проиграть Stockfish в шахматы. Напомним, в январе 2025 года ведущие нейросети проиграли в шахматном турнире, несмотря на применение запрещенных ходов.

Lesen Sie den Haftungsausschluss : Alle hierin bereitgestellten Inhalte unserer Website, Hyperlinks, zugehörige Anwendungen, Foren, Blogs, Social-Media-Konten und andere Plattformen („Website“) dienen ausschließlich Ihrer allgemeinen Information und werden aus Quellen Dritter bezogen. Wir geben keinerlei Garantien in Bezug auf unseren Inhalt, einschließlich, aber nicht beschränkt auf Genauigkeit und Aktualität. Kein Teil der Inhalte, die wir zur Verfügung stellen, stellt Finanzberatung, Rechtsberatung oder eine andere Form der Beratung dar, die für Ihr spezifisches Vertrauen zu irgendeinem Zweck bestimmt ist. Die Verwendung oder das Vertrauen in unsere Inhalte erfolgt ausschließlich auf eigenes Risiko und Ermessen. Sie sollten Ihre eigenen Untersuchungen durchführen, unsere Inhalte prüfen, analysieren und überprüfen, bevor Sie sich darauf verlassen. Der Handel ist eine sehr riskante Aktivität, die zu erheblichen Verlusten führen kann. Konsultieren Sie daher Ihren Finanzberater, bevor Sie eine Entscheidung treffen. Kein Inhalt unserer Website ist als Aufforderung oder Angebot zu verstehen