Компания Илона Маска xAI представила новую модель чат-бота Grok, способную обрабатывать запросы в различных форматах.
Презентация состоялась спустя несколько недель после релиза предыдущей версии.
«Grok-1.5V конкурирует с существующими мультимодальными моделями в ряде областей: от междисциплинарных рассуждений до понимания научных диаграмм, графиков и скриншотов», — говорится в блоге.
Разработчики привели в пресс-релизе несколько примеров, демонстрирующих новые возможности чат-бота:
преобразование наброска блок-схемы в код Python;
генерация сказки на ночь из детского рисунка;
объяснение мемов;
преобразование таблицы в формат CSV-файла.
Пример перевода наброска схемы в код на Python. Данные: xAI.
Протестировав аналоги GPT-4V, Claude 3Sonnet, Claude 3 Opus и Gemini Pro 1.5, xAI утверждает, что ее мультимодальная модель занимает лидирующие позиции по многим параметрам.
Сравнение ИИ-моделей. Данные: xAI.
Представители компании сделали акцент на том, что Grok-1.5V превосходит своих конкурентов в бенчмарке RealWorldQA — новой метрике, созданной для оценки пространственного понимания реального мира.
Примеры прохождения RealWorldQA. Данные: xAI.
Для прохождения теста ИИ-модель обучилась на более чем 700 изображениях, сопровождаемых вопросом и ответом для каждого элемента. xAI выложила RealWorldQA в открытый доступ по лицензии Creative Commons.
Grok-1.5V появилась менее чем через месяц после того, как xAI опубликовал открытый исходный код модели.
По словам разработчиков, в ближайшие месяцы будут внесены «значительные» обновления в возможности чат-бота по пониманию и генерации мультимодальных сигналов.
Ранние тестеры и текущие пользователи получат доступ к Grok-1.5V в ближайшее время.
Напомним, в декабре 2023 года представители xAI направили уведомление в SEC о планах по привлечению $1 млрд через частную продажу долевых ценных бумаг.