Google обновила режим рассуждений Gemini 3 Deep Think. Инструмент позиционируется как решение для сложных задач в сферах науки и инженерии.
В тестах модель превзошла GPT-5.2 от OpenAI и Claude Opus 4.6 от Anthropic, в том числе в ARC-AGI-2 с визуальными головоломками, MMMU-Pro для оценки мультимодальных возможностей, Elo 3455 и «Последнем экзамене человечества».
Источник: Google.
«Мы обновили Gemini 3 Deep Think в тесном сотрудничестве с учеными и исследователями, чтобы справляться со сложными научными вызовами — там, где у задач часто нет четких рамок или единственного верного решения, а данные предоставлены неполные», — говорится в блоге компании.
Gemini 3 Deep Think показывает передовые результаты в математике и программировании, а также «превосходно» проявляет себя в естественных науках, включая химию и физику. Обновленный режим решает задачи на уровне золотых медалистов международных олимпиад.
В CMT-Benchmark модель набрала 50,5%, подтвердив глубокие познания в области теоретической физики.
Источник: Google.
«Помимо передовых показателей, Deep Think ориентирован на практическое применение: он помогает исследователям интерпретировать сложные данные, а инженерам — моделировать физические системы с помощью кода», — отметили в Google.
Новый Deep Think доступен в приложении Gemini для подписчиков Google AI Ultra и Gemini API для некоторых разработчиков.
ИИ-математик от DeepMind
Подразделение Google DeepMind представило ИИ-агента Aletheia. Модель установила новый рекорд в бенчмарке IMO-ProofBench Advanced, решив 91,9% задач. Тест считается одним из сложнейших в математике.
Нейросеть построена на базе Gemini Deep Think. Система оснащена модулем верификации: он выявляет ошибки в черновиках решений и запускает итеративный процесс их доработки.
Ключевая особенность агента — способность признать невозможность решения задачи, что существенно экономит время исследователей.
Aletheia использует Google Search для навигации по сложным научным материалам, предотвращая вероятность использования ложных ссылок и вычислительных ошибок при работе с научными материалами.
Среди достижений модели:
полная генерация научной статьи с вычислением структурных констант в арифметической геометрии;
совместное с человеком доказательство оценок для систем взаимодействующих частиц (независимых множеств);
автономное решение четырех задач из списка Эрдеша, одна из которых ранее считалась открытой.
В DeepMind подчеркнули, что успех Aletheia подтверждает актуальность законов масштабирования: в доказательной математике качество продолжает расти благодаря эффективному применению агентов.
Прорыв в медицине
Дочерняя компания DeepMind — Isomorphic Labs — представила движок IsoDDE для разработки лекарственных препаратов. В сложных тестах новинка вдвое превзошла AlphaFold 3 по точности предсказаний.
Последняя стала крупным прорывом, поскольку смогла предсказывать трехмерные структуры белков и их взаимодействие с молекулами. IsoDDE же демонстрирует совершенно новый уровень:
модель прогнозирует силу связывания (аффинность) точнее традиционных методов;
движок может выявлять скрытые структуры («карманы») белков, в которых может связываться лекарство;
поддерживается широкий спектр сложных молекул, включая антитела и крупные биологические структуры.
«IsoDDE предлагает масштабируемую основу для ИИ-дизайна лекарств, обеспечивая точность предсказаний, необходимую для работу с новыми биологическими системами с беспрецедентной достоверностью», — говорится в блоге компании.
Напомним, в июле 2022 года алгоритм AlphaFold предсказал структуры более 200 млн белков. Это почти все известные науке соединения, обнаруженные в растениях, бактериях и животных.