Google выпустила новое поколение мультимодальных рассуждающих моделей Gemini 2.5. Компания называет Gemini 2.5 Pro Experimental самой умной из выпущенных ею моделей. Она уже доступна в Google AI Studio и в приложении Gemini для пользователей тарифа Gemini Advanced. Компания заявила, что отныне все её новые ИИ-модели будут рассуждающими.
Первой моделью со способностью рассуждать на рынке была o1, вышедшая в сентябре 2024 года. Сейчас думающие модели также предлагают Anthropic, DeepSeek, Google, xAI и прочие. Такие модели поглощают больше вычислительных мощностей и требуют больше времени на проверку фактов и обдумывание запроса для более качественного ответа.
Google выпустила свою первую рассуждающую версию Gemini в декабре. Gemini 2.5 считается самой серьёзной попыткой компании посоперничать с продвинутыми моделями линейки «o» OpenAI.
Google утверждает, что Gemini 2.5 Pro на ряде бенчмарков превосходит лучшие из её прежних моделей и некоторые ведущие ИИ-модели конкурентов. Особенно, по словам Google, она хороша в создании веб-приложений и написании кода. Например, на бенчмарке Aider Polyglot, который оценивает навыки редактирования кода у моделей, Gemini 2.5 Pro набрала 68,6% — больше лучших моделей OpenAI, Anthropic и DeepSeek. На SWE-bench Verified для оценки навыков генерации кода Gemini 2.5 Pro набрала 63,8% — больше o3-mini от OpenAI и R1 от DeepSeek, но уступила Claude 3.7 Sonnet от Anthropic, которая достигла 70,3%. На комплексном бенчмарке Humanity’s Last Exam, содержащем тысячи задач по математике, гуманитарным и естественным наукам, Gemini 2.5 Pro показала результат в 18,8%, что лучше большинства флагманских моделей конкурентов.

Контекстное окно Gemini 2.5 Pro составляет 1 млн токенов (оно сможет вместить примерно 750 тысяч слов), в скором времени Google планирует удвоить эту цифру. Расценки на доступ к API компания не огласила, но пообещала больше подробностей в ближайшие недели.