Google улучшает Gemini Live: AI-ассистент становится еще умнее
![Google Gemini Live](https://itzine.ru/wp-content/uploads/2025/02/gemini_live_global_static.width-1300-800x400.png)
Общение с искусственным интеллектом когда-то казалось чем-то из научной фантастики, но сегодня это повседневная реальность благодаря таким инструментам, как Gemini Live. Эти AI-ассистенты становятся все удобнее и естественнее в общении, а Google продолжает совершенствовать их возможности.
Обновление Gemini Live: что нового?
Google разослала пользователям письмо с анонсом значительного обновления Gemini Live. Новый AI-модель делает ассистента еще умнее, улучшая его способность понимать различные языки, акценты и диалекты. Кроме того, значительно усовершенствованы функции перевода.
Еще одно важное нововведение — поддержка демонстрации экрана и потоковой передачи видео в реальном времени. Чтобы эти функции работали корректно, Google начнет сохранять аудио, видео и данные экранного вещания в журнале активности Gemini Apps (если он включен). Сейчас сохраняются только текстовые расшифровки разговоров.
![Google Gemini Live](https://itzine.ru/wp-content/uploads/2025/02/gemini_ss_qvllymm.width-1300.jpg)
Gemini 2.0: новая эра AI
С выпуском Gemini 2.0 в конце прошлого года Google представила Multimodal Live API, позволяющий разработчикам обрабатывать текстовые, аудио- и видео-входные данные и выдавать текстовые или голосовые ответы. По всей вероятности, именно этот API является основой работы обновленного Gemini Live.
Google называет Gemini 2 началом «эры агентов» (Agent Era). Этот AI на уровне OpenAI o1, но с дополнительными возможностями: он может нативно генерировать изображения, речь, текст и другие элементы. Первая модель в этой линейке — Gemini 2.0 Flash, пока что находящаяся в статусе «экспериментальной». По данным Google, она в два раза быстрее своего предшественника, Gemini Pro 1.5, и превосходит его по ключевым показателям производительности.
Когда был выпущен Gemini 1.0, AI-ассистенты в основном использовались для создания контента и общения — это был «чатбот-этап». Затем, с приходом OpenAI o1, началась «эра рассуждений», когда AI стал лучше анализировать информацию и понимать логику. Теперь же мы вступаем в «агентскую эру», где AI не просто отвечает на запросы, а выполняет сложные задачи самостоятельно.
Google явно намерена сделать Gemini Live более интерактивным и полезным инструментом в повседневной жизни пользователей.