Google Gemini: Все, что вам нужно знать о генеративных приложениях и моделях искусственного интеллекта

Google пытается создать волну с Gemini, своим флагманским набором генеративных моделей искусственного интеллекта, приложений и услуг. Но что такое Gemini? Как его использовать? И как он сравнивается с другими инструментами генеративного искусственного интеллекта, такими как ChatGPT от OpenAI, Llama от Meta и Copilot от Microsoft?

Чтобы было проще следить за последними новостями о Gemini, мы подготовили этот удобный руководитель, который мы будем обновлять по мере появления новых моделей Gemini, функций и новостей о планах Google по работе с Gemini.

Что такое Gemini?

Gemini - это семейство генеративных моделей искусственного интеллекта следующего поколения Google. Разработанный лабораториями искусственного интеллекта DeepMind и Google Research, представлен в нескольких версиях:

  • Gemini Ultra, очень большая модель.
  • Gemini Pro, большая модель - хотя меньше, чем Ultra. Последняя версия, Gemini 2.0 Pro, является флагманом Google в настоящее время.
  • Gemini Flash, более быстрая, «сгущенная» версия Pro.
  • Gemini Flash-Lite, немного меньшая и более быстрая версия Gemini Flash.
  • Мысль Gemini Flash, модель с возможностями «мышления».
  • Gemini Nano, две небольшие модели: Nano-1 и немного более продвинутая Nano-2, предназначенная для работы в автономном режиме.

Все модели Gemini были обучены для работы в режиме мультимодальности - то есть способны работать с анализом более чем текста. Google утверждает, что они были предварительно обучены и дообучены на разнообразных общедоступных, собственных и лицензионных аудио, изображениях и видео; наборе кодов; и текста на разных языках.

Это отличает Gemini от моделей, таких как собственный Google LaMDA, который был обучен исключительно на текстовых данных. LaMDA не может понимать или создавать ничего, кроме текста (например, эссе, электронные письма и так далее), но это не всегда так в случае с моделями Gemini. Например, последние версии Gemini Flash и Gemini Pro могут нативно создавать изображения и звук в дополнение к тексту.

Здесь стоит отметить, что этика и законность обучения моделей на общедоступных данных, в некоторых случаях без ведома или согласия владельцев данных, размыты. Google имеет политику индемнизации по искусственному интеллекту, чтобы защитить определенных клиентов Google Cloud от судебных исков в случае их возникновения, но эта политика содержит исключения. Действуйте осторожно, особенно если собираетесь использовать Gemini в коммерческих целях.

В чем разница между приложениями Gemini и моделями Gemini?

Gemini является отдельным и отличным от приложениями Gemini в Интернете и на мобильных устройствах (предыдущие Bard).

Приложения Gemini - это клиенты, которые подключаются к различным моделям Gemini и добавляют интерфейс в форме чат-бота. Представьте их как фронтальные части генеративного искусственного интеллекта Google, аналогично ChatGPT и семейству приложений Claude от Anthropic.

Кредиты за изображение: Google

Gemini в Интернете живет здесь. На Android приложение Gemini заменяет существующее приложение Google Assistant. А на iOS приложения Google и Google Search служат клиентами Gemini на этой платформе.

На Android пользователи могут вызвать наложение Gemini, чтобы задавать вопросы о том, что находится на их экране (например, видео на YouTube). Нажатие и удерживание кнопки питания на поддерживаемом смартфоне или произнесение фразы «Привет, Google» вызывает наложение.

Приложения Gemini могут принимать изображения, а также голосовые команды и текст, включая файлы в формате PDF, загруженные или импортированные из Google Drive, и создавать изображения. Как и ожидается, беседы с приложениями Gemini на мобильных устройствах переносятся в Gemini в Интернете и наоборот, если вы вошли в тот же аккаунт Google в обоих местах.

Gemini Advanced

Приложения Gemini не единственный способ привлечения моделей Gemini для выполнения задач. Медленно, но верно, возможности, основанные на Gemini, появляются в основных приложениях и службах Google, таких как Gmail и Google Docs.

Для использования большинства из них вам понадобится план Google One AI Premium. Технически это часть Google One, стоимость AI Premium Plan составляет $20 в месяц и обеспечивает доступ к Gemini в приложениях Google Workspace, таких как Docs, Maps, Slides, Sheets, Drive и Meet. Он также активирует то, что Google называет Gemini Advanced, который приносит более сложные модели Gemini компании в приложения Gemini.

Кредиты изображения: Google

Пользователи Gemini Advanced получают дополнительные возможности тут и там, вроде приоритетного доступа к новым функциям и моделям; способность запускать и редактировать код Python непосредственно в Gemini; и увеличенные ограничения для NotebookLM, инструмента Google, который превращает PDF-файлы в подкасты, сгенерированные искусственным интеллектом. Недавно Gemini Advanced получил функцию памяти, которая хранит предпочтения пользователей и позволяет Gemini обращаться к старым разговорам в качестве контекста для текущих бесед.

Один из наиболее убедительных Gemini Advanced эксклюзивов, Deep Research, использует модели Gemini с «продвинутым рассуждением» для создания подробных досье. В ответ на запрос (например, «Как мне перепроектировать свою кухню?») Deep Research разрабатывает многоэтапный план исследований и ищет в Интернете, чтобы составить исчерпывающий ответ.

Gemini в Gmail, Docs, Chrome, инструментах разработки и многом другом

В Gmail Gemini находится в боковой панели, которая может писать электронные письма и резюмировать сообщения. Ту же панель можно найти в Docs, где она помогает писать и уточнять контент и генерировать новые идеи. Gemini в Slides генерирует слайды и пользовательские изображения. И Gemini в Google Sheets отслеживает и организует данные, создает таблицы и формулы.

Gemini в Google Maps может агрегировать отзывы о местных компаниях и предлагать рекомендации, например, о том, как провести день, посещая иностранный город. Воздействие чат-бота распространяется и на Drive, где он может резюмировать файлы и папки и давать быстрые факты о проекте.

Кредиты за изображение: Google

Недавно Gemini пришел в браузер Google Chrome в виде инструмента для автоматического создания текста. Вы можете использовать его для написания чего-то совершенно нового или переписать существующий текст; Google отмечает, что он учитывает веб-страницу, на которой находитесь, чтобы делать рекомендации.

В других местах вы найдете приметы Gemini в продуктах Google, в инструментах облачной безопасности, инструментах разработки приложений (включая Firebase и Project IDX), а также в приложениях Google Photos (где Gemini обрабатывает запросы на естественном языке), YouTube (где он помогает придумывать идеи для видео), и Meet (где он переводит субтитры).

Code Assist (ранее Duet AI for Developers), набор инструментов с поддержкой искусственного интеллекта для автозавершения и генерации кода, перекладывает тяжелую вычислительную нагрузку на Gemini. Также продукты безопасности Google на основе Gemini, такие как Gemini in Threat Intelligence, которые могут анализировать большие участки потенциально вредоносного кода и позволяют пользователям выполнять поисковые запросы на естественных языках для поиска текущих угроз или признаков компрометации.

Расширения и камни Gemini

Пользователи Gemini Advanced могут создавать Gems, пользовательские чат-боты на рабочем столе и мобильных устройствах, оснащенные моделями Gemini. Гемы могут быть созданы из описаний естественного языка - например, «Ты мой тренер по бегу. Дай мне ежедневный план бега» - и делиться с другими пользователями или хранить их в частном порядке.

Кредиты за изображение: Google

Приложения Gemini могут использовать сервисы Google через то, что Google называет «расширениями Gemini». Gemini интегрируется с Drive, Gmail, YouTube и другими сервисами, чтобы отвечать на запросы типа «Можешь суммировать мои последние три электронных письма?»

Глубокие голосовые чаты в реальном времени от Gemini

Опыт под названием Gemini Live позволяет пользователям общаться с Gemini глубоко и широко. Он доступен в приложениях Gemini на мобильных устройствах и Pixel Buds Pro 2, где к нему можно получить доступ даже при закрытом телефоне.

Кредиты за изображение: Google

С включенным Gemini Live вы можете прерывать Gemini во время разговора с вопросом по уточнению, и он будет адаптироваться к вашим речевым особенностям в реальном времени. Live также разработан для того, чтобы служить своего рода виртуальным тренером, помогая вам отрабатывать для событий, разрабатывать идеи и так далее. Например, Live может предложить, какие навыки подчеркнуть на предстоящем собеседовании на работу и дать советы по публичному выступлению.

Вы можете прочитать наш обзор Gemini Live здесь.

Gemini для подростков

Google предлагает опыт Gemini, ориентированный на подростков для учащихся.

У подросткового Gemini есть «дополнительные политики и меры безопасности», включая специальную процедуру пошагового введения и руководство по грамотности искусственного интеллекта. В противном случае он почти идентичен стандартному опыту Gemini, вплоть до функции «перепроверки», которая исследует веб-сайты, чтобы увидеть, соответствуют ли ответы Gemini.

Что могут сделать модели Gemini?

Поскольку модели Gemini являются мультимодальными, они могут выполнять широкий спектр