Посмотрите, как робот перемещается по офисам Google DeepMind с помощью Gemini

Генеративный искусственный интеллект уже показал большое обещание в роботах. Приложения включают в себя естественное взаимодействие с языком, обучение роботов, программирование без кода и даже дизайн. Команда робототехники Google DeepMind на этой неделе демонстрирует еще одну потенциальную перспективу помеждисциплинарного взаимодействия: навигацию.

В статье с названием ‘Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs’ команда демонстрирует, как они реализовали Google Gemini 1.5 Pro для обучения робота реагировать на команды и перемещаться по офису. Естественно, DeepMind использовал некоторых ежедневных роботов, которые болтались здесь, с тех пор как Google закрыл проект во время массовых увольнений в прошлом году.

В серии видеороликов, прикрепленных к проекту, сотрудники DeepMind начинают с помощи умного ассистента: ‘Хорошо, робот’, прежде чем просить систему выполнить разные задачи в офисном пространстве площадью 9000 квадратных футов.

Фото кредит: Google DeepMind

В одном примере сотрудник Google просит робота отвести его куда-нибудь для рисования. ‘Хорошо’, отвечает робот, наряженный в желтый галстук, ‘подождите минутку. Генерирую с помощью Gemini…’ Робот затем начинает вести человека к стене с доской для рисования. Во втором видео другой человек говорит роботу следовать указаниям на доске.

Простая карта показывает роботу, как добраться до ‘Синей зоны’. Опять же, робот обдумывает момент, перед тем как выбрать длинный путь к зоне тестирования роботов. ‘Я успешно следовал указаниям на доске’, - объявляет робот с уверенностью, которой большинство людей могут только мечтать.

Перед этими видеороликами роботы ознакомились с пространством, используя то, что команда называет ‘Multimodal Instruction Navigation with demonstration Tours (MINT)’. Фактически, это означает, что они водили робота по офису, указывая различные ориентиры при помощи речи. Затем команда использует иерархическое Vision-Language-Action (VLA), комбинируя понимание окружения и способности к рассуждению на основе здравого смысла. После взаимодействия этих процессов робот может реагировать на письменные и нарисованные команды, а также жесты.

Фото кредит: Google DeepMind

Google сообщает, что робот демонстрировал успех в 90% случаев при более чем 50 взаимодействиях с сотрудниками.