— Как GigaChat превращает текстовую команду в последовательность физических действий для робота?
— Не совсем корректно говорить, что нейросеть GigaChat превращает команду в действие. GigaChat — это на самом деле целый ансамбль моделей. Есть чисто языковые модели, есть visual language модели (VLM). Наш пайплайн обучения построен так, что мы берем за основу текстовую модель GigaChat. Наши коллеги делают из него VLM, которая понимает, что она видит, описывает это и генерирует базовые наборы действий, сформулированные в тексте. На этой модели команда уже создает так называемую visual language action модель, которая от GigaChat получает знания о мире и том, что она видит, но добавляется action-блок. Он генерирует траекторию для управления суставами робота — джойнтами.
Сейчас это самая передовая технология в мире, в следующем году наверняка появятся новые интересные решения. Но особенность нашей сети в том, что она строится на основе базового предтрейна GigaChat.
— Насколько сложно было адаптировать существующие решения в робототехнике под задачи генеративного искусственного интеллекта? Пришлось ли создавать аппаратную платформу с нуля?
— Конечно, вся работа не строится с чистого нуля. Мы опираемся на результаты наших коллег по всему миру, которые публикуются в научных журналах. Мы постоянно смотрим на свежие идеи и собираем их в нашем собственном технологическом пайплайне. А вот робота нам пришлось сделать с нуля, потому что все доступные нам год назад роботы имели как свои недостатки, так и преимущества.
Например, робот Unitree G1 сейчас покоряет весь мир танцами, прыжками и сальто. Но он маленького роста. К тому же при возможной поломке можно надолго потерять саму платформу, которая уезжает в сервис ремонтироваться. Обладание собственной антропоморфной платформой позволяет этого избежать.
Да, своя платформа добавляет проблем, ведь нам нужно добиться высокой зрелости технического решения. Но зато она позволяет гораздо быстрее модифицировать конечный продукт и соответствовать требованиям рынка. Это лучше, чем ждать, когда китайские партнеры выпустят новый релиз. Плюс для китайцев Россия не очень масштабный рынок, потому что мы не покупаем роботов тысячами. Соответственно, добиться от них кастомизации очень сложно.
В собственном роботе нам полностью доступны все слои управления и коммуникации. Мы можем легко менять любые компоненты, архитектуру, интерфейсные части, улучшая управляемость робота.
— Мы уже видели, как робот танцует и жмет руку. Как будет технически реализовано расширение таких навыков? Потребуется ли для этого перепрограммирование или робот сможет обучаться этим действиям самостоятельно?
— Сейчас часть действия — это действительно предзаписанные траектории, которые нейросетевой контроллер стабилизирует и позволяет воспроизводить на роботе. То есть мы, как магнитофон, записываем движения и потом их воспроизводим.
Visual language action модели — это следующий шаг. Мы не просто записываем отдельное движение: нейросеть запоминает взаимосвязь между тем, что она видит, и движением, которое она выполняет. Вот интересный эффект: у нас в выборке было небольшое количество демонстраций, когда робот отдавал человеку яблоко или апельсин. Эти данные не размечались текстовой командой, вызвать их текстовой командой было нельзя. Но если человек подходит и протягивает руку, то робот передает ему фрукт. Просто потому, что у него эти данные были в обучающей выборке и он их наблюдал.
Поэтому сейчас основной технологический трек движется к тому, чтобы воспроизвести GPT-момент в робототехнике. Мы хотим достичь такого уровня генерализации, когда большая насмотренность на самые разные действия позволит роботу генерализировать. Мы стремимся к эмерджентности, когда новые свойства появляются из совокупности предыдущих, хотя отдельно нигде не прописаны. Наша глобальная цель — выстроить такой пайплайн сбора данных и обучения на этих данных, чтобы роботы становились все более и более приспособленными к самым разным задачам.
— Насколько интуитивно голосовое взаимодействие с роботом? Может ли любой человек пообщаться с ним без специального обучения?
— Пообщаться с роботом сейчас можно так же, как с умной колонкой. Ни у кого не возникает проблем, чтобы поговорить с голосовым ассистентом и получить от него нужные ответы. Но, по моим наблюдениям на выставке AI Journey, где мы показали робота, и в ходе подготовки к ней от нашего робота все ждут не только голосового, но и невербального интерфейса. Люди хотят, чтобы робот реагировал на их жестикуляцию. Своим поведением они пытаются вызвать реакцию у робота. Это направление, в котором мы работаем и хотим научить этому нашу VLA-модель.
— В чем главное техническое преимущество Грина перед обычным промышленным роботом, который работает на заводе?
— Главное его преимущество нам еще предстоит раскрыть. Все-таки искусственный интеллект пока не готов решать любые задачи на производстве. Глобально все технологические компании идут к тому, чтобы создать робота, которого не надо будет внедрять. Если вы сейчас купите себе индустриального робота, он будет бесполезной железякой, потому что к нему нужна команда интеграции, которая выстроит бизнес-процесс, придумает всю необходимую оснастку и захваты, поменяет все технологические процессы вокруг так, чтобы робот мог выполнять свою функцию. И это неудобно. Плюс индустриальный робот прикручен к полу. А антропоморфный робот может перемещаться в любом пространстве, выполнять разные функции на разных рабочих местах — так же, как человек.
Антропоморфные роботы точно не заменят всех индустриальных. Одно не противовес другому — это роботы для разных задач. Несмотря на десятилетия прогресса в индустриальной робототехнике, даже в самых роботизированных странах сейчас всего лишь чуть больше тысячи роботов на 10 тысяч человек. То есть не больше 100% физического труда сейчас выполняется роботами. Это ровно потому, что огромную часть труда индустриальными роботами роботизировать невозможно. Для этого нужны другие инструменты.
Антропоморфный робот — это еще один инструмент роботизации, который станет гибким и быстро внедряемым, потому что вам не нужно будет переделывать под него пространство. Он сможет закрывать несколько задач на одном предприятии, потому что будет самостоятельно перемещаться от одного рабочего места к другому.
— В каких конкретных отраслях — логистике, медицине, сервисе — робот сможет принести наибольший эффект в ближайшие 2-3 года и какие задачи он будет решать?
— Все компании сейчас пытаются найти сферы, где антропоморфных роботов можно будет использовать в первую очередь. Но ответ на ваш вопрос скрывается в том, с какими задачами искусственный интеллект, воплощенный в антропоморфную форму, начнет справляться быстрее.
— В каких задачах антропоморфные роботы могут стать незаменимыми помощниками людей?
— В самых разных. Есть огромное количество работы, которой человек не хочет заниматься. Самые тяжелые и неприятные работы еще какое-то время будут непосильными для антропоморфных роботов. Например, работа в грязи на улице или работа в опасных условиях на буровых установках, когда у вас взрывоопасная среда — смесь нефтепродуктов с грязью. Для таких условий роботов нужно будет создавать специализированными. Но огромное количество задач в логистике, на заводах, связанных с перемещением различных деталей, предметов, товаров, можно будет роботизировать.