По правде говоря, хоть суета и страхи Маска отвлекают от других более реальных проблем в ИИ, но OpenAI сделала большой шаг на пути развития роботов, которые легче интегрируются в наш мир и не крушат все, что им встречается на пути.

 

Исследователи OpenAI создали систему, в которой симулированная роботизированная рука учится путем проб и ошибок манипулировать кубиком, а затем легко передает эти навыки физической роботизированной руке в реальном мире. 

 Shadow Dexterous Hand
Пример фотографий во время обучения, используемых для оценки положения кубика
Фото: wired.com

Техника подкрепления – это фишка исследователей. В симуляции рука, работающая от нейронной сети, может свободно экспериментировать с различными способами захвата и удержания блока. «Она просто совершает случайные действия, которые не все время увенчиваются успехом, - говорит инженер OpenAI Маттиас Плапперт. — Мы же даем ей вознаграждение, когда она делает хоть что-то, что немного приближает ее к цели, которую она действительно хочет достичь — повернуть блок». Идея состоит в том, чтобы развернуть блок и показать определенные стороны, помеченные разными буквами, не уронив его.

 

Так называемое «вознаграждение» подразумевает дальнейшие действия. То есть, если система делает что-то случайное, что приближает блок к правильному положению, появляется установка — продолжать делать что-то подобное. И наоборот, если она делает что-то неверное, система наказывается и учится не делать этого. «Со временем накапливается большой опыт, ее действия становятся все более отлаженными и правильными при повороте блока», - говорит Плапперт.

 

Трюк с этой новой системой заключается в том, что исследователи, по сути дела, создали множество разных миров в едином цифровом мире, для каждого моделирования они рандомизируют определенные показатели. Например, масса блока может немного варьироваться или немного изменяться гравитация. Так как робот живет в моделируемой мультиверсии, он практикуется во множестве разных «реалий», которые немного отличаются друг от друга.

 

«Это готовит его к переходу в реальный мир. Поскольку робот видел много симулированных миров во время обучения, мы смогли продемонстрировать, что с точки зрения системы обучения реальный физический мир — это еще одна симуляция, — говорит Плапперт. — Если он будет тренироваться только в одном рандомизированном мире, как только он перейдет в реальный, случайные переменные смутят его».

 

Чтобы сохранять контроль над блоком, у робота есть пять пальцев и 24 уровня сжатия (нажима), что делает его очень ловким (отсюда его название — «Ловкая рука призрака»). Он учится использовать пальцы, чтобы удерживать блок, как мы нашими собственными пальцами, одним словом, обучается человеческим движениям.

 

 

Интересно, что робот использует пальцы немного по-другому. Люди обычно зажимают блок большим пальцем и средним, либо безымянным пальцем, и поворачивают его указательным пальцем. Рука робота, однако, учится захватывать блок большим пальцем и мизинцем. «Мы полагаем, что причина этого просто в самом механизме, мизинец обладает большей степенью свободы по сравнению с другими пальцами и может контролировать большую область пространства», - говорит Плапперт.

 

Искусственный интеллект выясняет, как выполнить сложное задание, которое потребовало бы чудовищного количества времени у человека, по частям и быстро. «В некотором смысле, это то, чему учит техника подкрепления, ИИ сам по себе обнаруживает вещи, на поиск которых уходит огромное количество человеческих знаний», — говорит Питер Санбейл, специалист в области роботизации из Калифорнийского университета в Беркли.

 

Конечно, можно попытаться применить технику подкрепления в реальном мире и пропустить симуляцию. Но поскольку этот робот впервые тренируется в чисто цифровом мире, он получает много практики, что эквивалентно 100-летнему опыту. Такое обучение станет все более популярным и нужным, поскольку роботы берут на себя больше обязанностей. Обязанностей, в которые не входит истребление человеческой расы. OpenAI обязательно это сделает.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Новости о науке, технике, вооружении и технологиях.

Подпишитесь и будете получать свежий дайджест лучших статей за неделю!