研究紹介 「模倣学習」

皆さん、模倣学習って知ってますか?

模倣だからまねをするということです。

最近のニュースで人型ロボットが、空手の動きをしたり飛んだり跳ねたりすごい動きをしているのを見かけたりしますよね。

これらには人口知能AIによって、動きが制御されているのですが・・・chatGPTのように会話をやり取りしているAIについては、

かなり身近に感じるようになってきたと思います。そしてAIが世の中で、動き出す、というか物理的に動きを制御する、これが

フィジカルAIと言われているものです。

そういったフィジカルAIを実現するためには、ロボットをAIで動かす必要ことが必要です。その技術にはいろいろあるのですが。。。

その一つが模倣学習です。

知能情報・音響工学研究室でも、模倣学習の研究をしています。

今日はその一つの研究紹介をします。

先ずは、下の動画を見てください。

ロボットが、サイコロを見つけてお椀にいれています。

これ、プログラムしたんじゃないんですよ。AIが自分で考えて動いているんですよ。
 

あ、肝心の模倣学習についての説明をするのを忘れていました。

これは、AIを使ってこういった動作の制御を学習していくにあたって、基本はランダムな動きをさせて、その中でうまくいったのを使うというように、何万何億回という試行錯誤の末、動きを学習していくという方法が使われます。

しかし、ロボットアームとか人型のロボットとかであれば、そんな動きを試行錯誤をしなくても、良いお見本がありますよね。
そう、人の動きや動物の動きを真似ればいいわけです。

そこで、ロボットアーム操作ができるマニュピュレータみたいなのを使って、何回かやり方を教えてあげるわけです。

その動きを学んで、こんどはAIが自分で動き出します。

<=ここに研究のミソがあります。

ロボットが自分で動いたときに、その動きは正しいのか?正しくないのか?を判断する必要がありますよね。

そうそうそこに気が付いた人はさすがです。

何回か、人がロボット操作を行っている際になにをやっているかというと。この動きが正解だよ。というのを判断する判定AIを作成しているのです。

ロボットが試行錯誤を始めるのですが、その時には人がやったときのに作成した判定AIがあるのでその判断にもづいて、良い動きができるようにAIが学習しているわけです。

もう一度、動画をみてみてください。

物体がいろいろ違う場所に置かれた場合でもロボットがちゃんとつかんでお椀にいれているのがわかると思います。

AI自身が、自分の中に正解かどうかを判定できる判定AIを持っているので、どんな場所に物体が置かれていても、これこれこういった動きをすれば良いという判断ができるのです。

自分自身の中に判断の基準をもって、物理的に動きを制御している。という訳ですね。

1個物体が置かれたときは、一回、2個、物体が置かれたときは、2回掴んではお椀にいれるという動作をおこなっています。

そして、物体がなくなると動作を終了します。これは、物体があったらお椀にいれるという判定AIが、物体がなかった時には動作を止めるということも判断しているのです。