研究開発

RESEARCH & DEVELOPMENT

プロジェクト

コア技術領域

PRESENTATION

人とロボットとAIとが協調・共存可能なより良い社会を実現する

マルチエージェントシステム

戦略研究部門データアナリティクス領域
マルチエージェントシステムプログラム
プログラムマネージャ

西　智樹

世の中に溢れているマルチエージェントシステムを研究。
他者の考えが分からない状況下で、正しく意思決定するための技術を開発しています。

世の中はMASであふれている

マルチエージェントシステム（Multi-Agenet System、以下MAS）は、自ら状況を認識し、それに基づいて判断・行動するエージェント（主体）が、複数存在するシステムです。こう言うと何か難しいもののように聞こえますが、世の中の多くのシステムはMASとして捉えることができます。例えば、交通や群衆の振る舞いなどはMASの典型的な例です（図1-左）。一台一台のクルマの運転手や歩行者が、それぞれに状況を認識し、各個人の判断基準に従って行動した結果、交通渋滞などが起きているのです。

MASの研究には、計算機科学、制御工学、経済学、ロボット工学、交通工学など、基礎から応用まで様々な分野があります。切り口は多岐にわたり、効率よく最適な行動を発見し最適化する手法の研究や、渋滞など世の中で起きている現象がどういう原理で起きるのかの解明を目指した研究などが行われています。

MASの研究の成果は、交通渋滞を緩和するための信号機の制御や、倉庫を縦横無尽に動きながら、品物を箱に詰める人の前まで棚を移動させるロボット（図1-右）など、実社会で活用されています。私たちが取り組んでいるのは、そうしたMASが、より良い意思決定をするための技術です。

図1.　信号無交差点の渋滞（左）と、工場内でロボットが連携する様子（右）を示したマルチエージェントシステム（MAS）の例。信号無交差点のように1台（自車）だけしか制御できないMASもあれば、工場内のロボットのようにすべてのエージェントを制御できるMASもある。

他人の考えは分からない

個々のエージェントが各々の目的を達成しようとするMASの場合、他のエージェントの意思決定を事前に把握することは非常に困難です。これは日常生活の中でもよく起こっていることで、例えば高速道路へ合流する際に、あるクルマの前に合流しようとしたら、相手が加速したために自分の思いどおりに合流できなかったなどの出来事は、しばしば皆さんも体験しているのではないでしょうか。

MASの意思決定の理論的な研究では、全エージェントの目的があらかじめ分かっている前提で議論されることがよくあります。しかし実際には、倉庫ロボットのように協調して一つの目的を達成するロボットなどを除いては、他者の目的が分からない場合がほとんどです。他のエージェントの目的が分かっていない状況で、どのようにより良い意思決定を実現するかは、MASにおける大きな課題の一つです。

試行錯誤を通して学習する、今注目の強化学習。
これを実問題に適用するためには、まだまだ多くの課題があります。

実問題における強化学習の難しさ

私たちはこれまで、自動運転における混雑時の合流など、いくつかの実問題に関して、強化学習を用いたアプローチを行ってきましたが、そこには一つ難しい問題がありました。自動運転の強化学習では “適当にやってみる”ということが気軽にできないのです。エージェントの判断ミスがそのまま事故に直結してしまうからです。

そこで私たちは、事前に人が運転したデータを用いて強化学習を行う方法を開発しました。自動運転車の合流の難しさは、クルマ自体を制御することよりも、他車の動きを予測することの難しさに由来します。それを踏まえて、自動運転車自体のダイナミクスをモデル化した上で、他車の動きに対してどう行動するのが良いかを、あらかじめ収集したデータから学習する方法を提案しました（図2）。サッカーに例えると、グラウンドでボールを蹴って練習するのではなく、撮影した試合の映像を見ながらイメージトレーニングするという練習法にあたります。この場合も、選手は自分自身の体の使い方よりも、相手がどう動くか、それに自分がどう対応するかを考えています。

実際のアプリケーションでは、自動運転の例のように、試行錯誤が社会に悪影響を及ぼす場面が多々あります。例えば、交差点の信号機制御の場合、でたらめに制御すれば大渋滞を引き起こしてしまうかもしれません。かといって、すべてをシミュレーションで実現することも技術的に困難です。あらかじめ収集したデータを使った強化学習は、実際のアプリケーションでの利用に非常に有効であると考えています。

図2. 混雑した高速道路への合流を実現するために，当プログラムが開発した強化学習法。自車のダイナミクスを事前にモデル化した上で、収集したデータを解析し、他車の振る舞いへの対応を学習する。この手法には、①他車や環境をモデル化する必要がない、②実環境での試行錯誤に伴う事故リスクを回避できる、という2つのメリットがある。

実世界の問題への挑戦

私たちは、これまで取り組んできた意思決定の学習に関する研究を、実世界のアプリケーションを想定したMASによる意思決定の学習へと拡張していこうと考えています。自動運転をはじめ、配車サービス、物流、周辺の交通信号機等が連携した交通流制御システムなど、意思決定を学習・最適化することによって、より良い交通社会を実現できるサービスはたくさんあります（図3）。

機械学習などの基盤技術の研究者だけでなく、交通工学など応用分野の専門家とも活発な議論を交わしながら、日々研究を重ね、より良い社会の実現に寄与していきたいと思います。

図3. 実世界のアプリケーションへの応用例。エネルギー供給においては、エネルギーをいつどこに運ぶかを、時々刻々と変化する需要と供給に合わせて最適化する必要がある。風力や太陽光発電は、天候により発電量が大きく変わる（供給の変化）。エネルギーがどこでどれくらい消費されるかも、その時々で変わる（需要の変化）。

プログラムの打合せでは、上位の目標から具体的な手法まで何でも、メンバー全員で活発な議論をしながら決めています。そうすることで、何でも言い合える雰囲気作りができ、各自のやることに対するモチベーションが上がるのではないかと考えています。

主要論文

Nishi, T. et al., "Freeway Merging in Congested Traffic based on Multipolicy Decision Making with Passive Actor Critic", ICML Workshop on Machine Learning for Autonomous Vehicles (2017).
Nishi, T. et al., "Actor-Critic for Linearly-Solvable Continuous MDP with Partially Known Dynamics", arXiv (2017).
Okumura, B. et al., "Challenges in perception and decision making for intelligent automotive vehicles: a case study", IEEE Transactions on Intelligent Vehicles, 1, 1, 20-32 (2016).

一覧へ戻る

FEATURE

PAGE TOP