このページでは JavaScript を使用している部分があります。お使いのブラウザーがこれらの機能をサポートしていない場合、もしくは設定が「有効」となっていない場合は正常に動作しないことがあります。

ディープラーニング技術深層強化学習

自ら成長するAIでシステムの最適化・自律化の実現へ

2016年3月、DeepMind社が開発したAlphaGoが世界トップクラスのプロ囲碁棋士に4勝1敗で勝ち越し、大きな話題になりました。AlphaGoは、ディープラーニングを活用した深層強化学習を応用したもので、ディープラーニングの破壊的イノベーションの可能性を示唆する代表例の1つとなりました。ここでは、この技術の要である強化学習と、それにディープラーニングを組み合わせた深層強化学習について紹介します。

ディープラーニングを含む機械学習は、大きく3つのタイプに分かれます。1つ目は教師あり学習（Supervised Learning）です。教師あり学習は、多数の入力データとその正解クラスの組から、学習により識別器を生成し、未知の入力データのクラスを推論するものです。2つ目は教師なし学習（Unsupervised Learning）です。教師なし学習は、正解の分からない入力データの特徴を捉えて、自動的に複数のグループに分類するものです。そして、3つ目が強化学習（Reinforcement Learning）です。強化学習は、行動が環境の状態変化を引き起こし、目的にかなうと報酬を受け取れるモデルにおいて、試行錯誤による学習を繰り返し、状態に応じて報酬を最大化する行動を学習するものです。

強化学習について、イメージで説明します。図1は、人が練習の繰り返しによって能力を習得していく例を示す図です。多くのバレエやダンスのレッスン場には、鏡が設置されています。鏡（環境）に映る自分の動きから「状態」を把握し、上手に踊れたら嬉しいという感情の「報酬」が与えられ、そのときの正しい動き（行動）を体が覚えていきます。これを繰り返すことで、踊りが上達します。強化学習は、コンピュータによって、この能力習得を実現しようというものです。そして、強化学習にディープラーニングを組み合わせたものが、深層強化学習です。

深層強化学習の1つ方式として、Deep Q-Network（DQN）という手法があります。これは、Qラーニングと呼ばれる強化学習手法に、ディープラーニングを組み合わせたものです。図2にDQNによる深層強化学習の構成を示します。Qラーニングでは、エージェントは、時刻tにアクションatを実行し、状態stと報酬rtを環境から取得します。エージェントは、状態sにおいて取りうるアクションa1からaNのぞれぞれの行動価値を推定するQテーブルQ(s,a)を、式1のように更新していきます。

αは学習のスピードを決める学習率（0<α<1）です。γは割引率（0<γ<1）と呼ばれ、状態st+1において取りうる行動A(st+1)の中から最大の価値を得るものを選択し、得られる報酬rt+1とともにQテーブルを更新しますが、時間とともに価値を割り引いていくことで、Qテーブルが発散しないようにします。また、たとえば囲碁のように、一手一手の積み重ねにより勝敗が決まっていくケースでは、行動を時系列としてとらえて、過去に遡ってQテーブルの更新をしていきます。囲碁や将棋などで、終局後に対戦者同士で対局を振り返る「感想戦」と呼ばれるシーンがありますが、それと似たイメージで学習していきます。

また、人は新しい能力を習得する過程において、試行錯誤を繰り返してジャンプアップを試みます。深層強化学習においても、価値が最大となる行動を選択するだけでなく、一定の確率でランダムな行動選択を行うことで、より高い能力を得ることが可能となります。これは、ε-greedy法と呼ばれています。そして、エージェントは、強化学習によって、状態sにおいて最適な行動aを決定できるように成長します。

ここで、Qテーブルの学習にディープラーニングを活用することが、深層強化学習DQNの特徴になります。式1のQテーブルの更新において、右辺の第二項がゼロに近づくことでQテーブルが完成します。そこで、式2に示すように損失関数を定義し、Qテーブルを推論するディープニューラルネットワークの学習を行います。

Qテーブルの学習にディープラーニングを活用することで、たとえば、ビデオゲーム画面などの画像を状態sとしてディープニューラルネットワークに入力して学習し、AIが次のアクションを決定することも可能になります。

深層強化学習は、ゲームだけでなく、エネルギー需給バランス、物流の輸送経路やスケジューリング、生産や在庫の管理、製造装置の制御など、様々な最適化や制御の高度化への適用が期待されます。東芝デジタルソリューションズでは、深層強化学習の応用研究を進め、産業分野を中心に、AIによるシステムの最適化・自律化の実現を目指します。

強化学習による人の能力獲得過程

鏡（環境）に映る自分の「状態」を把握し、正しい動き（行動）を習得。