ところが、この研究で示されたアプローチは、一つの枠組みで多様なタスクや未知の状況を大きく包み込み、自在に学習を進めることができます。
たとえば、従来であれば「アーケードゲームの操作は得意だけれど、3D迷路はまるで歯が立たない」というケースが当たり前でした。
しかし今回の手法では、アーケードゲームも3D迷路もロボット制御も、さらにはマインクラフトのような自由度の高いサンドボックスゲームまで、ほぼ同じ仕組みで学習を進め、しかも実際に高いスコアや目標達成率を残せています。
これは例えるなら、“あらゆるスポーツをマルチにこなせる万能アスリート”のような存在が誕生しつつあるイメージです。
さらに興味深いのは、この研究の手法が人間のプレイデータや詳細な手取り足取りの指導を必要としないという事実です。
これは「まったく言葉を知らない赤ちゃんが、目の前の世界を試行錯誤で探検しながら言語や動作を学んでいく過程」にも近いかもしれません。
要するに、AIはゲームや実験環境の“真のルール”が何なのかを自ら推定し、どう行動すれば報酬(成果)が得られるかを段階的に見つけ出していくわけです。
この“自力で世界を把握する”力が大きく育てば、単にゲームを攻略するだけでなく、現実の様々な場面でも役立つ可能性が見えてきます。
たとえば、未知の作業現場や新しい機械を扱うロボットが、説明書なしでもすぐに方法を学び取り、最適な動きを見つけ出すことが夢ではなくなるでしょう。
もちろん、まだ課題も残っています。
世界モデルを大きくするほど学習にはより多くの計算資源が必要になりますし、“頭の中でシミュレーションしきれない”極端に複雑な環境に対しては、さらなる工夫も求められるはずです。
それでも、この研究が示した「複数のタスクやゲームを、“同じ設定”で攻略できるAI」の姿は、従来の“特化型AI”を超える新しい方向性を鮮明に打ち出しました。