中でも“ダイヤモンドの入手”は多くのプレイヤーが「ひと苦労した」と口をそろえるハードルで、人間にとってもやり込み甲斐のある大目標です。
実際、これまでの研究では「AIがマインクラフトを上手にプレイする」ためには、人間が事前に教えるステップが不可欠なケースが大半でした。
たとえば、「まずは木を切り、それを使って道具を作り……」といった手順を人間のプレイデータから学ばせるとか、難易度を段階的に設定するカリキュラムを用意してあげるとか。
これは確かに効果的ですが、一方で「AIが本当にゼロから自力で学習しきった」とは言い難いのも事実です。
もし何の助けもなく、ただ試行錯誤するだけでダイヤモンドまでたどり着けるなら、それは「地図のない広大な島に放り出されても、AIがサバイバル術を自前で身につけられる」ということを意味します。
そこで重要になってくるのが、「世界モデル(World Model)」という考え方です。
AIが想像力を働かせてマインクラフトでダイヤを掘る
新たな研究は「世界モデル(World Model)」という概念をAIに用います。
これは「AIが頭の中に仮想的な環境を丸ごと構築し、その中で未来を予測して練習を繰り返す」という仕組みです。
まずAIは大量のデータを使って、現実世界やゲーム内の状況を抽象的に理解する「世界モデル」という内部の地図を作り上げます。
この世界モデルは、実際のマインクラフトの世界をまるで縮小版のシミュレーションとして再現しているようなものです。
AIは、この内部モデル上で、さまざまな行動を試し、その結果としてどんな状態になり、どれだけの報酬(ゲーム内ではたとえばダイヤモンドなどの貴重な資源)が得られるかを計算します。
言い換えれば、AIは自分の中で「もしこう動いたらどうなるだろう?」と無数の未来のシナリオを瞬時に描き、その中から最も良い結果が得られると予測される行動を選び出しているのです。