Google DeepMindが開発した「Dreamer」と呼ばれる新しい強化学習アルゴリズムによって、想像力に似た力を持つAIがマインクラフトでダイヤの採掘を行うことに成功しました。

これまでの技術でもオープンワールドゲームの世界で特定の目的を持って動き回るAIは存在していましたが、新たなAIは全てを人間の助けなしに0から学び、自分の力だけで探検や採掘、そしてクラフトを行いダイヤを獲得するのです。

「AIなんだからそれくらいできるでしょ?」と思うかもしれません。

しかしマインクラフトでダイヤを採取するには現実でダイヤを掘るのと同じく数多くの過程を消化しなければならず、また生存し続けるには危機を予測し回避することも必要になります。

そのような全てを統合し合理的に作業を行うことはこれまでのAIでは困難でした。

研究者たちはマインクラフトという仮想世界での成功は現実世界での「何でもこなすAI」の登場において重要なステップになると述べています。

普通なら挫折しかねない課題を「AIだけでやり遂げた」と聞くと、未来のロボットや自律システムの可能性さえ感じさせます。

いったいどのような仕組みが、この“大冒険”を支えているのでしょうか?

研究内容の詳細は『Nature』にて発表されました。

目次

  • AIがオープンワールドで遊ぶとは何を意味するか?
  • AIが想像力を働かせてマインクラフトでダイヤを掘る
  • 世界を理解するAIの行く先

AIがオープンワールドで遊ぶとは何を意味するか?

想像力を持つAIはマインクラフト世界を理解し探検・クラフト・採掘を行う
想像力を持つAIはマインクラフト世界を理解し探検・クラフト・採掘を行う / FIG1は、Dreamerアルゴリズムがどのようにして未来を予測し、最適な行動を選ぶかを視覚的に示した図です。 まず、環境から得られる実際の映像やセンサーデータが、エンコーダーによってコンパクトな抽象表現に変換されます。 これは、まるで風景写真から主要な特徴だけを抜き出して、シンプルなスケッチにするようなイメージです。 その後、これらの抽象化された情報はリカレントネットワークに送られ、過去の情報をもとに「今」の状態を把握するとともに、次に何が起こるかを予測するためのシーケンスが生成されます。 ここでAIは、まるで天気予報士が過去のデータから明日の天気を予想するかのように、未来のシナリオを内側でシミュレーションします。 さらに、この予測された未来のシナリオをもとに、アクターネットワークが「もしこう動いたらどれだけ良いか」を計算し、最適な行動を選択します。 同時に、クリティックネットワークはその選択がどれだけ価値のある結果をもたらすかを評価し、AI全体の学習をフィードバックします。 つまりAIがまるで自分の頭の中で「映画」を制作し、未来の予告編を見ながら最良の一手を決めるのです。これはある意味で想像力とも言えるでしょう。/Credit:Danijar Hafner et al . Nature (2025)