ポーカーＡＩ、プロに圧勝 1000万の展開学習 直感も磨く

■ とうとうポーカーゲームもAIの方に軍配が上がりました！

チェス、将棋、囲碁ときて、ポーカーまでAIの手に勝利が落ちました。有限の組合せの中で手を考えるゲームでAIと生身の人間が競うのはもう無理があるのではないでしょうか？

2017/3/6付｜日本経済新聞｜朝刊　ポーカーＡＩ、プロに圧勝 1000万の展開学習　直感も磨く

（注）日本経済新聞の記事へ直接リンクを貼ることは同社が禁じています。お手数ですが、一旦上記リンクで同社TOPページに飛んでいただき、上記リード文を検索すればお目当ての記事までたどり着くことができます

「【ワシントン＝共同】カナダ・アルバータ大などのチームは、人工知能（ＡＩ）技術を駆使したポーカーのコンピューターソフト「ディープスタック」がプロを相手に圧勝したと米科学誌サイエンスに５日までに発表した。」

（下記は同記事添付の「AIが人間に勝ったポーカーのルール」を引用）

ポーカーは相手の手札が見えず、展開を読むのが難しいため、ゲームに勝つためには囲碁並みの複雑な判断が必要と考えられていました。しかし、ディープスタックは１千万を超えるゲームの展開をディープラーニング（深層学習）で学び、人間でいう局面ごとの直感ともいえる判断力を磨き上げました。

そうして、昨年11～12月、17カ国のプロ33人とそれぞれ１対１で「テキサスホールデム」と呼ばれるポーカーを計約４万５千回戦い、勝ち越せなかった相手もいたそうですが、獲得したチップ総数を基にする指標で、一般に圧勝とされるポイントの10倍を獲得したということで、AIの勝利宣言と相成りました。

こうなると、ディープスタックを隠し持って、カジノで大儲けしたいと考える不届きな人もいるかもしれませんが、開発者チームによりますと、

「カジノなどでは、１対１ではなく大勢の人が参加することが多い。その場合、状況が大幅に複雑になるため、勝つソフトの開発には時間がかかりそうだという。」

ということで、現時点で大儲けは難しいようですが、それも時間の問題と言えましょう。もっとも、カジノでは監視カメラでギャンブラーは個々に監視されているので、少しでも怪しい動きをしたら、その場で即退場ですし、勝率の高いギャンブラーはそもそも出入り禁止になってしまいますが。

そして「ディープスタック」開発チームの動機は決してカジノで大儲けしたいという不埒なものではなく、

「不十分な情報の中で判断を迫られるポーカーで勝利する技術は、軍事戦略の立案や、病気の治療方針の決定で応用が期待される。」

と新聞記事では解説されています。

■ 直観やひらめきまで人間よりもAIが上になる時代はそう遠くない？

この記事の2日前には次のような記事が掲載されていました。

2017/3/4付｜日本経済新聞｜朝刊　ＡＩ、暗記→ひらめきへ先行の米国勢追う　富士通、理研と共同研究

「富士通は想定外の状況に陥っても適切な対応策を練れる次世代の人工知能（ＡＩ）の開発に乗り出す。基礎技術を持つ理化学研究所と共同研究拠点を設置。富士通が５年間で総額20億円強を投じる。「暗記」が得意な現在のＡＩと異なり、いわば、「ひらめき」で勝負するＡＩの実現を目指す。米国勢が先行するＡＩ研究の勢力図を塗り替える成果を出したい考えだ。」

（下記は同記事添付の「富士通と理研が目指すAIのイメージ」を引用）

AI研究で先行する米国勢を出し抜こうという意図の様ですが、2日後の記事で、同様の開発は米国でも行われていたという落ち。しかし、あくまで米国勢の開発スタンスは「ディープラーニング」をひたすら物量に任せて行うというもの。ディープスタックの勝利もその力押しによる深層学習の賜物です。

「ＩＢＭやマイクロソフトなどの米国勢は大規模なコンピューター群を使って学習量を増やし、性能を高めてきた。最近は巨額の資金を投じる中国勢の追い上げも激しい。ＡＩの開発競争は「物量作戦」の面もあり、予算に制約のある日本勢は水をあけられている。」

ということで、日本勢は少し違った角度からAI技術の進化を試みます。

「一方で深層学習は経験したことがない状況を苦手とする。大量の画像を学習して多くの物体を認識できるようになったとしても、学習させた回数が少なかった物体は正しく認識できない。」

という見解に立ち、理研のＡＩ研究拠点である革新知能統合研究センター（ＡＩＰ）は、

「頻度が少ないデータを補って適切に学習させる手法や過去にない状況に置かれたときに取った行動がどんな影響を及ぼすかを類推する手法の確立が目標だ。実現できれば、物量勝負の開発競争から抜け出せる可能性がある。」

という技術の確立を急いでいます。しかし、同じ日本人研究者から否定的な意見も。

「ＡＩの開発動向に詳しい松尾豊・東京大学特任准教授は「少ないデータから学習する手法や推論を組み合わせる手法の研究開発は各国で進んでおり、実用化に向けた競争は激しい」と指摘する。」

■ そもそもこれって、あの「フレーム問題」への挑戦なのか？

AI開発において、「フレーム問題」というのは、人工知能における重要な難問の一つで、有限の情報処理能力しかないロボットには、現実に起こりうる問題全てに対処することができないことを示すものです。たとえば、「コンビニに行ってサンドイッチを買ってきてください」とAIに命じたとき、実際に買い物に出かけた際に、現実世界では無数の出来事が起きる可能性がありますが、そのほとんどはコンビニでサンドイッチを買うというお題と関係はありません。AIは起こりうる出来事の中から、「コンビニに行ってサンドイッチを買う」ことに関連することだけを振るい分けて抽出し、それ以外の事柄に関して当面無視して思考しなければなりません。

起こり得る全ての事象を考慮すると無限の時間がかかってしまうため、枠（フレーム）を作って、その枠の中だけで思考するような工夫をAIにさせたいと考えるのが人情というものです。しかし、あらかじめフレームを複数定義しておき、状況に応じて適切なフレームを選択して使えば解決できるように一見は思えるかもしれません。しかし、どのフレームを現在の状況に適用すべきか評価する時点で同じフレーム問題が発生することは回避できないのです。

それゆえ、こうした汎用的な用途で使えるAGI: artificial general intelligence（汎用人工知能）の開発はまだまだ前途多難なようです。チェス、将棋、囲碁そしてポーカーなど、ある程度限定された選択肢や行動パターンの中でなら、AIは既に人間を越えていますが、AGIの本格的登場は、深層学習（ディープラーニング）の延長線上にはどうもないらしいことも分かっています。

AGIの開発、フレーム問題の解決に何か糸口はないのでしょうか？　人間の脳が当たり前に行っている現実世界での無用な選択肢を切り分ける能力。それが脳科学で明らかにされれば、AI開発にとてつもなく大きな前進となります。すでにディープラーニングが人間の脳を真似たアーキテクチャになっていますが、まだまだ人間の脳には秘密がいっぱいあるようです。

筆者の頭の中は、「おなかがすいたな」と「もっと楽して稼げないかな」しかありませんが。。。(^^;)

（注）職業倫理の問題から、公開情報に基づいた記述に徹します。また、それに対する意見表明はあくまで個人的なものであり、筆者が属するいかなる組織・団体の見解とも無関係です。