どうして現在のディープラーニング技術ではAIが東大入試を乗り越えられないのか？　－ AI脅威論にも安易な礼賛にも同調しない人間中心のAI活用について

■ AI脅威論を恐れすぎない。AI万能論にも同調しない。

現在は、AI（人工知能）第3次ブームとも呼ばれています。そして、AIが人間の仕事を奪うのではないかというAI脅威論を唱える人や、万能なAI（汎用型AI、AGI：Artificial General Intelligence）によるシンギュラリティが2045年にも起こると予想する人も増えてきました。

現時点のテクノロジーにおけるAI技術とは簡単に文系人間がまとめると下記の通り。

① 人間の脳内構造をまねた情報処理方式（ニューラルネットワーク）を採用
② ベイズ統計学を用いた仮説検証型、確率論的意思決定メカニズムを採用
③ ベイズの定理の欠点だった客観性向上にビッグデータを積極利用
④ ビッグデータ活用方法として、機械学習（強化学習）の技術を利用

①の従来は「入力層」「中間層」「出力層」の3層構造であったニューラルネットワークの中間層を何層にもわたって深くして、より複雑な事象を識別できるように工夫したものを「ディープラーニング（深層学習）」と呼びます。ディープラーニングはそうした情報処理の構造のちょっとした進歩に過ぎず、そこで採用された情報処理方法である②のベイズの定義、そして膨大なデータによる学習を実現する③④のICTの進歩があいまって、今日のAIブームの引き金となりました。

膨大なデータを喰わせてやり、自己学習を自動的に行う機構を与えた上で、あくまで確率論的に正解らしい結論（例：90%の確率で●●である）を導くことができるAIは、所詮、人間の手で作りだした計算機に過ぎません。

■ 「ロボットは東大に入れるか」プロジェクトディレクターの新井教授が出した結論とは？

新井教授の最近の出稿を読んで再整理したものを下記にまとめます。AI研究の最前線に立っている新井教授の説明に耳を傾けてみましょう。

2016/11/10付｜日本経済新聞｜電子版　知識に比べ幼稚な知性　アンバランスなＡＩ「ロボットは東大に入れるか」プロジェクトディレクター　新井紀子

（注）日本経済新聞の記事へ直接リンクを貼ることは同社が禁じています。お手数ですが、一旦上記リンクで同社TOPページに飛んでいただき、上記リード文を検索すればお目当ての記事までたどり着くことができます

パリの人類史博物館にスウェーデンで客死デカルトの頭蓋骨が返却された際に、天才デカルトの割には頭蓋骨が小さいことで真贋がアカデミーで議論された逸話から。

「シンギュラリティ説にも似た点がある。2045年には、全人類の脳神経細胞を合わせるよりも多くのチップをもつスーパーコンピューターが登場し、人類の知性を上回るというようなことがまことしやかに言い立てられている。」
［初出：日経産業新聞2016年11月10日付］

（下記は同記事添付の新井教授の写真を引用）

このような言説が信じられる理由は、私たちが、人間の知性が、①頭の回転の速さ、②正確さ、そして③知識量で決定されると信じているからだそうです。それゆえ、全人類の脳が持つデータをたったひとつのスーパーAIに覚え込ませれば、人類史上最も賢い知能が誕生するのではないかと考えられています。

新井教授が2011年から開発している東大入試突破を目指す人工知能「東ロボくん」には、20年分の過去の入試問題、手に入るすべての教科書・辞書（ネット上最大の辞書：ウィキペディア含む）をインプットしてあります。昨年度のセンター入試の模擬試験では、上位２割に食い込み、東大模試でも数学や世界史では好成績を達成したそうです。

それでも「東ロボくん」は、
① 常識が分からない
「「暑い中、歩いてきたら、冷たい飲み物が欲しくなる」ということがまだわからない」
②「文と非文（文として成立しない文字列）の区別すらできない」
というありさまです。

そうしたAIによる「知性」のアンバランスさを新井教授は、AIのロジックが徹頭徹尾、数学でできているということを指摘されています。

「数学は論理と確率と統計でできている。３つのどれかを使って、人間が考える価値や意味を近似する。哲学者ヒュームが指摘したように、論理だけでは「私の指を傷つけるよりも、全世界を破壊するほうがましだ」という決断が誤りであることを導くことはできない。
　確率と統計だけでは、「10人より100人が良いといったもののほうが価値が高い」「みんなが信頼する人の言っていることは正しい」というような紋切り型の価値しか定義できない。ネットに流れているレストランや商品の評価も統計的に計算されている。しかし、本当のうまさやサービスの価値は、それほど単純なものではないはずだ。」

近代科学の基盤として数学を取り入れることを主張したデカルトは、「どれほど精巧に作られようとも、機械は言葉を理解するようにはならない」と、著書「方法序説」で説きました。彼は、その限界が「言語」の問題であることを直観で分かっていたのでしょう。

■ 「東ロボくん」は東大入試を諦め、慶大のAIが医師試験合格に近づく

好対照なニュースが続いて報道されました。

2016/11/14付｜日本経済新聞｜朝刊　ＡＩで東大合格断念　「東ロボくん」偏差値伸びず

「人工知能（ＡＩ）で東京大合格を目指す「東ロボくん」の開発を進めてきた国立情報学研究所などは14日、2016年度の大学入試センター試験の模試で偏差値57.1を獲得したと発表した。昨年からほぼ横ばいで、東大合格圏には達しなかった。今後は東大合格を目標にせず、中高生の読解力を高める研究などに注力する考えだ。」

2016/11/20付｜日本経済新聞｜朝刊　慶大のＡＩ、医師試験合格に近づく　正答率55％超に

「慶応義塾大学の榊原康文教授らは、昨年開発した医師国家試験に解答する人工知能（ＡＩ）を、合格間近な水準まで改良した。過去の試験問題から機械学習する機能を新たに追加し、正答率を55％超に高めた。国家試験は３分の２以上の正答率で合格するとされ、１～２年以内の達成を目指す。医師の診療を支援するソフトウエアとして実用化を目指す。」

この記事にある榊原教授のコメントにまず注目します。

「榊原教授は「東大の入試は落とすための試験。医師国家試験は能力を測るための素直な問題で、その違いも関係しているのではないか」と話す。ただＡＩは時間の概念がないため、症状が次第に変化していく表現を含む問題への対応が難しいという。」

同記事によると、榊原教授の研究チームは、
「475種類の病名と903種類の症状のデータから、患者の病気を判定するソフトの開発に取り組んでいる。今回、過去27年間の試験問題を機械学習する機能を追加した。」
「問題文に含まれる症状や病歴などにかかわる単語は、病名の判断のカギとなる。これらを学習させたうえ、否定語や同義語を正しく判断する機能も加えた。」

とあり、あくまでベイズ定理に従って、画像データを含むビッグデータを機械学習で大量かつ高速処理して、確率統計的な正答を導くとする現在のAIの基礎的方法論に基づき、推論精度を高めようとしています。この方法では、与えられた条件や膨大なデータから、あくまで数学的（統計的）に正答らしい結論を確率的に提示できるにすぎないことを意味しています。

■ 日経ビジネス的に言うと「敗軍の将、兵を語る」－新井教授に東大合格断念の理由を聞く

新井教授の研究に関心を持ち、野次馬根性で陰ながら、応援を続けていたのですが、個人的には大変残念な結果となりました。

2016/12/8付｜日本経済新聞｜電子版　「東ロボくん」がぶつかったロングテールの壁「ロボットは東大に入れるか」プロジェクトディレクター　新井紀子

「ＡＩプロジェクト「ロボットは東大に入れるか」を2011年に始めた後、１年かけて過去20年のセンター入試と旧帝大の個別学力試験（２次試験）を分析した。その結果、「これは何の問題」と分類できるような問題群は、どんなに多く見積もっても全体の半数にとどまることがわかった。」
［初出：日経産業新聞2016年12月8日付］

米アマゾン・ドット・コムのビジネスモデル成功の理由のひとつに、この「ロングテール」があります。1年間の売り上げの大半を、めったに売れない商品が大半を占めるという現象です。その他の物販会社は、大量に売れる商品（いわゆる売れ筋商品）の品揃えに留意してマーチャンダイジングを行いますが、アマゾンは最初から「ロングテール」商品の品揃えを強化し、かつ、その商品の提供を低コストでオペレーションする方式を採用して競争優位を築きました。閑話休題。

確かに、数学においての単純な計算問題、英語においての発音と文法問題ならAIはほぼ100%の正答を出します。しかし、文章問題（英語のリスニングテスト含む）に『常識』が前提に組み込まれている問題で正答を出すことが現在のテクノロジーに立脚するAIでは大変難しいことを、新井教授は証明しました。

同記事に紹介されていたリスニング問題の顛末を紹介すると、

母と息子の会話が流れる。父親のためにバースデーケーキを手作りしているらしい。息子がたずねる。「ブルーベリーはクリームの上に置いたほうがいいかな、それともクリームとクリームの間に置いたほうがいいかな」

　東ロボは完全に音声認識できた。しかし、そこで問われたのは「この会話の結果としてできあがったケーキはどれか。次の４枚のイラストから選びなさい」である。これはリスニングの問題ではない。リスニングをし、文書の意味とイラストの内容を理解し、そこから常識推論をして判断する――という複合問題なのである。

デコレーションケーキの問題は一度出題されたら、もう二度と同じ形で出題されることは無いでしょう。実際に、翌年には、ダンスパーティーへの誘い方が、翌々年にはハンバーガー店での注文の仕方が問われたそうです。

また、英語の問題では、航空チケット、博物館の入場料金表のような表の読解問題もありました。AIに航空チケットの読み方を覚えさせても、料金表には対応できません。その上、航空チケットの読み取りがテストに登場するのはこの一回限りなのです。

■ 現在のICTレベルでビッグデータを強化学習で取り込んでどうにかなるレベルとは？

前章では、東大入試の一部から、入試問題の多様性やロングテールな状況を説明しました。こうした状況は、入試の枠を超えて、実社会に当てはめれば、無尽蔵な選択肢（常識と定式の組合せ）が存在することを想像することはいとも簡単なことです。

では、ICTお得意の、そして現在のAIが得意とするパターン認識とそのためのビッグデータによる統計的手法に頼ったとして、どれだけのデータが必要になるか、新井教授は試算してみたのだそうです。

「今年、東ロボの英語チームは次のような見解を示した。語順整序や文法の穴埋め問題のような「一文を正しくする」問題の正答率を９割程度に上げるために、ＡＩが学習に要したのは約500億文であった。会話文を完成させるような複文問題で９割程度の正答率を達成するには、少なくとも500億の会話のパターンが必要だろう。
　しかし、そのようなデータは存在しないし、自動的に収集できる見込みもない。人手に頼って作成するにはざっと500兆円かかる計算になる。」

AI初期の頃、AIプログラミング担当者の知識量や実装されるアルゴリズムの限界を「フレームワーク問題」と呼び、一時的にAI研究が下火になったことがあります。そして、専門家の情報処理ロジックを真似た「エキスパート・システム」開発として、第2次ブームが起こり、この度、冒頭で説明したいわゆる「ディープラーニング（深層学習）」技術で第3次AIブームが到来中です。

その渦中で、新井教授の研究結果が明らかとなりました。しかし、並行して、ICTの技術進歩のスピードも加速しています。新井教授が明らかにした500億の会話パターンを集める術が見つけられるかもしれないし、500兆円かかると試算されたコストも、いくらでも低減させるブレイクスルーがこれからも続くでしょう。
（ムーアの法則は、まだまだ続きそうですから）

我々にとって賢明なAIに対するスタンスというのは、過度に恐れない、同時に過度に期待しない。現時点のAIができる音声認識・画像判断ロジックを、IoTを用いたビッグデータ収集に基づく統計処理で磨いていけばいい。その積み重ねで、スマートファクトリーが実現したり、その先に、自動車の自動運転時代が到来したりすることもそう遠いことではないでしょう。しかし、あくまで人間が最終判断をし、人間が持つ『常識』で事の善悪や最良を判断することは、AI任せにできない、人間が最後まで持つAI全盛時代における責任（義務）であり当然の権利でもあるのです。

（注）職業倫理の問題から、公開情報に基づいた記述に徹します。また、それに対する意見表明はあくまで個人的なものであり、筆者が属するいかなる組織・団体の見解とも無関係です。