「眼」を持った機械を作れるか

 

松尾豊氏

 

ゲスト:松尾豊東京大学大学院工学系研究科特任准教授
テーマ:AIと日本企業の競争力
2017年3月3日@日本記者クラブ

 

トップクラスのAI(人工知能)研究者の1人。AIの普及・啓蒙活動にいろんな形で携わっている。2007年から現職。

米IT企業グーグル傘下の英グーグル・ディープマインド社が開発した囲碁の「アルファ碁」は将棋に比べて10年遅れと言われ、2025年にプロに勝てると予想されていた。囲碁のほうがゲームとして難しいからだ。ところが実は最近になってプロに勝ち、10年前倒しになった。その最大の要因がディープラーニングという技術を使ったということだ。

AIは歴史的に言えば、過去3度にわたってブームがあった。1956~60年から60年代、第2次AIブーム(1980年代)、第3次ブーム(2013年~)。この分野は過熱しやすく、ブームになるたびにいつもあれもできる、これもできると話題になる。しかし、しばらくするとこれもできないのか、あれもできなのかということが段々分かってきて期待が失望に変わることを繰り返してきた。

今回も期待感が高まりすぎていて、何でもかんでもできるのではないかと思っている方が多いし、ブームになるとAI搭載の家電が発売される。ちょっと前まではAIと言っていなかった制御がAIと称するようになったり、ブームになるとともに、AIの指す幅が広がる。

僕の見る限り、今AIと言っている物の8割方は従来のITの言い換え。AIと強調するほどのものではない物がかなり多い。昔からある技術がかなりよくなってきており、今に至る。今までできなかったことが急激にできるようになるわけではない。60年前にできなかったことが60年後にできるようになるということは基本的にない。

ただ大きく変わっているのはディープラーニングのところだ。何10年もできなかったことがここ2~3年で急激にできるようになった。アルファ碁のデー婦ラーニングを使ったことで強くなった。もう数年前からやるんだったら、ディープラーニングしかない。ほんとにここ2~3年の技術なので、国が投資する価値がすごく大きい。ということをずっと言い続けている。

予算が付いたあと、それがどのような分野に使われるかというとディープラーニングではないところ。なぜならディープラーニングをやっている人は少数派でそれ以外の人がたくさんいる。しかもAIじゃない人もAIと称し始めている。

ディープラーニングが重要だということでディープラーニングに予算が付いたはずなのに、実態としてはAIと関係のない人がこの予算を使っているという状況が起こっていて悲しい状況だ。

 

 

ディープラーニングで一体何ができるか。認識と運動の習熟と意味理解の3つだ。「画像認識」ができることは極めて大変だ。犬、ネコなどを定義するのは難しい。この特徴量を人間が定義している限りでは画像認識は一向に精度が上がらなかった。この特徴量自体をコンピューターが自ら学習する機会が必要だった。

今までのAIは人間が現実世界の対象物と一生懸命観察してどこが特徴かを見抜いてモデル化していた。いったんモデルが立つとその後の処理はいくらでも市場化することができたが、モデルを立てる行為自体は全然自動化できていなかった。モデルを作ること自体を自動化しない限り、いろんな問題が出てきている。それを一部でも解き明かし始めているのがディープラーニング。私は50年代以来のブレークスルーという表現をしている。

ディープラーニングにもいろんな方式があるが、有名な研究が「グーグルの猫」(2012年)。インターネットから取ってきた画像をたくさん見せる。たくさん学習させる。画像をたくさん見せることで、猫の猫らしさが自動的に獲得される。猫っぽい画像。人間の視神経に非常に近いものができるようになった。

画像認識で12年から性能が上がった。共通のデータ設定があって、それに対していろんな研究者が競争して精度を競う。ディープラーニングチームがエラー率16.4%を出した。普通10年分のイノベーションを1年でやった。13年には11.7%、14年6.7%。

人間でも5.1%間違う。マイクロソフトは15年2月に4.9%、同年3月にグーグルが8.3%。今最新は3.1%にまで下がっている。これはかなり歴史に残ると考えている。15年2月にコンピューターが画像認識で人間の精度を超えたということが現実に起こった。

人間の仕事の中で目を使った仕事、認識をしている仕事は無茶無茶多い。それが全然自動化されていなかったのが全部自動化できる可能性ができてきた。画像認識の性能向上は相当大きな変化があり得る。

運動の習熟は強化学習。状況と行動をセットにしてやっていいか悪いかを判断する。昔は「状況」は人間が定義したが、ディープラーニングで出てきた特徴量を使ってこの状況を定義する。画像を入力し、スコアを報酬とするということだけで全然違うゲームを学習できる。

ディープラーニングの世界ではモラベックのパラドクスがよく言われている。子どものできることほど(コンピューターより)難しい。このパラドクスが崩れつつある。第3次AIブームで起こっている技術的な変化のエッセンス。8割方のAIというのは従来のAIを言い換えているだけにすぎないが、エッセンスは3歳児のできることがようやくコンピューターにできるようになってきた。この一点に尽きると思う。

 

 

この3歳児のできることがようやくコンピューターでもできるようになったことによって産業や社会がどう変わっていくか。それを考えていく必要がある。子どもの発達と凄く似ている。見て分かるようになる→体の動かし方がうまくなる→いろんな概念を捉えられる。こうした変化が大体2030年くらいまでに起きる。おおむね予想通りに進展している。

「言葉の意味理解」は言葉から画像や映像を生成すること。つまり言葉を聞いて思い浮かべること。逆に画像や映像から言葉を生成する。思い描いたことを言葉に直す。言葉と画像の相互変換ができる。

絵を介した翻訳なら意味が分かって訳している。意訳だ。こうした翻訳ができてくると日本の通訳の方と近い、ほとんど変わらないレベルでの翻訳が10年から15年くらいで実現できるのではないか。3~5年で出来る可能性もある。

この自動翻訳ができるようになれば、日本経済・社会にとって相当大きな変化があるはずだ。日本人全体が世界の情報にほとんど障がいなく触れることができる。言葉の壁で損していることが多いと思うので、相当プラスになるのではないか。教育、メディア、金融なのはそれまでに本質的な競争力を確保しておく必要がある。

「パターンの空間の処理」(写っているのは何かを見る、次に何が起こるのか)が全くできていないかった。従来のAIでは全然できていなかった。ぽっかり空いていた。ここを埋めるのがディープラーニングの技術だった。従来のディープラーニングは「パターンの空間の処理」ができていなかったにもかかわらず、無理矢理記号の空間を扱おうとしていた。うまくいくわけがなかった。

 

 

これまでお話したことを一言で言うと、『眼の誕生』(アンドリュー・パーカー著)。地球ができて46億年くらい経つが、5億4200万年前から5億3000万年前の地球の歴史の上では非常に短期間に突如として今日見られる動物の「門」(種)が出そろった現象。古代生物学者アンドリュー・パーカーは、「眼の誕生」がその原因だったとの説を提案している。これを「カンブリア爆発」と呼んでいる。

なぜこんな短期間に生物の多様性が急激に上がったのか。諸説あるが、パーカーは10年前に「眼ができたから」と言った。非常に高度な眼を持つ三葉虫が現れた。それまでの生物は基本的には眼がなかった。ぶつかると食べるとかぶつかれると逃げるという非常に緩慢な動きしかできなかった。

しかし、三葉虫が現れると遠くから見えるので、遠くから見つけて近づいていって食べられる。捕食確率がめちゃめちゃ上がって生存上すごいことになった。大繁栄した。

逃げる方も見つかったらやばいと思って早く泳ぐ。隠れるとか擬態するいろんな戦略が出てきた。つまり生物が眼を持つことによって生存戦略が多様化し、それによって種が多様化したと言う。

それと全く同じことが機械とかロボットで起こるのではないかと思っている。機械・ロボットの「カンブリア爆発」が起こる。今間ので機械やロボットは眼が見えていなかった。無理矢理いろんな作業をさせていた。

 

 

眼が見えることによって、いろんな作業が可能になる。それを非常に巨大な新しい機械やロボットのカテゴリーの製品群が今後出てくる。ここを日本がとれるかどうか。日本産業がこれからの20年、30年を考えていく上でめちゃくちゃ大きな分水嶺になるんじゃないか。この「眼を持った機械」のカテゴリーを日本が作ることができれば、これは間違いなくすごく経済成長できる。ここが取れないと多分、情報系で勝つことは二度とないと思う。

眼と言っても、網膜はイメージセンサー。人間の場合も網膜と脳の後ろにある視覚野とが連合して動くことによってモノが見えている。この視覚野に当たるのがディープラーニングだ。カメラ(イメージセンサー)とディープラーニングを組み合わせることによって初めて機械に眼が見えることになる。

眼が見えるようになると何が出来るかというと、人手がかかってしようがないことができる。農業、建設、食品加工を挙げている。トマト収穫ロボットはない。なぜか。どこにあるのか見えなかったからだ。後はもぐような手があれば、収穫ロボットを作れる。根こそぎ取る系はOKだが、見て取らないといけないトマトやキュウリやリンゴ、桃といった果樹は無理。間引きもできていない。眼がないとできないので人がやるしかない。

建設現場も同様だ。居酒屋の厨房では人がやっているが、それは人手を掛けるしか方法がない。ジャガイモの形も1個1個違うので、認識できない限り、自動化できない。人がやるしかない。外食産業に大きな変化が起きる。

ジョフ・ペゾフ氏は「本」から入ったが、農業や食品加工における「本」とは何か。農業ならトマト収穫ロボット、建設は自動溶接、食品加工はお皿を食洗機に入れる作業だ。

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください