まずこのビデオを
ご覧ください
(女の子の声) ネコがベッドに座ってる
男の子が象をなでてる
飛行機へ行く人たち
大きな飛行機よ
(講演者) これは3歳児が
見た写真を
説明しているところです
彼女にはこの世界で学ぶことが
まだまだあるかもしれませんが
ひとつの重要な作業については
すでにエキスパートです
見たものを理解する
ということです
私たちの社会は技術的に
かつてなく進歩しています
月へと人を送り込み
人に話しかける電話を作り
自分の好きな曲だけがかかるように
ラジオをカスタマイズしています
しかしながら最先端の
コンピュータでも
まだこの作業には
手こずっているんです
私は今日コンピュータビジョンの
最新動向について
お伝えするために来ました
これはコンピュータサイエンスの中でも
先端にあって
画期的なものになる
可能性のある技術です
自分で運転する車の
プロトタイプが作られていますが
知的な視覚処理能力がなかったら
踏みつぶしても問題のない
道路上の丸めた紙袋と
避けて通るべき同じ大きさの石とを
見分けることもできません
すごいメガピクセルの
カメラが作られていますが
盲目の人に視力を与えることは
できていません
無人機を広大な土地の上に
飛ばすことはできても
熱帯雨林の変化を
追跡できるだけの
画像技術はまだありません
監視カメラが至る所に
設置されていますが
プールで溺れている子がいても
警告してはくれません
写真やビデオは世界において
生活に不可欠な一部をなしています
どんな個人であれ チームであれ
見切れないほどのペースで
映像が量産されています
そして私たちも ここTEDで
それに貢献しています
しかし最も進んだ
ソフトウェアでさえ
この膨大な映像を理解し管理するのに
手こずっています
言ってみれば
私たちの社会は
集合的に盲目であり
それは最も知的な機械が
いまだ盲目だからです
なぜそんなに難しいのかと
思うかもしれません
カメラはこのような写真を撮って
光をピクセルと呼ばれる
数字の2次元配列へと
変換しますが
これは死んだ数字の列に
過ぎません
数字自体に意味はありません
単に音が耳に入ってくるのと
「聴く」のとは違うように
「写真を撮る」のと「見る」のとは
同じではありません
「見る」ということには
理解することが含まれているのです
実際この仕事を
成し遂げられるようにするために
母なる自然は 5億4千万年という
長い歳月を必要としたのです
そしてその努力の多くは
目そのものではなく
脳の視覚処理能力を発達させるために
費やされました
視覚というのは
目から始まりますが
それが本当に起きているのは
脳の中なのです
これまで15年間
カリフォルニア工科大学の博士課程の頃から
スタンフォード大でコンピュータビジョン研究室を
率いている今に到るまで
私は指導教官や共同研究者や
学生達とともに
コンピュータに見ることを
教えようとしてきました
私たちの研究領域は
コンピュータビジョンと機械学習で
これは人工知能の分野の一部です
最終的に私たちがしたいのは
機械も人間のようにものを見られるようにすることです
物が何か言い当て 人を識別し
3次元的な配置を推量し
関係や感情や行動や意図を
理解するということです
私たち人間は一目見ただけで
人 場所 物の織りなす物語全体を
捉えることができます
この目標に向けた第一歩は
コンピュータに視覚世界の構成要素である物を
見られるようにすることです
簡単に言うと
ネコのような特定の物の
訓練用画像を
コンピュータに与えて
それらの画像から学習する
モデルを設計するんです
簡単そうに聞こえますよね?
ネコの画像は色と形の
集まりに過ぎません
これは初期のオブジェクト・モデリングで
私たちがやっていたことでした
数学的な言語を使って
コンピュータアルゴリズムに
ネコには 丸い顔と
ぽっちゃりした体と
2つのとがった耳と
長いしっぽがあると教え
それでうまくいきそうでした
でもこのネコはどうでしょう?
(笑)
体がすっかり反り返っています
オブジェクトモデルに新しい形と視点を
追加する必要があります
でもネコが一部隠れていたら
どうでしょう?
このおかしなネコたちはどうでしょう?
言いたいこと分かりますよね?
身近なペットのネコという
シンプルなものでさえ
オブジェクトモデルに
無数のバリエーションを定義する必要があり
しかもこれは沢山あるものの
1つに過ぎないんです
8年ほど前
とてもシンプルながら本質的なある観察が
私の考え方を変えました
子供は教えられなくても
成長の初期に
ものの見方を身に付けるということです
子供は現実の世界における
経験と例を通して学ぶのです
子供の目が
生きたカメラで
200ミリ秒ごとに1枚
写真を撮っていると
考えてみましょう
これは目が動く
平均時間です
すると子供は3歳になるまでに
何億枚という
現実世界の写真を
見ていることになります
膨大な量の訓練例です
それで気が付いたのは
アルゴリズムの改良ばかりに集中するのではなく
子供が経験を通じて
受け取るような
量と質の訓練データを
アルゴリズムに与えてはどうか
ということでした
このことに気付いた時
私たちが持っているよりも
遙かに多くの画像データを
集めなければならないことが
明らかでした
何千倍も必要です
それで私はプリンストン大学の
カイ・リー教授と一緒に
2007年にImageNetプロジェクトを
立ち上げました
幸い私たちは
頭にカメラを付けて
何年も歩き回る必要は
ありませんでした
人類がかつて作った
最大の画像の宝庫
インターネットに
向かったのです
私たちは10億枚近い画像を
ダウンロードし
アマゾン・メカニカル・タークのような
クラウドソーシング技術を使って
それらの画像に
ラベル付けをしました
最盛期にはImageNetは
アマゾン・メカニカル・ターク作業者の
最大の雇用者の1つに
なっていました
167カ国の
5万人近い作業者が
10億枚近い画像を
整理しラベル付けする作業に
携わりました
子供がその成長の初期に
受け取るのに
匹敵する量の画像を
用意するためには
それほどの労力が
必要だったのです
コンピュータアルゴリズムの訓練に
ビッグデータを使うというアイデアは
今からすると
自明なものに見えるでしょうが
2007年当時は
そうではありませんでした
かなり長い間 こんなことをやっている人は
私たち以外にいませんでした
親切な同僚が将来の職のためにもう少し有用なことを
した方がいいとアドバイスしてくれたくらいです
研究資金には
いつも困っていました
ImageNetの資金調達のために
クリーニング屋をまた開こうかしらと
学生に冗談で言ったくらいです
私が学生の頃 学費のために
やっていたことです
私たちは進み続け
2009年に
ImageNetプロジェクトは
日常的な英語を使って
2万2千のカテゴリに分類した
1500万枚の画像の
データベースを
完成させました
これは量という点でも
質という点でも
かつてないスケールのものでした
一例を挙げると
ネコの画像は
6万2千点以上あって
様々な見かけや
ポーズのネコがいて
飼い猫から山猫まで
あらゆる種類を網羅しています
私たちはImageNetが
できあがったことを喜び
世界の研究者にも
その恩恵を受けて欲しいと思い
TEDの流儀で
データセットをまるごと
無償で世界の研究者コミュニティに
公開しました
(拍手)
こうしてコンピュータの脳を
育てるためのデータができ
アルゴリズムに取り組む
用意が整いました
それで分かったのは
ImageNetが提供する豊かな情報に適した
機械学習アルゴリズムがあることです
畳み込みニューラルネットワークと言って
福島邦彦 ジェフリー・ヒントン
ヤン・ルカンといった人たちが
1970年代から1980年代にかけて
開拓した領域です
脳が何十億という高度に結合し合った
ニューロンからできているように
ニューラルネットワークの
基本要素となっているのは
ニューロンのようなノードです
他のノードからの入力を受けて
他のノードへ出力を渡します
何十万 何百万という
このようなノードが
これも脳と同様に
階層的に組織化されています
物を認識するモデルを訓練するために
私たちが通常使うニューラルネットワークには
2千4百万のノード
1億4千万のパラメータ
150億の結合があります
ものすごく大きなモデルです
ImageNetの膨大なデータと
現代のCPUやGPUの性能を使って
このような巨大なモデルを訓練することで
畳み込みニューラルネットワークは
誰も予想しなかったくらいに
大きく花開きました
これは物の認識において
目覚ましい結果を出す
大当たりのアーキテクチャとなっています
ここではコンピュータが
写真の中にネコがいることと
その場所を示しています
もちろんネコ以外のものも
認識できます
こちらではコンピュータアルゴリズムが
写真の中に男の子とテディベアが
写っていることを教えています
犬と 人物と 後方に小さな凧が
あることを示しています
とても沢山のものが
写った写真から
男性 スケートボード 手すり
街灯などを見分けています
写っているものが何なのか コンピュータが
そんなに自信を持てない場合もあります [動物]
コンピュータには
当て推量をするよりは
確かなところを答えるよう
教えています
ちょうど私たち自身がするように
一方で何が写っているかについて
コンピュータアルゴリズムが
驚くほど正確に
言い当てることもあります
たとえば自動車の車種や
モデルや年式のような
このアルゴリズムを
アメリカの数百都市の
何百万という
Googleストリートビュー画像に適用した結果
面白い発見がありました
まず 車の値段は
家計収入とよく相関しているという
予想が裏付けられました
でも驚いたことに
車の値段は
街の犯罪率とも
よく相関していたんです
それはまた郵便番号区域ごとの
投票傾向とも相関しています
それでは コンピュータは
既に人間の能力に追いつき
追い越しているのでしょうか?
結論を急がないで
これまでのところ 私たちは
コンピュータに物の見方を教えただけです
小さな子供が名詞をいくつか
言えるようになったようなものです
ものすごい成果ですが
まだ第一歩にすぎず
次の開発目標があります
子供は文章でコミュニケーションを
するようになります
だから写真を見て小さな女の子が
単にネコと言わずに
ネコがベッドに座っていると
言うのを聞いたわけです
コンピュータが写真を見て
文章を作れるよう教えるために
このビッグデータと
機械学習の結びつきが
新たなステップを
踏む必要があります
コンピュータは
写真だけでなく
人が発する自然言語の文章も
学ぶ必要があります
脳が視覚と言語を
結びつけるように
画像の断片のような
視覚的なものの一部と
文章の中の単語やフレーズを
繋ぎ合わせるモデルを
私たちは開発しました
4ヶ月ほど前
ついに私たちは
すべてをまとめ
初めて見た写真について
人が書いたような
記述文を生成できる
最初のコンピュータ・ビジョン・
モデルを作り上げました
冒頭で小さな女の子が説明したのと
同じ写真を見て
そのコンピュータが何と言ったか
お見せしましょう
「ゾウの横に立っている男」
「空港の滑走路にいる大きな飛行機」
私たちは今もアルゴリズムを改良しようと
熱心に取り組んでいて
学ぶべきことは
まだまだあります
(拍手)
コンピュータは
まだ間違いを犯します
「ベッドの上の毛布の中のネコ」
ネコを沢山見過ぎたせいで
何でもネコみたいに
見えるのかもしれません
「野球バットを持つ小さな男の子」
(笑)
歯ブラシを見たことがないと
野球バットと混同してしまいます
「建物脇の道を馬に乗って行く男」
(笑)
美術はまだコンピュータに
教えていませんでした
「草原に立つシマウマ」
私たちのように
自然の美を慈しむことは
まだ学んでいません
長い道のりでした
0歳から3歳まで行くのは
大変でした
でも本当の挑戦は3歳から13歳
さらにその先へと行くことです
あの男の子とケーキの写真を
もう一度見てみましょう
私たちはコンピュータに
物を識別することを教え
写真を簡単に説明することさえ
教えました
「ケーキのあるテーブルにつく人」
しかしこの写真には
単に人とケーキというよりも
遙かに多くのものがあります
コンピュータが見なかったのは
このケーキが特別なイタリアのケーキで
イースターの時に
食べるものだということです
男の子が着ているのは
お気に入りのTシャツで
お父さんがシドニー旅行の
おみやげにくれたものだということ
私たちはみんな
この男の子がどんなに喜んでいるか
何を思っているかが分かります
これは息子のレオです
視覚的な知性を
追い求める探求の中で
私はいつもレオのことや
レオが住むであろう
未来の世界のことを考えています
機械に見ることが
できるようになれば
医師や看護師は疲れを知らない
別の目を手に入れて
患者の診断や世話に
役立てられるでしょう
自動車は道路をより賢明に
安全に走行するようになるでしょう
人間だけでなくロボットも
災害地域に取り残され負傷した人々を救出する
手助けができるようになるでしょう
私たちは機械の助けを借りて
新種の生物やより優れた素材を発見し
未だ見ぬフロンティアを
探検するようになるでしょう
私たちは少しずつ機械に
視覚を与えています
最初に私たちが
機械に見ることを教え
それから機械が より良く見られるよう
私たちを助けてくれることでしょう
歴史上初めて
人間以外の目が
世界について考察し
探求するようになるのです
私たちは機械の知性を
利用するだけでなく
想像もできないような方法で
機械と人間が協力し合うようになるでしょう
私が追い求めているのは
コンピュータに視覚的な知性を与え
レオや世界のために
より良い未来を作り出すということです
ありがとうございました
(拍手)