1 00:00:02,366 --> 00:00:06,104 まずこのビデオを ご覧ください 2 00:00:06,104 --> 00:00:10,260 (女の子の声) ネコがベッドに座ってる 3 00:00:10,260 --> 00:00:14,300 男の子が象をなでてる 4 00:00:14,300 --> 00:00:18,234 飛行機へ行く人たち 5 00:00:18,234 --> 00:00:21,284 大きな飛行機よ 6 00:00:21,284 --> 00:00:23,670 (講演者) これは3歳児が 7 00:00:23,670 --> 00:00:27,349 見た写真を 説明しているところです 8 00:00:27,349 --> 00:00:30,644 彼女にはこの世界で学ぶことが まだまだあるかもしれませんが 9 00:00:30,644 --> 00:00:34,743 ひとつの重要な作業については すでにエキスパートです 10 00:00:34,743 --> 00:00:37,589 見たものを理解する ということです 11 00:00:38,229 --> 00:00:42,455 私たちの社会は技術的に かつてなく進歩しています 12 00:00:42,455 --> 00:00:46,084 月へと人を送り込み 人に話しかける電話を作り 13 00:00:46,084 --> 00:00:51,030 自分の好きな曲だけがかかるように ラジオをカスタマイズしています 14 00:00:51,030 --> 00:00:55,085 しかしながら最先端の コンピュータでも 15 00:00:55,085 --> 00:00:57,988 まだこの作業には 手こずっているんです 16 00:00:57,988 --> 00:01:01,447 私は今日コンピュータビジョンの 17 00:01:01,447 --> 00:01:05,494 最新動向について お伝えするために来ました 18 00:01:05,494 --> 00:01:09,655 これはコンピュータサイエンスの中でも 先端にあって 19 00:01:09,655 --> 00:01:12,861 画期的なものになる 可能性のある技術です 20 00:01:12,861 --> 00:01:17,412 自分で運転する車の プロトタイプが作られていますが 21 00:01:17,412 --> 00:01:21,265 知的な視覚処理能力がなかったら 22 00:01:21,265 --> 00:01:25,235 踏みつぶしても問題のない 道路上の丸めた紙袋と 23 00:01:25,235 --> 00:01:28,855 避けて通るべき同じ大きさの石とを 見分けることもできません 24 00:01:29,415 --> 00:01:32,805 すごいメガピクセルの カメラが作られていますが 25 00:01:32,805 --> 00:01:36,300 盲目の人に視力を与えることは できていません 26 00:01:36,420 --> 00:01:39,725 無人機を広大な土地の上に 飛ばすことはできても 27 00:01:39,725 --> 00:01:42,789 熱帯雨林の変化を 追跡できるだけの 28 00:01:42,789 --> 00:01:45,320 画像技術はまだありません 29 00:01:45,320 --> 00:01:48,270 監視カメラが至る所に 設置されていますが 30 00:01:48,270 --> 00:01:53,337 プールで溺れている子がいても 警告してはくれません 31 00:01:54,167 --> 00:01:59,552 写真やビデオは世界において 生活に不可欠な一部をなしています 32 00:01:59,552 --> 00:02:03,849 どんな個人であれ チームであれ 見切れないほどのペースで 33 00:02:03,849 --> 00:02:06,632 映像が量産されています 34 00:02:06,632 --> 00:02:10,553 そして私たちも ここTEDで それに貢献しています 35 00:02:10,553 --> 00:02:13,725 しかし最も進んだ ソフトウェアでさえ 36 00:02:13,725 --> 00:02:19,661 この膨大な映像を理解し管理するのに 手こずっています 37 00:02:19,661 --> 00:02:21,553 言ってみれば 38 00:02:21,553 --> 00:02:24,959 私たちの社会は 集合的に盲目であり 39 00:02:24,959 --> 00:02:30,066 それは最も知的な機械が いまだ盲目だからです 40 00:02:31,336 --> 00:02:34,452 なぜそんなに難しいのかと 思うかもしれません 41 00:02:34,452 --> 00:02:37,005 カメラはこのような写真を撮って 42 00:02:37,005 --> 00:02:39,219 光をピクセルと呼ばれる 43 00:02:39,219 --> 00:02:42,789 数字の2次元配列へと 変換しますが 44 00:02:42,789 --> 00:02:45,040 これは死んだ数字の列に 過ぎません 45 00:02:45,040 --> 00:02:47,981 数字自体に意味はありません 46 00:02:47,981 --> 00:02:52,494 単に音が耳に入ってくるのと 「聴く」のとは違うように 47 00:02:52,494 --> 00:02:56,534 「写真を撮る」のと「見る」のとは 同じではありません 48 00:02:56,534 --> 00:03:00,363 「見る」ということには 理解することが含まれているのです 49 00:03:01,293 --> 00:03:04,150 実際この仕事を 成し遂げられるようにするために 50 00:03:04,150 --> 00:03:09,443 母なる自然は 5億4千万年という 長い歳月を必要としたのです 51 00:03:09,443 --> 00:03:11,324 そしてその努力の多くは 52 00:03:11,324 --> 00:03:14,255 目そのものではなく 53 00:03:14,255 --> 00:03:19,242 脳の視覚処理能力を発達させるために 費やされました 54 00:03:19,242 --> 00:03:21,989 視覚というのは 目から始まりますが 55 00:03:21,989 --> 00:03:25,507 それが本当に起きているのは 脳の中なのです 56 00:03:26,287 --> 00:03:30,527 これまで15年間 カリフォルニア工科大学の博士課程の頃から 57 00:03:30,527 --> 00:03:34,463 スタンフォード大でコンピュータビジョン研究室を 率いている今に到るまで 58 00:03:34,463 --> 00:03:38,669 私は指導教官や共同研究者や 学生達とともに 59 00:03:38,669 --> 00:03:41,758 コンピュータに見ることを 教えようとしてきました 60 00:03:42,658 --> 00:03:45,952 私たちの研究領域は コンピュータビジョンと機械学習で 61 00:03:45,952 --> 00:03:49,830 これは人工知能の分野の一部です 62 00:03:51,000 --> 00:03:56,493 最終的に私たちがしたいのは 機械も人間のようにものを見られるようにすることです 63 00:03:56,493 --> 00:04:01,880 物が何か言い当て 人を識別し 3次元的な配置を推量し 64 00:04:01,880 --> 00:04:07,568 関係や感情や行動や意図を 理解するということです 65 00:04:07,568 --> 00:04:10,571 私たち人間は一目見ただけで 66 00:04:10,571 --> 00:04:15,885 人 場所 物の織りなす物語全体を 捉えることができます 67 00:04:16,954 --> 00:04:19,738 この目標に向けた第一歩は 68 00:04:19,738 --> 00:04:25,906 コンピュータに視覚世界の構成要素である物を 見られるようにすることです 69 00:04:25,906 --> 00:04:27,860 簡単に言うと 70 00:04:27,860 --> 00:04:30,705 ネコのような特定の物の 71 00:04:30,705 --> 00:04:36,756 訓練用画像を コンピュータに与えて 72 00:04:36,756 --> 00:04:41,393 それらの画像から学習する モデルを設計するんです 73 00:04:41,393 --> 00:04:43,437 簡単そうに聞こえますよね? 74 00:04:43,437 --> 00:04:47,489 ネコの画像は色と形の 集まりに過ぎません 75 00:04:47,489 --> 00:04:51,575 これは初期のオブジェクト・モデリングで 私たちがやっていたことでした 76 00:04:51,575 --> 00:04:55,197 数学的な言語を使って コンピュータアルゴリズムに 77 00:04:55,197 --> 00:04:58,540 ネコには 丸い顔と ぽっちゃりした体と 78 00:04:58,540 --> 00:05:00,839 2つのとがった耳と 長いしっぽがあると教え 79 00:05:00,839 --> 00:05:02,429 それでうまくいきそうでした 80 00:05:02,859 --> 00:05:04,972 でもこのネコはどうでしょう? 81 00:05:04,972 --> 00:05:06,063 (笑) 82 00:05:06,063 --> 00:05:07,689 体がすっかり反り返っています 83 00:05:07,689 --> 00:05:12,408 オブジェクトモデルに新しい形と視点を 追加する必要があります 84 00:05:12,408 --> 00:05:14,383 でもネコが一部隠れていたら どうでしょう? 85 00:05:15,143 --> 00:05:17,362 このおかしなネコたちはどうでしょう? 86 00:05:19,112 --> 00:05:21,529 言いたいこと分かりますよね? 87 00:05:21,529 --> 00:05:24,896 身近なペットのネコという シンプルなものでさえ 88 00:05:24,896 --> 00:05:29,060 オブジェクトモデルに 無数のバリエーションを定義する必要があり 89 00:05:29,060 --> 00:05:31,863 しかもこれは沢山あるものの 1つに過ぎないんです 90 00:05:32,573 --> 00:05:35,065 8年ほど前 91 00:05:35,065 --> 00:05:40,095 とてもシンプルながら本質的なある観察が 私の考え方を変えました 92 00:05:41,425 --> 00:05:43,820 子供は教えられなくても 93 00:05:43,820 --> 00:05:46,711 成長の初期に ものの見方を身に付けるということです 94 00:05:46,711 --> 00:05:51,371 子供は現実の世界における 経験と例を通して学ぶのです 95 00:05:51,371 --> 00:05:53,831 子供の目が 生きたカメラで 96 00:05:53,831 --> 00:05:56,665 200ミリ秒ごとに1枚 97 00:05:56,665 --> 00:06:00,845 写真を撮っていると 考えてみましょう 98 00:06:00,845 --> 00:06:03,979 これは目が動く 平均時間です 99 00:06:03,979 --> 00:06:07,509 すると子供は3歳になるまでに 何億枚という 100 00:06:07,509 --> 00:06:11,143 現実世界の写真を 見ていることになります 101 00:06:11,143 --> 00:06:13,643 膨大な量の訓練例です 102 00:06:14,383 --> 00:06:20,372 それで気が付いたのは アルゴリズムの改良ばかりに集中するのではなく 103 00:06:20,372 --> 00:06:25,644 子供が経験を通じて 受け取るような 104 00:06:25,644 --> 00:06:28,963 量と質の訓練データを 105 00:06:28,963 --> 00:06:32,841 アルゴリズムに与えてはどうか ということでした 106 00:06:32,841 --> 00:06:34,699 このことに気付いた時 107 00:06:34,699 --> 00:06:37,670 私たちが持っているよりも 遙かに多くの画像データを 108 00:06:37,670 --> 00:06:42,129 集めなければならないことが 明らかでした 109 00:06:42,129 --> 00:06:44,706 何千倍も必要です 110 00:06:44,706 --> 00:06:48,817 それで私はプリンストン大学の カイ・リー教授と一緒に 111 00:06:48,817 --> 00:06:53,569 2007年にImageNetプロジェクトを 立ち上げました 112 00:06:53,569 --> 00:06:57,067 幸い私たちは 頭にカメラを付けて 113 00:06:57,067 --> 00:06:59,171 何年も歩き回る必要は ありませんでした 114 00:06:59,171 --> 00:07:02,334 人類がかつて作った 最大の画像の宝庫 115 00:07:02,334 --> 00:07:05,070 インターネットに 向かったのです 116 00:07:05,070 --> 00:07:08,111 私たちは10億枚近い画像を ダウンロードし 117 00:07:08,111 --> 00:07:13,991 アマゾン・メカニカル・タークのような クラウドソーシング技術を使って 118 00:07:13,991 --> 00:07:16,330 それらの画像に ラベル付けをしました 119 00:07:16,330 --> 00:07:21,230 最盛期にはImageNetは アマゾン・メカニカル・ターク作業者の 120 00:07:21,230 --> 00:07:24,226 最大の雇用者の1つに なっていました 121 00:07:24,226 --> 00:07:28,080 167カ国の 122 00:07:28,080 --> 00:07:32,120 5万人近い作業者が 123 00:07:32,120 --> 00:07:36,067 10億枚近い画像を 整理しラベル付けする作業に 124 00:07:36,067 --> 00:07:39,642 携わりました 125 00:07:40,612 --> 00:07:43,265 子供がその成長の初期に 受け取るのに 126 00:07:43,265 --> 00:07:47,165 匹敵する量の画像を 用意するためには 127 00:07:47,165 --> 00:07:51,336 それほどの労力が 必要だったのです 128 00:07:52,148 --> 00:07:56,050 コンピュータアルゴリズムの訓練に ビッグデータを使うというアイデアは 129 00:07:56,050 --> 00:08:00,600 今からすると 自明なものに見えるでしょうが 130 00:08:00,600 --> 00:08:04,710 2007年当時は そうではありませんでした 131 00:08:04,710 --> 00:08:08,588 かなり長い間 こんなことをやっている人は 私たち以外にいませんでした 132 00:08:08,588 --> 00:08:13,871 親切な同僚が将来の職のためにもう少し有用なことを した方がいいとアドバイスしてくれたくらいです 133 00:08:13,871 --> 00:08:17,793 研究資金には いつも困っていました 134 00:08:17,793 --> 00:08:21,818 ImageNetの資金調達のために クリーニング屋をまた開こうかしらと 135 00:08:21,818 --> 00:08:24,481 学生に冗談で言ったくらいです 136 00:08:24,481 --> 00:08:29,032 私が学生の頃 学費のために やっていたことです 137 00:08:29,032 --> 00:08:31,098 私たちは進み続け 138 00:08:31,098 --> 00:08:34,813 2009年に ImageNetプロジェクトは 139 00:08:34,813 --> 00:08:38,855 日常的な英語を使って 2万2千のカテゴリに分類した 140 00:08:38,855 --> 00:08:43,659 1500万枚の画像の データベースを 141 00:08:43,659 --> 00:08:46,980 完成させました 142 00:08:46,980 --> 00:08:49,906 これは量という点でも 質という点でも 143 00:08:49,906 --> 00:08:52,878 かつてないスケールのものでした 144 00:08:52,878 --> 00:08:55,109 一例を挙げると 145 00:08:55,109 --> 00:08:59,148 ネコの画像は 6万2千点以上あって 146 00:08:59,148 --> 00:09:03,258 様々な見かけや ポーズのネコがいて 147 00:09:03,258 --> 00:09:08,481 飼い猫から山猫まで あらゆる種類を網羅しています 148 00:09:08,481 --> 00:09:11,825 私たちはImageNetが できあがったことを喜び 149 00:09:11,825 --> 00:09:15,563 世界の研究者にも その恩恵を受けて欲しいと思い 150 00:09:15,563 --> 00:09:19,604 TEDの流儀で データセットをまるごと 151 00:09:19,604 --> 00:09:23,316 無償で世界の研究者コミュニティに 公開しました 152 00:09:23,316 --> 00:09:28,116 (拍手) 153 00:09:29,416 --> 00:09:33,954 こうしてコンピュータの脳を 育てるためのデータができ 154 00:09:33,954 --> 00:09:37,691 アルゴリズムに取り組む 用意が整いました 155 00:09:37,691 --> 00:09:42,869 それで分かったのは ImageNetが提供する豊かな情報に適した 156 00:09:42,869 --> 00:09:47,675 機械学習アルゴリズムがあることです 157 00:09:47,675 --> 00:09:50,090 畳み込みニューラルネットワークと言って 158 00:09:50,090 --> 00:09:55,338 福島邦彦 ジェフリー・ヒントン ヤン・ルカンといった人たちが 159 00:09:55,338 --> 00:09:58,983 1970年代から1980年代にかけて 開拓した領域です 160 00:09:58,983 --> 00:10:04,602 脳が何十億という高度に結合し合った ニューロンからできているように 161 00:10:04,602 --> 00:10:08,456 ニューラルネットワークの 基本要素となっているのは 162 00:10:08,456 --> 00:10:10,871 ニューロンのようなノードです 163 00:10:10,871 --> 00:10:13,425 他のノードからの入力を受けて 164 00:10:13,425 --> 00:10:16,143 他のノードへ出力を渡します 165 00:10:16,143 --> 00:10:20,856 何十万 何百万という このようなノードが 166 00:10:20,856 --> 00:10:23,753 これも脳と同様に 167 00:10:23,753 --> 00:10:26,637 階層的に組織化されています 168 00:10:26,637 --> 00:10:31,900 物を認識するモデルを訓練するために 私たちが通常使うニューラルネットワークには 169 00:10:31,900 --> 00:10:34,601 2千4百万のノード 170 00:10:34,601 --> 00:10:37,488 1億4千万のパラメータ 171 00:10:37,488 --> 00:10:40,461 150億の結合があります 172 00:10:40,461 --> 00:10:43,076 ものすごく大きなモデルです 173 00:10:43,076 --> 00:10:46,977 ImageNetの膨大なデータと 174 00:10:46,977 --> 00:10:52,410 現代のCPUやGPUの性能を使って このような巨大なモデルを訓練することで 175 00:10:52,410 --> 00:10:54,779 畳み込みニューラルネットワークは 176 00:10:54,779 --> 00:10:58,215 誰も予想しなかったくらいに 大きく花開きました 177 00:10:58,215 --> 00:11:01,503 これは物の認識において 目覚ましい結果を出す 178 00:11:01,503 --> 00:11:06,063 大当たりのアーキテクチャとなっています 179 00:11:06,063 --> 00:11:08,873 ここではコンピュータが 180 00:11:08,873 --> 00:11:11,173 写真の中にネコがいることと 181 00:11:11,173 --> 00:11:13,076 その場所を示しています 182 00:11:13,076 --> 00:11:15,188 もちろんネコ以外のものも 認識できます 183 00:11:15,188 --> 00:11:17,626 こちらではコンピュータアルゴリズムが 184 00:11:17,626 --> 00:11:20,900 写真の中に男の子とテディベアが 写っていることを教えています 185 00:11:20,900 --> 00:11:25,266 犬と 人物と 後方に小さな凧が あることを示しています 186 00:11:25,266 --> 00:11:28,401 とても沢山のものが 写った写真から 187 00:11:28,401 --> 00:11:33,045 男性 スケートボード 手すり 街灯などを見分けています 188 00:11:33,045 --> 00:11:38,338 写っているものが何なのか コンピュータが そんなに自信を持てない場合もあります [動物] 189 00:11:39,498 --> 00:11:41,774 コンピュータには 当て推量をするよりは 190 00:11:41,774 --> 00:11:45,652 確かなところを答えるよう 教えています 191 00:11:45,652 --> 00:11:48,463 ちょうど私たち自身がするように 192 00:11:48,463 --> 00:11:53,129 一方で何が写っているかについて コンピュータアルゴリズムが 193 00:11:53,129 --> 00:11:55,382 驚くほど正確に 言い当てることもあります 194 00:11:55,382 --> 00:11:58,818 たとえば自動車の車種や モデルや年式のような 195 00:11:58,818 --> 00:12:04,204 このアルゴリズムを アメリカの数百都市の 196 00:12:04,204 --> 00:12:07,339 何百万という Googleストリートビュー画像に適用した結果 197 00:12:07,339 --> 00:12:10,265 面白い発見がありました 198 00:12:10,265 --> 00:12:13,345 まず 車の値段は 199 00:12:13,345 --> 00:12:16,875 家計収入とよく相関しているという 200 00:12:16,875 --> 00:12:19,220 予想が裏付けられました 201 00:12:19,220 --> 00:12:22,737 でも驚いたことに 車の値段は 202 00:12:22,737 --> 00:12:26,047 街の犯罪率とも よく相関していたんです 203 00:12:26,827 --> 00:12:30,970 それはまた郵便番号区域ごとの 投票傾向とも相関しています 204 00:12:32,060 --> 00:12:34,266 それでは コンピュータは 205 00:12:34,266 --> 00:12:39,419 既に人間の能力に追いつき 追い越しているのでしょうか? 206 00:12:39,419 --> 00:12:41,557 結論を急がないで 207 00:12:41,557 --> 00:12:46,480 これまでのところ 私たちは コンピュータに物の見方を教えただけです 208 00:12:46,480 --> 00:12:51,124 小さな子供が名詞をいくつか 言えるようになったようなものです 209 00:12:51,124 --> 00:12:53,794 ものすごい成果ですが 210 00:12:53,794 --> 00:12:56,254 まだ第一歩にすぎず 211 00:12:56,254 --> 00:13:00,016 次の開発目標があります 212 00:13:00,016 --> 00:13:03,477 子供は文章でコミュニケーションを するようになります 213 00:13:03,477 --> 00:13:07,701 だから写真を見て小さな女の子が 単にネコと言わずに 214 00:13:07,701 --> 00:13:12,903 ネコがベッドに座っていると 言うのを聞いたわけです 215 00:13:12,903 --> 00:13:18,498 コンピュータが写真を見て 文章を作れるよう教えるために 216 00:13:18,498 --> 00:13:22,446 このビッグデータと 機械学習の結びつきが 217 00:13:22,446 --> 00:13:24,721 新たなステップを 踏む必要があります 218 00:13:24,721 --> 00:13:28,877 コンピュータは 写真だけでなく 219 00:13:28,877 --> 00:13:31,733 人が発する自然言語の文章も 220 00:13:31,733 --> 00:13:35,055 学ぶ必要があります 221 00:13:35,055 --> 00:13:38,908 脳が視覚と言語を 結びつけるように 222 00:13:38,908 --> 00:13:44,109 画像の断片のような 視覚的なものの一部と 223 00:13:44,109 --> 00:13:48,073 文章の中の単語やフレーズを 繋ぎ合わせるモデルを 224 00:13:48,073 --> 00:13:50,216 私たちは開発しました 225 00:13:50,216 --> 00:13:52,979 4ヶ月ほど前 226 00:13:52,979 --> 00:13:55,626 ついに私たちは すべてをまとめ 227 00:13:55,626 --> 00:13:58,940 初めて見た写真について 228 00:13:58,940 --> 00:14:03,404 人が書いたような 記述文を生成できる 229 00:14:03,404 --> 00:14:06,910 最初のコンピュータ・ビジョン・ モデルを作り上げました 230 00:14:06,910 --> 00:14:11,554 冒頭で小さな女の子が説明したのと 同じ写真を見て 231 00:14:11,554 --> 00:14:13,529 そのコンピュータが何と言ったか 232 00:14:13,529 --> 00:14:17,359 お見せしましょう 233 00:14:19,049 --> 00:14:22,863 「ゾウの横に立っている男」 234 00:14:24,393 --> 00:14:28,027 「空港の滑走路にいる大きな飛行機」 235 00:14:29,057 --> 00:14:33,269 私たちは今もアルゴリズムを改良しようと 熱心に取り組んでいて 236 00:14:33,269 --> 00:14:35,865 学ぶべきことは まだまだあります 237 00:14:35,865 --> 00:14:38,156 (拍手) 238 00:14:39,556 --> 00:14:42,877 コンピュータは まだ間違いを犯します 239 00:14:42,877 --> 00:14:46,268 「ベッドの上の毛布の中のネコ」 240 00:14:46,268 --> 00:14:48,821 ネコを沢山見過ぎたせいで 241 00:14:48,821 --> 00:14:51,747 何でもネコみたいに 見えるのかもしれません 242 00:14:53,317 --> 00:14:56,181 「野球バットを持つ小さな男の子」 243 00:14:56,181 --> 00:14:57,946 (笑) 244 00:14:57,946 --> 00:15:02,529 歯ブラシを見たことがないと 野球バットと混同してしまいます 245 00:15:03,309 --> 00:15:06,743 「建物脇の道を馬に乗って行く男」 246 00:15:06,743 --> 00:15:08,766 (笑) 247 00:15:08,766 --> 00:15:12,318 美術はまだコンピュータに 教えていませんでした 248 00:15:13,768 --> 00:15:16,652 「草原に立つシマウマ」 249 00:15:16,652 --> 00:15:20,019 私たちのように 自然の美を慈しむことは 250 00:15:20,019 --> 00:15:22,457 まだ学んでいません 251 00:15:22,457 --> 00:15:25,289 長い道のりでした 252 00:15:25,289 --> 00:15:29,515 0歳から3歳まで行くのは 大変でした 253 00:15:29,515 --> 00:15:35,111 でも本当の挑戦は3歳から13歳 さらにその先へと行くことです 254 00:15:35,111 --> 00:15:39,476 あの男の子とケーキの写真を もう一度見てみましょう 255 00:15:39,476 --> 00:15:43,540 私たちはコンピュータに 物を識別することを教え 256 00:15:43,540 --> 00:15:47,998 写真を簡単に説明することさえ 教えました 257 00:15:47,998 --> 00:15:51,574 「ケーキのあるテーブルにつく人」 258 00:15:51,574 --> 00:15:54,204 しかしこの写真には 単に人とケーキというよりも 259 00:15:54,204 --> 00:15:56,474 遙かに多くのものがあります 260 00:15:56,474 --> 00:16:00,941 コンピュータが見なかったのは このケーキが特別なイタリアのケーキで 261 00:16:00,941 --> 00:16:04,158 イースターの時に 食べるものだということです 262 00:16:04,158 --> 00:16:07,363 男の子が着ているのは お気に入りのTシャツで 263 00:16:07,363 --> 00:16:11,333 お父さんがシドニー旅行の おみやげにくれたものだということ 264 00:16:11,333 --> 00:16:15,141 私たちはみんな この男の子がどんなに喜んでいるか 265 00:16:15,141 --> 00:16:18,344 何を思っているかが分かります 266 00:16:19,214 --> 00:16:22,339 これは息子のレオです 267 00:16:22,339 --> 00:16:24,963 視覚的な知性を 追い求める探求の中で 268 00:16:24,963 --> 00:16:27,354 私はいつもレオのことや 269 00:16:27,354 --> 00:16:30,257 レオが住むであろう 未来の世界のことを考えています 270 00:16:30,257 --> 00:16:32,278 機械に見ることが できるようになれば 271 00:16:32,278 --> 00:16:36,990 医師や看護師は疲れを知らない 別の目を手に入れて 272 00:16:36,990 --> 00:16:41,082 患者の診断や世話に 役立てられるでしょう 273 00:16:41,082 --> 00:16:45,465 自動車は道路をより賢明に 安全に走行するようになるでしょう 274 00:16:45,465 --> 00:16:48,159 人間だけでなくロボットも 275 00:16:48,159 --> 00:16:53,008 災害地域に取り残され負傷した人々を救出する 手助けができるようになるでしょう 276 00:16:53,798 --> 00:16:58,164 私たちは機械の助けを借りて 新種の生物やより優れた素材を発見し 277 00:16:58,164 --> 00:17:02,103 未だ見ぬフロンティアを 探検するようになるでしょう 278 00:17:03,113 --> 00:17:07,280 私たちは少しずつ機械に 視覚を与えています 279 00:17:07,280 --> 00:17:09,617 最初に私たちが 機械に見ることを教え 280 00:17:09,617 --> 00:17:13,358 それから機械が より良く見られるよう 私たちを助けてくれることでしょう 281 00:17:13,358 --> 00:17:17,006 歴史上初めて 人間以外の目が 282 00:17:17,006 --> 00:17:19,940 世界について考察し 探求するようになるのです 283 00:17:19,940 --> 00:17:23,400 私たちは機械の知性を 利用するだけでなく 284 00:17:23,400 --> 00:17:29,579 想像もできないような方法で 機械と人間が協力し合うようになるでしょう 285 00:17:29,579 --> 00:17:31,740 私が追い求めているのは 286 00:17:31,740 --> 00:17:34,452 コンピュータに視覚的な知性を与え 287 00:17:34,452 --> 00:17:39,583 レオや世界のために より良い未来を作り出すということです 288 00:17:39,583 --> 00:17:41,394 ありがとうございました 289 00:17:41,394 --> 00:17:45,179 (拍手)