WEBVTT 00:00:02.366 --> 00:00:06.104 まずこのビデオを ご覧ください NOTE Paragraph 00:00:06.104 --> 00:00:10.260 (女の子の声) ネコがベッドに座ってる 00:00:10.260 --> 00:00:14.300 男の子が象をなでてる 00:00:14.300 --> 00:00:18.234 飛行機へ行く人たち 00:00:18.234 --> 00:00:21.284 大きな飛行機よ NOTE Paragraph 00:00:21.284 --> 00:00:23.670 (講演者) これは3歳児が 00:00:23.670 --> 00:00:27.349 見た写真を 説明しているところです 00:00:27.349 --> 00:00:30.644 彼女にはこの世界で学ぶことが まだまだあるかもしれませんが 00:00:30.644 --> 00:00:34.743 ひとつの重要な作業については すでにエキスパートです 00:00:34.743 --> 00:00:37.589 見たものを理解する ということです 00:00:38.229 --> 00:00:42.455 私たちの社会は技術的に かつてなく進歩しています 00:00:42.455 --> 00:00:46.084 月へと人を送り込み 人に話しかける電話を作り 00:00:46.084 --> 00:00:51.030 自分の好きな曲だけがかかるように ラジオをカスタマイズしています 00:00:51.030 --> 00:00:55.085 しかしながら最先端の コンピュータでも 00:00:55.085 --> 00:00:57.988 まだこの作業には 手こずっているんです 00:00:57.988 --> 00:01:01.447 私は今日コンピュータビジョンの 00:01:01.447 --> 00:01:05.494 最新動向について お伝えするために来ました 00:01:05.494 --> 00:01:09.655 これはコンピュータサイエンスの中でも 先端にあって 00:01:09.655 --> 00:01:12.861 画期的なものになる 可能性のある技術です NOTE Paragraph 00:01:12.861 --> 00:01:17.412 自分で運転する車の プロトタイプが作られていますが 00:01:17.412 --> 00:01:21.265 知的な視覚処理能力がなかったら 00:01:21.265 --> 00:01:25.235 踏みつぶしても問題のない 道路上の丸めた紙袋と 00:01:25.235 --> 00:01:28.855 避けて通るべき同じ大きさの石とを 見分けることもできません 00:01:29.415 --> 00:01:32.805 すごいメガピクセルの カメラが作られていますが 00:01:32.805 --> 00:01:36.300 盲目の人に視力を与えることは できていません 00:01:36.420 --> 00:01:39.725 無人機を広大な土地の上に 飛ばすことはできても 00:01:39.725 --> 00:01:42.789 熱帯雨林の変化を 追跡できるだけの 00:01:42.789 --> 00:01:45.320 画像技術はまだありません 00:01:45.320 --> 00:01:48.270 監視カメラが至る所に 設置されていますが 00:01:48.270 --> 00:01:53.337 プールで溺れている子がいても 警告してはくれません 00:01:54.167 --> 00:01:59.552 写真やビデオは世界において 生活に不可欠な一部をなしています 00:01:59.552 --> 00:02:03.849 どんな個人であれ チームであれ 見切れないほどのペースで 00:02:03.849 --> 00:02:06.632 映像が量産されています 00:02:06.632 --> 00:02:10.553 そして私たちも ここTEDで それに貢献しています 00:02:10.553 --> 00:02:13.725 しかし最も進んだ ソフトウェアでさえ 00:02:13.725 --> 00:02:19.661 この膨大な映像を理解し管理するのに 手こずっています 00:02:19.661 --> 00:02:21.553 言ってみれば 00:02:21.553 --> 00:02:24.959 私たちの社会は 集合的に盲目であり 00:02:24.959 --> 00:02:30.066 それは最も知的な機械が いまだ盲目だからです NOTE Paragraph 00:02:31.336 --> 00:02:34.452 なぜそんなに難しいのかと 思うかもしれません 00:02:34.452 --> 00:02:37.005 カメラはこのような写真を撮って 00:02:37.005 --> 00:02:39.219 光をピクセルと呼ばれる 00:02:39.219 --> 00:02:42.789 数字の2次元配列へと 変換しますが 00:02:42.789 --> 00:02:45.040 これは死んだ数字の列に 過ぎません 00:02:45.040 --> 00:02:47.981 数字自体に意味はありません 00:02:47.981 --> 00:02:52.494 単に音が耳に入ってくるのと 「聴く」のとは違うように 00:02:52.494 --> 00:02:56.534 「写真を撮る」のと「見る」のとは 同じではありません 00:02:56.534 --> 00:03:00.363 「見る」ということには 理解することが含まれているのです 00:03:01.293 --> 00:03:04.150 実際この仕事を 成し遂げられるようにするために 00:03:04.150 --> 00:03:09.443 母なる自然は 5億4千万年という 長い歳月を必要としたのです 00:03:09.443 --> 00:03:11.324 そしてその努力の多くは 00:03:11.324 --> 00:03:14.255 目そのものではなく 00:03:14.255 --> 00:03:19.242 脳の視覚処理能力を発達させるために 費やされました 00:03:19.242 --> 00:03:21.989 視覚というのは 目から始まりますが 00:03:21.989 --> 00:03:25.507 それが本当に起きているのは 脳の中なのです NOTE Paragraph 00:03:26.287 --> 00:03:30.527 これまで15年間 カリフォルニア工科大学の博士課程の頃から 00:03:30.527 --> 00:03:34.463 スタンフォード大でコンピュータビジョン研究室を 率いている今に到るまで 00:03:34.463 --> 00:03:38.669 私は指導教官や共同研究者や 学生達とともに 00:03:38.669 --> 00:03:41.758 コンピュータに見ることを 教えようとしてきました 00:03:42.658 --> 00:03:45.952 私たちの研究領域は コンピュータビジョンと機械学習で 00:03:45.952 --> 00:03:49.830 これは人工知能の分野の一部です 00:03:51.000 --> 00:03:56.493 最終的に私たちがしたいのは 機械も人間のようにものを見られるようにすることです 00:03:56.493 --> 00:04:01.880 物が何か言い当て 人を識別し 3次元的な配置を推量し 00:04:01.880 --> 00:04:07.568 関係や感情や行動や意図を 理解するということです 00:04:07.568 --> 00:04:10.571 私たち人間は一目見ただけで 00:04:10.571 --> 00:04:15.885 人 場所 物の織りなす物語全体を 捉えることができます NOTE Paragraph 00:04:16.954 --> 00:04:19.738 この目標に向けた第一歩は 00:04:19.738 --> 00:04:25.906 コンピュータに視覚世界の構成要素である物を 見られるようにすることです 00:04:25.906 --> 00:04:27.860 簡単に言うと 00:04:27.860 --> 00:04:30.705 ネコのような特定の物の 00:04:30.705 --> 00:04:36.756 訓練用画像を コンピュータに与えて 00:04:36.756 --> 00:04:41.393 それらの画像から学習する モデルを設計するんです 00:04:41.393 --> 00:04:43.437 簡単そうに聞こえますよね? 00:04:43.437 --> 00:04:47.489 ネコの画像は色と形の 集まりに過ぎません 00:04:47.489 --> 00:04:51.575 これは初期のオブジェクト・モデリングで 私たちがやっていたことでした 00:04:51.575 --> 00:04:55.197 数学的な言語を使って コンピュータアルゴリズムに 00:04:55.197 --> 00:04:58.540 ネコには 丸い顔と ぽっちゃりした体と 00:04:58.540 --> 00:05:00.839 2つのとがった耳と 長いしっぽがあると教え 00:05:00.839 --> 00:05:02.429 それでうまくいきそうでした 00:05:02.859 --> 00:05:04.972 でもこのネコはどうでしょう? 00:05:04.972 --> 00:05:06.063 (笑) 00:05:06.063 --> 00:05:07.689 体がすっかり反り返っています 00:05:07.689 --> 00:05:12.408 オブジェクトモデルに新しい形と視点を 追加する必要があります 00:05:12.408 --> 00:05:14.383 でもネコが一部隠れていたら どうでしょう? 00:05:15.143 --> 00:05:17.362 このおかしなネコたちはどうでしょう? 00:05:19.112 --> 00:05:21.529 言いたいこと分かりますよね? 00:05:21.529 --> 00:05:24.896 身近なペットのネコという シンプルなものでさえ 00:05:24.896 --> 00:05:29.060 オブジェクトモデルに 無数のバリエーションを定義する必要があり 00:05:29.060 --> 00:05:31.863 しかもこれは沢山あるものの 1つに過ぎないんです NOTE Paragraph 00:05:32.573 --> 00:05:35.065 8年ほど前 00:05:35.065 --> 00:05:40.095 とてもシンプルながら本質的なある観察が 私の考え方を変えました 00:05:41.425 --> 00:05:43.820 子供は教えられなくても 00:05:43.820 --> 00:05:46.711 成長の初期に ものの見方を身に付けるということです 00:05:46.711 --> 00:05:51.371 子供は現実の世界における 経験と例を通して学ぶのです 00:05:51.371 --> 00:05:53.831 子供の目が 生きたカメラで 00:05:53.831 --> 00:05:56.665 200ミリ秒ごとに1枚 00:05:56.665 --> 00:06:00.845 写真を撮っていると 考えてみましょう 00:06:00.845 --> 00:06:03.979 これは目が動く 平均時間です 00:06:03.979 --> 00:06:07.509 すると子供は3歳になるまでに 何億枚という 00:06:07.509 --> 00:06:11.143 現実世界の写真を 見ていることになります 00:06:11.143 --> 00:06:13.643 膨大な量の訓練例です 00:06:14.383 --> 00:06:20.372 それで気が付いたのは アルゴリズムの改良ばかりに集中するのではなく 00:06:20.372 --> 00:06:25.644 子供が経験を通じて 受け取るような 00:06:25.644 --> 00:06:28.963 量と質の訓練データを 00:06:28.963 --> 00:06:32.841 アルゴリズムに与えてはどうか ということでした NOTE Paragraph 00:06:32.841 --> 00:06:34.699 このことに気付いた時 00:06:34.699 --> 00:06:37.670 私たちが持っているよりも 遙かに多くの画像データを 00:06:37.670 --> 00:06:42.129 集めなければならないことが 明らかでした 00:06:42.129 --> 00:06:44.706 何千倍も必要です 00:06:44.706 --> 00:06:48.817 それで私はプリンストン大学の カイ・リー教授と一緒に 00:06:48.817 --> 00:06:53.569 2007年にImageNetプロジェクトを 立ち上げました 00:06:53.569 --> 00:06:57.067 幸い私たちは 頭にカメラを付けて 00:06:57.067 --> 00:06:59.171 何年も歩き回る必要は ありませんでした 00:06:59.171 --> 00:07:02.334 人類がかつて作った 最大の画像の宝庫 00:07:02.334 --> 00:07:05.070 インターネットに 向かったのです 00:07:05.070 --> 00:07:08.111 私たちは10億枚近い画像を ダウンロードし 00:07:08.111 --> 00:07:13.991 アマゾン・メカニカル・タークのような クラウドソーシング技術を使って 00:07:13.991 --> 00:07:16.330 それらの画像に ラベル付けをしました 00:07:16.330 --> 00:07:21.230 最盛期にはImageNetは アマゾン・メカニカル・ターク作業者の 00:07:21.230 --> 00:07:24.226 最大の雇用者の1つに なっていました 00:07:24.226 --> 00:07:28.080 167カ国の 00:07:28.080 --> 00:07:32.120 5万人近い作業者が 00:07:32.120 --> 00:07:36.067 10億枚近い画像を 整理しラベル付けする作業に 00:07:36.067 --> 00:07:39.642 携わりました 00:07:40.612 --> 00:07:43.265 子供がその成長の初期に 受け取るのに 00:07:43.265 --> 00:07:47.165 匹敵する量の画像を 用意するためには 00:07:47.165 --> 00:07:51.336 それほどの労力が 必要だったのです NOTE Paragraph 00:07:52.148 --> 00:07:56.050 コンピュータアルゴリズムの訓練に ビッグデータを使うというアイデアは 00:07:56.050 --> 00:08:00.600 今からすると 自明なものに見えるでしょうが 00:08:00.600 --> 00:08:04.710 2007年当時は そうではありませんでした 00:08:04.710 --> 00:08:08.588 かなり長い間 こんなことをやっている人は 私たち以外にいませんでした 00:08:08.588 --> 00:08:13.871 親切な同僚が将来の職のためにもう少し有用なことを した方がいいとアドバイスしてくれたくらいです 00:08:13.871 --> 00:08:17.793 研究資金には いつも困っていました 00:08:17.793 --> 00:08:21.818 ImageNetの資金調達のために クリーニング屋をまた開こうかしらと 00:08:21.818 --> 00:08:24.481 学生に冗談で言ったくらいです 00:08:24.481 --> 00:08:29.032 私が学生の頃 学費のために やっていたことです NOTE Paragraph 00:08:29.032 --> 00:08:31.098 私たちは進み続け 00:08:31.098 --> 00:08:34.813 2009年に ImageNetプロジェクトは 00:08:34.813 --> 00:08:38.855 日常的な英語を使って 2万2千のカテゴリに分類した 00:08:38.855 --> 00:08:43.659 1500万枚の画像の データベースを 00:08:43.659 --> 00:08:46.980 完成させました 00:08:46.980 --> 00:08:49.906 これは量という点でも 質という点でも 00:08:49.906 --> 00:08:52.878 かつてないスケールのものでした 00:08:52.878 --> 00:08:55.109 一例を挙げると 00:08:55.109 --> 00:08:59.148 ネコの画像は 6万2千点以上あって 00:08:59.148 --> 00:09:03.258 様々な見かけや ポーズのネコがいて 00:09:03.258 --> 00:09:08.481 飼い猫から山猫まで あらゆる種類を網羅しています 00:09:08.481 --> 00:09:11.825 私たちはImageNetが できあがったことを喜び 00:09:11.825 --> 00:09:15.563 世界の研究者にも その恩恵を受けて欲しいと思い 00:09:15.563 --> 00:09:19.604 TEDの流儀で データセットをまるごと 00:09:19.604 --> 00:09:23.316 無償で世界の研究者コミュニティに 公開しました 00:09:23.316 --> 00:09:28.116 (拍手) NOTE Paragraph 00:09:29.416 --> 00:09:33.954 こうしてコンピュータの脳を 育てるためのデータができ 00:09:33.954 --> 00:09:37.691 アルゴリズムに取り組む 用意が整いました 00:09:37.691 --> 00:09:42.869 それで分かったのは ImageNetが提供する豊かな情報に適した 00:09:42.869 --> 00:09:47.675 機械学習アルゴリズムがあることです 00:09:47.675 --> 00:09:50.090 畳み込みニューラルネットワークと言って 00:09:50.090 --> 00:09:55.338 福島邦彦 ジェフリー・ヒントン ヤン・ルカンといった人たちが 00:09:55.338 --> 00:09:58.983 1970年代から1980年代にかけて 開拓した領域です 00:09:58.983 --> 00:10:04.602 脳が何十億という高度に結合し合った ニューロンからできているように 00:10:04.602 --> 00:10:08.456 ニューラルネットワークの 基本要素となっているのは 00:10:08.456 --> 00:10:10.871 ニューロンのようなノードです 00:10:10.871 --> 00:10:13.425 他のノードからの入力を受けて 00:10:13.425 --> 00:10:16.143 他のノードへ出力を渡します 00:10:16.143 --> 00:10:20.856 何十万 何百万という このようなノードが 00:10:20.856 --> 00:10:23.753 これも脳と同様に 00:10:23.753 --> 00:10:26.637 階層的に組織化されています 00:10:26.637 --> 00:10:31.900 物を認識するモデルを訓練するために 私たちが通常使うニューラルネットワークには 00:10:31.900 --> 00:10:34.601 2千4百万のノード 00:10:34.601 --> 00:10:37.488 1億4千万のパラメータ 00:10:37.488 --> 00:10:40.461 150億の結合があります 00:10:40.461 --> 00:10:43.076 ものすごく大きなモデルです 00:10:43.076 --> 00:10:46.977 ImageNetの膨大なデータと 00:10:46.977 --> 00:10:52.410 現代のCPUやGPUの性能を使って このような巨大なモデルを訓練することで 00:10:52.410 --> 00:10:54.779 畳み込みニューラルネットワークは 00:10:54.779 --> 00:10:58.215 誰も予想しなかったくらいに 大きく花開きました 00:10:58.215 --> 00:11:01.503 これは物の認識において 目覚ましい結果を出す 00:11:01.503 --> 00:11:06.063 大当たりのアーキテクチャとなっています 00:11:06.063 --> 00:11:08.873 ここではコンピュータが 00:11:08.873 --> 00:11:11.173 写真の中にネコがいることと 00:11:11.173 --> 00:11:13.076 その場所を示しています 00:11:13.076 --> 00:11:15.188 もちろんネコ以外のものも 認識できます 00:11:15.188 --> 00:11:17.626 こちらではコンピュータアルゴリズムが 00:11:17.626 --> 00:11:20.900 写真の中に男の子とテディベアが 写っていることを教えています 00:11:20.900 --> 00:11:25.266 犬と 人物と 後方に小さな凧が あることを示しています 00:11:25.266 --> 00:11:28.401 とても沢山のものが 写った写真から 00:11:28.401 --> 00:11:33.045 男性 スケートボード 手すり 街灯などを見分けています 00:11:33.045 --> 00:11:38.338 写っているものが何なのか コンピュータが そんなに自信を持てない場合もあります [動物] 00:11:39.498 --> 00:11:41.774 コンピュータには 当て推量をするよりは 00:11:41.774 --> 00:11:45.652 確かなところを答えるよう 教えています 00:11:45.652 --> 00:11:48.463 ちょうど私たち自身がするように 00:11:48.463 --> 00:11:53.129 一方で何が写っているかについて コンピュータアルゴリズムが 00:11:53.129 --> 00:11:55.382 驚くほど正確に 言い当てることもあります 00:11:55.382 --> 00:11:58.818 たとえば自動車の車種や モデルや年式のような NOTE Paragraph 00:11:58.818 --> 00:12:04.204 このアルゴリズムを アメリカの数百都市の 00:12:04.204 --> 00:12:07.339 何百万という Googleストリートビュー画像に適用した結果 00:12:07.339 --> 00:12:10.265 面白い発見がありました 00:12:10.265 --> 00:12:13.345 まず 車の値段は 00:12:13.345 --> 00:12:16.875 家計収入とよく相関しているという 00:12:16.875 --> 00:12:19.220 予想が裏付けられました 00:12:19.220 --> 00:12:22.737 でも驚いたことに 車の値段は 00:12:22.737 --> 00:12:26.047 街の犯罪率とも よく相関していたんです 00:12:26.827 --> 00:12:30.970 それはまた郵便番号区域ごとの 投票傾向とも相関しています NOTE Paragraph 00:12:32.060 --> 00:12:34.266 それでは コンピュータは 00:12:34.266 --> 00:12:39.419 既に人間の能力に追いつき 追い越しているのでしょうか? 00:12:39.419 --> 00:12:41.557 結論を急がないで 00:12:41.557 --> 00:12:46.480 これまでのところ 私たちは コンピュータに物の見方を教えただけです 00:12:46.480 --> 00:12:51.124 小さな子供が名詞をいくつか 言えるようになったようなものです 00:12:51.124 --> 00:12:53.794 ものすごい成果ですが 00:12:53.794 --> 00:12:56.254 まだ第一歩にすぎず 00:12:56.254 --> 00:13:00.016 次の開発目標があります 00:13:00.016 --> 00:13:03.477 子供は文章でコミュニケーションを するようになります 00:13:03.477 --> 00:13:07.701 だから写真を見て小さな女の子が 単にネコと言わずに 00:13:07.701 --> 00:13:12.903 ネコがベッドに座っていると 言うのを聞いたわけです NOTE Paragraph 00:13:12.903 --> 00:13:18.498 コンピュータが写真を見て 文章を作れるよう教えるために 00:13:18.498 --> 00:13:22.446 このビッグデータと 機械学習の結びつきが 00:13:22.446 --> 00:13:24.721 新たなステップを 踏む必要があります 00:13:24.721 --> 00:13:28.877 コンピュータは 写真だけでなく 00:13:28.877 --> 00:13:31.733 人が発する自然言語の文章も 00:13:31.733 --> 00:13:35.055 学ぶ必要があります 00:13:35.055 --> 00:13:38.908 脳が視覚と言語を 結びつけるように 00:13:38.908 --> 00:13:44.109 画像の断片のような 視覚的なものの一部と 00:13:44.109 --> 00:13:48.073 文章の中の単語やフレーズを 繋ぎ合わせるモデルを 00:13:48.073 --> 00:13:50.216 私たちは開発しました NOTE Paragraph 00:13:50.216 --> 00:13:52.979 4ヶ月ほど前 00:13:52.979 --> 00:13:55.626 ついに私たちは すべてをまとめ 00:13:55.626 --> 00:13:58.940 初めて見た写真について 00:13:58.940 --> 00:14:03.404 人が書いたような 記述文を生成できる 00:14:03.404 --> 00:14:06.910 最初のコンピュータ・ビジョン・ モデルを作り上げました 00:14:06.910 --> 00:14:11.554 冒頭で小さな女の子が説明したのと 同じ写真を見て 00:14:11.554 --> 00:14:13.529 そのコンピュータが何と言ったか 00:14:13.529 --> 00:14:17.359 お見せしましょう NOTE Paragraph 00:14:19.049 --> 00:14:22.863 「ゾウの横に立っている男」 00:14:24.393 --> 00:14:28.027 「空港の滑走路にいる大きな飛行機」 NOTE Paragraph 00:14:29.057 --> 00:14:33.269 私たちは今もアルゴリズムを改良しようと 熱心に取り組んでいて 00:14:33.269 --> 00:14:35.865 学ぶべきことは まだまだあります 00:14:35.865 --> 00:14:38.156 (拍手) NOTE Paragraph 00:14:39.556 --> 00:14:42.877 コンピュータは まだ間違いを犯します NOTE Paragraph 00:14:42.877 --> 00:14:46.268 「ベッドの上の毛布の中のネコ」 NOTE Paragraph 00:14:46.268 --> 00:14:48.821 ネコを沢山見過ぎたせいで 00:14:48.821 --> 00:14:51.747 何でもネコみたいに 見えるのかもしれません NOTE Paragraph 00:14:53.317 --> 00:14:56.181 「野球バットを持つ小さな男の子」 00:14:56.181 --> 00:14:57.946 (笑) NOTE Paragraph 00:14:57.946 --> 00:15:02.529 歯ブラシを見たことがないと 野球バットと混同してしまいます NOTE Paragraph 00:15:03.309 --> 00:15:06.743 「建物脇の道を馬に乗って行く男」 00:15:06.743 --> 00:15:08.766 (笑) NOTE Paragraph 00:15:08.766 --> 00:15:12.318 美術はまだコンピュータに 教えていませんでした NOTE Paragraph 00:15:13.768 --> 00:15:16.652 「草原に立つシマウマ」 NOTE Paragraph 00:15:16.652 --> 00:15:20.019 私たちのように 自然の美を慈しむことは 00:15:20.019 --> 00:15:22.457 まだ学んでいません NOTE Paragraph 00:15:22.457 --> 00:15:25.289 長い道のりでした 00:15:25.289 --> 00:15:29.515 0歳から3歳まで行くのは 大変でした 00:15:29.515 --> 00:15:35.111 でも本当の挑戦は3歳から13歳 さらにその先へと行くことです 00:15:35.111 --> 00:15:39.476 あの男の子とケーキの写真を もう一度見てみましょう 00:15:39.476 --> 00:15:43.540 私たちはコンピュータに 物を識別することを教え 00:15:43.540 --> 00:15:47.998 写真を簡単に説明することさえ 教えました NOTE Paragraph 00:15:47.998 --> 00:15:51.574 「ケーキのあるテーブルにつく人」 NOTE Paragraph 00:15:51.574 --> 00:15:54.204 しかしこの写真には 単に人とケーキというよりも 00:15:54.204 --> 00:15:56.474 遙かに多くのものがあります 00:15:56.474 --> 00:16:00.941 コンピュータが見なかったのは このケーキが特別なイタリアのケーキで 00:16:00.941 --> 00:16:04.158 イースターの時に 食べるものだということです 00:16:04.158 --> 00:16:07.363 男の子が着ているのは お気に入りのTシャツで 00:16:07.363 --> 00:16:11.333 お父さんがシドニー旅行の おみやげにくれたものだということ 00:16:11.333 --> 00:16:15.141 私たちはみんな この男の子がどんなに喜んでいるか 00:16:15.141 --> 00:16:18.344 何を思っているかが分かります NOTE Paragraph 00:16:19.214 --> 00:16:22.339 これは息子のレオです 00:16:22.339 --> 00:16:24.963 視覚的な知性を 追い求める探求の中で 00:16:24.963 --> 00:16:27.354 私はいつもレオのことや 00:16:27.354 --> 00:16:30.257 レオが住むであろう 未来の世界のことを考えています 00:16:30.257 --> 00:16:32.278 機械に見ることが できるようになれば 00:16:32.278 --> 00:16:36.990 医師や看護師は疲れを知らない 別の目を手に入れて 00:16:36.990 --> 00:16:41.082 患者の診断や世話に 役立てられるでしょう 00:16:41.082 --> 00:16:45.465 自動車は道路をより賢明に 安全に走行するようになるでしょう 00:16:45.465 --> 00:16:48.159 人間だけでなくロボットも 00:16:48.159 --> 00:16:53.008 災害地域に取り残され負傷した人々を救出する 手助けができるようになるでしょう 00:16:53.798 --> 00:16:58.164 私たちは機械の助けを借りて 新種の生物やより優れた素材を発見し 00:16:58.164 --> 00:17:02.103 未だ見ぬフロンティアを 探検するようになるでしょう NOTE Paragraph 00:17:03.113 --> 00:17:07.280 私たちは少しずつ機械に 視覚を与えています 00:17:07.280 --> 00:17:09.617 最初に私たちが 機械に見ることを教え 00:17:09.617 --> 00:17:13.358 それから機械が より良く見られるよう 私たちを助けてくれることでしょう 00:17:13.358 --> 00:17:17.006 歴史上初めて 人間以外の目が 00:17:17.006 --> 00:17:19.940 世界について考察し 探求するようになるのです 00:17:19.940 --> 00:17:23.400 私たちは機械の知性を 利用するだけでなく 00:17:23.400 --> 00:17:29.579 想像もできないような方法で 機械と人間が協力し合うようになるでしょう NOTE Paragraph 00:17:29.579 --> 00:17:31.740 私が追い求めているのは 00:17:31.740 --> 00:17:34.452 コンピュータに視覚的な知性を与え 00:17:34.452 --> 00:17:39.583 レオや世界のために より良い未来を作り出すということです NOTE Paragraph 00:17:39.583 --> 00:17:41.394 ありがとうございました NOTE Paragraph 00:17:41.394 --> 00:17:45.179 (拍手)