1
00:00:02,366 --> 00:00:06,104
まずこのビデオを
ご覧ください

2
00:00:06,104 --> 00:00:10,260
(女の子の声) ネコがベッドに座ってる

3
00:00:10,260 --> 00:00:14,300
男の子が象をなでてる

4
00:00:14,300 --> 00:00:18,234
飛行機へ行く人たち

5
00:00:18,234 --> 00:00:21,284
大きな飛行機よ

6
00:00:21,284 --> 00:00:23,670
(講演者) これは３歳児が

7
00:00:23,670 --> 00:00:27,349
見た写真を
説明しているところです

8
00:00:27,349 --> 00:00:30,644
彼女にはこの世界で学ぶことが 
まだまだあるかもしれませんが

9
00:00:30,644 --> 00:00:34,743
ひとつの重要な作業については
すでにエキスパートです

10
00:00:34,743 --> 00:00:37,589
見たものを理解する
ということです

11
00:00:38,229 --> 00:00:42,455
私たちの社会は技術的に
かつてなく進歩しています

12
00:00:42,455 --> 00:00:46,084
月へと人を送り込み 
人に話しかける電話を作り

13
00:00:46,084 --> 00:00:51,030
自分の好きな曲だけがかかるように
ラジオをカスタマイズしています

14
00:00:51,030 --> 00:00:55,085
しかしながら最先端の
コンピュータでも

15
00:00:55,085 --> 00:00:57,988
まだこの作業には
手こずっているんです

16
00:00:57,988 --> 00:01:01,447
私は今日コンピュータビジョンの

17
00:01:01,447 --> 00:01:05,494
最新動向について
お伝えするために来ました

18
00:01:05,494 --> 00:01:09,655
これはコンピュータサイエンスの中でも
先端にあって

19
00:01:09,655 --> 00:01:12,861
画期的なものになる
可能性のある技術です

20
00:01:12,861 --> 00:01:17,412
自分で運転する車の
プロトタイプが作られていますが

21
00:01:17,412 --> 00:01:21,265
知的な視覚処理能力がなかったら

22
00:01:21,265 --> 00:01:25,235
踏みつぶしても問題のない
道路上の丸めた紙袋と

23
00:01:25,235 --> 00:01:28,855
避けて通るべき同じ大きさの石とを
見分けることもできません

24
00:01:29,415 --> 00:01:32,805
すごいメガピクセルの
カメラが作られていますが

25
00:01:32,805 --> 00:01:36,300
盲目の人に視力を与えることは
できていません

26
00:01:36,420 --> 00:01:39,725
無人機を広大な土地の上に
飛ばすことはできても

27
00:01:39,725 --> 00:01:42,789
熱帯雨林の変化を
追跡できるだけの

28
00:01:42,789 --> 00:01:45,320
画像技術はまだありません

29
00:01:45,320 --> 00:01:48,270
監視カメラが至る所に
設置されていますが

30
00:01:48,270 --> 00:01:53,337
プールで溺れている子がいても
警告してはくれません

31
00:01:54,167 --> 00:01:59,552
写真やビデオは世界において
生活に不可欠な一部をなしています

32
00:01:59,552 --> 00:02:03,849
どんな個人であれ チームであれ
見切れないほどのペースで

33
00:02:03,849 --> 00:02:06,632
映像が量産されています

34
00:02:06,632 --> 00:02:10,553
そして私たちも ここTEDで
それに貢献しています

35
00:02:10,553 --> 00:02:13,725
しかし最も進んだ
ソフトウェアでさえ

36
00:02:13,725 --> 00:02:19,661
この膨大な映像を理解し管理するのに
手こずっています

37
00:02:19,661 --> 00:02:21,553
言ってみれば

38
00:02:21,553 --> 00:02:24,959
私たちの社会は
集合的に盲目であり

39
00:02:24,959 --> 00:02:30,066
それは最も知的な機械が
いまだ盲目だからです

40
00:02:31,336 --> 00:02:34,452
なぜそんなに難しいのかと
思うかもしれません

41
00:02:34,452 --> 00:02:37,005
カメラはこのような写真を撮って

42
00:02:37,005 --> 00:02:39,219
光をピクセルと呼ばれる

43
00:02:39,219 --> 00:02:42,789
数字の２次元配列へと
変換しますが

44
00:02:42,789 --> 00:02:45,040
これは死んだ数字の列に
過ぎません

45
00:02:45,040 --> 00:02:47,981
数字自体に意味はありません

46
00:02:47,981 --> 00:02:52,494
単に音が耳に入ってくるのと
「聴く」のとは違うように

47
00:02:52,494 --> 00:02:56,534
「写真を撮る」のと「見る」のとは
同じではありません

48
00:02:56,534 --> 00:03:00,363
「見る」ということには
理解することが含まれているのです

49
00:03:01,293 --> 00:03:04,150
実際この仕事を
成し遂げられるようにするために

50
00:03:04,150 --> 00:03:09,443
母なる自然は 5億4千万年という
長い歳月を必要としたのです

51
00:03:09,443 --> 00:03:11,324
そしてその努力の多くは

52
00:03:11,324 --> 00:03:14,255
目そのものではなく

53
00:03:14,255 --> 00:03:19,242
脳の視覚処理能力を発達させるために
費やされました

54
00:03:19,242 --> 00:03:21,989
視覚というのは
目から始まりますが

55
00:03:21,989 --> 00:03:25,507
それが本当に起きているのは
脳の中なのです

56
00:03:26,287 --> 00:03:30,527
これまで15年間 
カリフォルニア工科大学の博士課程の頃から

57
00:03:30,527 --> 00:03:34,463
スタンフォード大でコンピュータビジョン研究室を
率いている今に到るまで

58
00:03:34,463 --> 00:03:38,669
私は指導教官や共同研究者や
学生達とともに

59
00:03:38,669 --> 00:03:41,758
コンピュータに見ることを
教えようとしてきました

60
00:03:42,658 --> 00:03:45,952
私たちの研究領域は
コンピュータビジョンと機械学習で

61
00:03:45,952 --> 00:03:49,830
これは人工知能の分野の一部です

62
00:03:51,000 --> 00:03:56,493
最終的に私たちがしたいのは 
機械も人間のようにものを見られるようにすることです

63
00:03:56,493 --> 00:04:01,880
物が何か言い当て 人を識別し 
３次元的な配置を推量し

64
00:04:01,880 --> 00:04:07,568
関係や感情や行動や意図を
理解するということです

65
00:04:07,568 --> 00:04:10,571
私たち人間は一目見ただけで

66
00:04:10,571 --> 00:04:15,885
人 場所 物の織りなす物語全体を
捉えることができます

67
00:04:16,954 --> 00:04:19,738
この目標に向けた第一歩は

68
00:04:19,738 --> 00:04:25,906
コンピュータに視覚世界の構成要素である物を
見られるようにすることです

69
00:04:25,906 --> 00:04:27,860
簡単に言うと

70
00:04:27,860 --> 00:04:30,705
ネコのような特定の物の

71
00:04:30,705 --> 00:04:36,756
訓練用画像を
コンピュータに与えて

72
00:04:36,756 --> 00:04:41,393
それらの画像から学習する
モデルを設計するんです

73
00:04:41,393 --> 00:04:43,437
簡単そうに聞こえますよね？

74
00:04:43,437 --> 00:04:47,489
ネコの画像は色と形の
集まりに過ぎません

75
00:04:47,489 --> 00:04:51,575
これは初期のオブジェクト・モデリングで
私たちがやっていたことでした

76
00:04:51,575 --> 00:04:55,197
数学的な言語を使って
コンピュータアルゴリズムに

77
00:04:55,197 --> 00:04:58,540
ネコには 丸い顔と
ぽっちゃりした体と

78
00:04:58,540 --> 00:05:00,839
２つのとがった耳と
長いしっぽがあると教え

79
00:05:00,839 --> 00:05:02,429
それでうまくいきそうでした

80
00:05:02,859 --> 00:05:04,972
でもこのネコはどうでしょう？

81
00:05:04,972 --> 00:05:06,063
(笑)

82
00:05:06,063 --> 00:05:07,689
体がすっかり反り返っています

83
00:05:07,689 --> 00:05:12,408
オブジェクトモデルに新しい形と視点を
追加する必要があります

84
00:05:12,408 --> 00:05:14,383
でもネコが一部隠れていたら
どうでしょう？

85
00:05:15,143 --> 00:05:17,362
このおかしなネコたちはどうでしょう？

86
00:05:19,112 --> 00:05:21,529
言いたいこと分かりますよね？

87
00:05:21,529 --> 00:05:24,896
身近なペットのネコという
シンプルなものでさえ

88
00:05:24,896 --> 00:05:29,060
オブジェクトモデルに
無数のバリエーションを定義する必要があり

89
00:05:29,060 --> 00:05:31,863
しかもこれは沢山あるものの
１つに過ぎないんです

90
00:05:32,573 --> 00:05:35,065
８年ほど前

91
00:05:35,065 --> 00:05:40,095
とてもシンプルながら本質的なある観察が
私の考え方を変えました

92
00:05:41,425 --> 00:05:43,820
子供は教えられなくても

93
00:05:43,820 --> 00:05:46,711
成長の初期に
ものの見方を身に付けるということです

94
00:05:46,711 --> 00:05:51,371
子供は現実の世界における
経験と例を通して学ぶのです

95
00:05:51,371 --> 00:05:53,831
子供の目が
生きたカメラで

96
00:05:53,831 --> 00:05:56,665
200ミリ秒ごとに１枚

97
00:05:56,665 --> 00:06:00,845
写真を撮っていると
考えてみましょう

98
00:06:00,845 --> 00:06:03,979
これは目が動く
平均時間です

99
00:06:03,979 --> 00:06:07,509
すると子供は３歳になるまでに 
何億枚という

100
00:06:07,509 --> 00:06:11,143
現実世界の写真を
見ていることになります

101
00:06:11,143 --> 00:06:13,643
膨大な量の訓練例です

102
00:06:14,383 --> 00:06:20,372
それで気が付いたのは 
アルゴリズムの改良ばかりに集中するのではなく

103
00:06:20,372 --> 00:06:25,644
子供が経験を通じて
受け取るような

104
00:06:25,644 --> 00:06:28,963
量と質の訓練データを

105
00:06:28,963 --> 00:06:32,841
アルゴリズムに与えてはどうか
ということでした

106
00:06:32,841 --> 00:06:34,699
このことに気付いた時

107
00:06:34,699 --> 00:06:37,670
私たちが持っているよりも
遙かに多くの画像データを

108
00:06:37,670 --> 00:06:42,129
集めなければならないことが
明らかでした

109
00:06:42,129 --> 00:06:44,706
何千倍も必要です

110
00:06:44,706 --> 00:06:48,817
それで私はプリンストン大学の
カイ・リー教授と一緒に

111
00:06:48,817 --> 00:06:53,569
2007年にImageNetプロジェクトを
立ち上げました

112
00:06:53,569 --> 00:06:57,067
幸い私たちは
頭にカメラを付けて

113
00:06:57,067 --> 00:06:59,171
何年も歩き回る必要は
ありませんでした

114
00:06:59,171 --> 00:07:02,334
人類がかつて作った
最大の画像の宝庫

115
00:07:02,334 --> 00:07:05,070
インターネットに
向かったのです

116
00:07:05,070 --> 00:07:08,111
私たちは10億枚近い画像を
ダウンロードし

117
00:07:08,111 --> 00:07:13,991
アマゾン・メカニカル・タークのような
クラウドソーシング技術を使って

118
00:07:13,991 --> 00:07:16,330
それらの画像に
ラベル付けをしました

119
00:07:16,330 --> 00:07:21,230
最盛期にはImageNetは
アマゾン・メカニカル・ターク作業者の

120
00:07:21,230 --> 00:07:24,226
最大の雇用者の１つに
なっていました

121
00:07:24,226 --> 00:07:28,080
167カ国の

122
00:07:28,080 --> 00:07:32,120
５万人近い作業者が

123
00:07:32,120 --> 00:07:36,067
10億枚近い画像を
整理しラベル付けする作業に

124
00:07:36,067 --> 00:07:39,642
携わりました

125
00:07:40,612 --> 00:07:43,265
子供がその成長の初期に
受け取るのに

126
00:07:43,265 --> 00:07:47,165
匹敵する量の画像を
用意するためには

127
00:07:47,165 --> 00:07:51,336
それほどの労力が
必要だったのです

128
00:07:52,148 --> 00:07:56,050
コンピュータアルゴリズムの訓練に
ビッグデータを使うというアイデアは

129
00:07:56,050 --> 00:08:00,600
今からすると
自明なものに見えるでしょうが

130
00:08:00,600 --> 00:08:04,710
2007年当時は
そうではありませんでした

131
00:08:04,710 --> 00:08:08,588
かなり長い間 こんなことをやっている人は
私たち以外にいませんでした

132
00:08:08,588 --> 00:08:13,871
親切な同僚が将来の職のためにもう少し有用なことを
した方がいいとアドバイスしてくれたくらいです

133
00:08:13,871 --> 00:08:17,793
研究資金には
いつも困っていました

134
00:08:17,793 --> 00:08:21,818
ImageNetの資金調達のために
クリーニング屋をまた開こうかしらと

135
00:08:21,818 --> 00:08:24,481
学生に冗談で言ったくらいです

136
00:08:24,481 --> 00:08:29,032
私が学生の頃 学費のために
やっていたことです

137
00:08:29,032 --> 00:08:31,098
私たちは進み続け

138
00:08:31,098 --> 00:08:34,813
2009年に
ImageNetプロジェクトは

139
00:08:34,813 --> 00:08:38,855
日常的な英語を使って
2万2千のカテゴリに分類した

140
00:08:38,855 --> 00:08:43,659
1500万枚の画像の
データベースを

141
00:08:43,659 --> 00:08:46,980
完成させました

142
00:08:46,980 --> 00:08:49,906
これは量という点でも
質という点でも

143
00:08:49,906 --> 00:08:52,878
かつてないスケールのものでした

144
00:08:52,878 --> 00:08:55,109
一例を挙げると

145
00:08:55,109 --> 00:08:59,148
ネコの画像は
6万2千点以上あって

146
00:08:59,148 --> 00:09:03,258
様々な見かけや
ポーズのネコがいて

147
00:09:03,258 --> 00:09:08,481
飼い猫から山猫まで
あらゆる種類を網羅しています

148
00:09:08,481 --> 00:09:11,825
私たちはImageNetが
できあがったことを喜び

149
00:09:11,825 --> 00:09:15,563
世界の研究者にも
その恩恵を受けて欲しいと思い

150
00:09:15,563 --> 00:09:19,604
TEDの流儀で
データセットをまるごと

151
00:09:19,604 --> 00:09:23,316
無償で世界の研究者コミュニティに
公開しました

152
00:09:23,316 --> 00:09:28,116
(拍手)

153
00:09:29,416 --> 00:09:33,954
こうしてコンピュータの脳を
育てるためのデータができ

154
00:09:33,954 --> 00:09:37,691
アルゴリズムに取り組む
用意が整いました

155
00:09:37,691 --> 00:09:42,869
それで分かったのは 
ImageNetが提供する豊かな情報に適した

156
00:09:42,869 --> 00:09:47,675
機械学習アルゴリズムがあることです

157
00:09:47,675 --> 00:09:50,090
畳み込みニューラルネットワークと言って

158
00:09:50,090 --> 00:09:55,338
福島邦彦 ジェフリー・ヒントン 
ヤン・ルカンといった人たちが

159
00:09:55,338 --> 00:09:58,983
1970年代から1980年代にかけて
開拓した領域です

160
00:09:58,983 --> 00:10:04,602
脳が何十億という高度に結合し合った
ニューロンからできているように

161
00:10:04,602 --> 00:10:08,456
ニューラルネットワークの
基本要素となっているのは

162
00:10:08,456 --> 00:10:10,871
ニューロンのようなノードです

163
00:10:10,871 --> 00:10:13,425
他のノードからの入力を受けて

164
00:10:13,425 --> 00:10:16,143
他のノードへ出力を渡します

165
00:10:16,143 --> 00:10:20,856
何十万 何百万という
このようなノードが

166
00:10:20,856 --> 00:10:23,753
これも脳と同様に

167
00:10:23,753 --> 00:10:26,637
階層的に組織化されています

168
00:10:26,637 --> 00:10:31,900
物を認識するモデルを訓練するために
私たちが通常使うニューラルネットワークには

169
00:10:31,900 --> 00:10:34,601
2千4百万のノード

170
00:10:34,601 --> 00:10:37,488
1億4千万のパラメータ

171
00:10:37,488 --> 00:10:40,461
150億の結合があります

172
00:10:40,461 --> 00:10:43,076
ものすごく大きなモデルです

173
00:10:43,076 --> 00:10:46,977
ImageNetの膨大なデータと

174
00:10:46,977 --> 00:10:52,410
現代のCPUやGPUの性能を使って
このような巨大なモデルを訓練することで

175
00:10:52,410 --> 00:10:54,779
畳み込みニューラルネットワークは

176
00:10:54,779 --> 00:10:58,215
誰も予想しなかったくらいに
大きく花開きました

177
00:10:58,215 --> 00:11:01,503
これは物の認識において
目覚ましい結果を出す

178
00:11:01,503 --> 00:11:06,063
大当たりのアーキテクチャとなっています

179
00:11:06,063 --> 00:11:08,873
ここではコンピュータが

180
00:11:08,873 --> 00:11:11,173
写真の中にネコがいることと

181
00:11:11,173 --> 00:11:13,076
その場所を示しています

182
00:11:13,076 --> 00:11:15,188
もちろんネコ以外のものも
認識できます

183
00:11:15,188 --> 00:11:17,626
こちらではコンピュータアルゴリズムが

184
00:11:17,626 --> 00:11:20,900
写真の中に男の子とテディベアが
写っていることを教えています

185
00:11:20,900 --> 00:11:25,266
犬と 人物と 後方に小さな凧が
あることを示しています

186
00:11:25,266 --> 00:11:28,401
とても沢山のものが
写った写真から

187
00:11:28,401 --> 00:11:33,045
男性 スケートボード 手すり 
街灯などを見分けています

188
00:11:33,045 --> 00:11:38,338
写っているものが何なのか コンピュータが
そんなに自信を持てない場合もあります [動物]

189
00:11:39,498 --> 00:11:41,774
コンピュータには
当て推量をするよりは

190
00:11:41,774 --> 00:11:45,652
確かなところを答えるよう
教えています

191
00:11:45,652 --> 00:11:48,463
ちょうど私たち自身がするように

192
00:11:48,463 --> 00:11:53,129
一方で何が写っているかについて
コンピュータアルゴリズムが

193
00:11:53,129 --> 00:11:55,382
驚くほど正確に
言い当てることもあります

194
00:11:55,382 --> 00:11:58,818
たとえば自動車の車種や
モデルや年式のような

195
00:11:58,818 --> 00:12:04,204
このアルゴリズムを
アメリカの数百都市の

196
00:12:04,204 --> 00:12:07,339
何百万という
Googleストリートビュー画像に適用した結果

197
00:12:07,339 --> 00:12:10,265
面白い発見がありました

198
00:12:10,265 --> 00:12:13,345
まず 車の値段は

199
00:12:13,345 --> 00:12:16,875
家計収入とよく相関しているという

200
00:12:16,875 --> 00:12:19,220
予想が裏付けられました

201
00:12:19,220 --> 00:12:22,737
でも驚いたことに 
車の値段は

202
00:12:22,737 --> 00:12:26,047
街の犯罪率とも
よく相関していたんです

203
00:12:26,827 --> 00:12:30,970
それはまた郵便番号区域ごとの
投票傾向とも相関しています

204
00:12:32,060 --> 00:12:34,266
それでは コンピュータは

205
00:12:34,266 --> 00:12:39,419
既に人間の能力に追いつき 
追い越しているのでしょうか？

206
00:12:39,419 --> 00:12:41,557
結論を急がないで

207
00:12:41,557 --> 00:12:46,480
これまでのところ 私たちは
コンピュータに物の見方を教えただけです

208
00:12:46,480 --> 00:12:51,124
小さな子供が名詞をいくつか
言えるようになったようなものです

209
00:12:51,124 --> 00:12:53,794
ものすごい成果ですが

210
00:12:53,794 --> 00:12:56,254
まだ第一歩にすぎず

211
00:12:56,254 --> 00:13:00,016
次の開発目標があります

212
00:13:00,016 --> 00:13:03,477
子供は文章でコミュニケーションを
するようになります

213
00:13:03,477 --> 00:13:07,701
だから写真を見て小さな女の子が
単にネコと言わずに

214
00:13:07,701 --> 00:13:12,903
ネコがベッドに座っていると
言うのを聞いたわけです

215
00:13:12,903 --> 00:13:18,498
コンピュータが写真を見て
文章を作れるよう教えるために

216
00:13:18,498 --> 00:13:22,446
このビッグデータと
機械学習の結びつきが

217
00:13:22,446 --> 00:13:24,721
新たなステップを
踏む必要があります

218
00:13:24,721 --> 00:13:28,877
コンピュータは
写真だけでなく

219
00:13:28,877 --> 00:13:31,733
人が発する自然言語の文章も

220
00:13:31,733 --> 00:13:35,055
学ぶ必要があります

221
00:13:35,055 --> 00:13:38,908
脳が視覚と言語を
結びつけるように

222
00:13:38,908 --> 00:13:44,109
画像の断片のような
視覚的なものの一部と

223
00:13:44,109 --> 00:13:48,073
文章の中の単語やフレーズを
繋ぎ合わせるモデルを

224
00:13:48,073 --> 00:13:50,216
私たちは開発しました

225
00:13:50,216 --> 00:13:52,979
４ヶ月ほど前

226
00:13:52,979 --> 00:13:55,626
ついに私たちは
すべてをまとめ

227
00:13:55,626 --> 00:13:58,940
初めて見た写真について

228
00:13:58,940 --> 00:14:03,404
人が書いたような
記述文を生成できる

229
00:14:03,404 --> 00:14:06,910
最初のコンピュータ・ビジョン・
モデルを作り上げました

230
00:14:06,910 --> 00:14:11,554
冒頭で小さな女の子が説明したのと
同じ写真を見て

231
00:14:11,554 --> 00:14:13,529
そのコンピュータが何と言ったか

232
00:14:13,529 --> 00:14:17,359
お見せしましょう

233
00:14:19,049 --> 00:14:22,863
「ゾウの横に立っている男」

234
00:14:24,393 --> 00:14:28,027
「空港の滑走路にいる大きな飛行機」

235
00:14:29,057 --> 00:14:33,269
私たちは今もアルゴリズムを改良しようと
熱心に取り組んでいて

236
00:14:33,269 --> 00:14:35,865
学ぶべきことは
まだまだあります

237
00:14:35,865 --> 00:14:38,156
(拍手)

238
00:14:39,556 --> 00:14:42,877
コンピュータは
まだ間違いを犯します

239
00:14:42,877 --> 00:14:46,268
「ベッドの上の毛布の中のネコ」

240
00:14:46,268 --> 00:14:48,821
ネコを沢山見過ぎたせいで

241
00:14:48,821 --> 00:14:51,747
何でもネコみたいに
見えるのかもしれません

242
00:14:53,317 --> 00:14:56,181
「野球バットを持つ小さな男の子」

243
00:14:56,181 --> 00:14:57,946
(笑)

244
00:14:57,946 --> 00:15:02,529
歯ブラシを見たことがないと 
野球バットと混同してしまいます

245
00:15:03,309 --> 00:15:06,743
「建物脇の道を馬に乗って行く男」

246
00:15:06,743 --> 00:15:08,766
(笑)

247
00:15:08,766 --> 00:15:12,318
美術はまだコンピュータに
教えていませんでした

248
00:15:13,768 --> 00:15:16,652
「草原に立つシマウマ」

249
00:15:16,652 --> 00:15:20,019
私たちのように
自然の美を慈しむことは

250
00:15:20,019 --> 00:15:22,457
まだ学んでいません

251
00:15:22,457 --> 00:15:25,289
長い道のりでした

252
00:15:25,289 --> 00:15:29,515
０歳から３歳まで行くのは
大変でした

253
00:15:29,515 --> 00:15:35,111
でも本当の挑戦は３歳から13歳 
さらにその先へと行くことです

254
00:15:35,111 --> 00:15:39,476
あの男の子とケーキの写真を
もう一度見てみましょう

255
00:15:39,476 --> 00:15:43,540
私たちはコンピュータに
物を識別することを教え

256
00:15:43,540 --> 00:15:47,998
写真を簡単に説明することさえ
教えました

257
00:15:47,998 --> 00:15:51,574
「ケーキのあるテーブルにつく人」

258
00:15:51,574 --> 00:15:54,204
しかしこの写真には
単に人とケーキというよりも

259
00:15:54,204 --> 00:15:56,474
遙かに多くのものがあります

260
00:15:56,474 --> 00:16:00,941
コンピュータが見なかったのは 
このケーキが特別なイタリアのケーキで

261
00:16:00,941 --> 00:16:04,158
イースターの時に
食べるものだということです

262
00:16:04,158 --> 00:16:07,363
男の子が着ているのは
お気に入りのTシャツで

263
00:16:07,363 --> 00:16:11,333
お父さんがシドニー旅行の
おみやげにくれたものだということ

264
00:16:11,333 --> 00:16:15,141
私たちはみんな 
この男の子がどんなに喜んでいるか

265
00:16:15,141 --> 00:16:18,344
何を思っているかが分かります

266
00:16:19,214 --> 00:16:22,339
これは息子のレオです

267
00:16:22,339 --> 00:16:24,963
視覚的な知性を
追い求める探求の中で

268
00:16:24,963 --> 00:16:27,354
私はいつもレオのことや

269
00:16:27,354 --> 00:16:30,257
レオが住むであろう
未来の世界のことを考えています

270
00:16:30,257 --> 00:16:32,278
機械に見ることが
できるようになれば

271
00:16:32,278 --> 00:16:36,990
医師や看護師は疲れを知らない
別の目を手に入れて

272
00:16:36,990 --> 00:16:41,082
患者の診断や世話に
役立てられるでしょう

273
00:16:41,082 --> 00:16:45,465
自動車は道路をより賢明に
安全に走行するようになるでしょう

274
00:16:45,465 --> 00:16:48,159
人間だけでなくロボットも

275
00:16:48,159 --> 00:16:53,008
災害地域に取り残され負傷した人々を救出する
手助けができるようになるでしょう

276
00:16:53,798 --> 00:16:58,164
私たちは機械の助けを借りて 
新種の生物やより優れた素材を発見し

277
00:16:58,164 --> 00:17:02,103
未だ見ぬフロンティアを
探検するようになるでしょう

278
00:17:03,113 --> 00:17:07,280
私たちは少しずつ機械に
視覚を与えています

279
00:17:07,280 --> 00:17:09,617
最初に私たちが
機械に見ることを教え

280
00:17:09,617 --> 00:17:13,358
それから機械が より良く見られるよう
私たちを助けてくれることでしょう

281
00:17:13,358 --> 00:17:17,006
歴史上初めて
人間以外の目が

282
00:17:17,006 --> 00:17:19,940
世界について考察し
探求するようになるのです

283
00:17:19,940 --> 00:17:23,400
私たちは機械の知性を
利用するだけでなく

284
00:17:23,400 --> 00:17:29,579
想像もできないような方法で
機械と人間が協力し合うようになるでしょう

285
00:17:29,579 --> 00:17:31,740
私が追い求めているのは

286
00:17:31,740 --> 00:17:34,452
コンピュータに視覚的な知性を与え

287
00:17:34,452 --> 00:17:39,583
レオや世界のために
より良い未来を作り出すということです

288
00:17:39,583 --> 00:17:41,394
ありがとうございました

289
00:17:41,394 --> 00:17:45,179
(拍手)