1
00:00:00,233 --> 00:00:05,220
こんにちは．これまで時間をかけて単純な問題である2次元の

2
00:00:05,220 --> 00:00:09,428
手書き数字認識を説明して来ました．これでようやく

3
00:00:09,428 --> 00:00:14,825
シーン中の3次元物体の検出問題に取り組むことができます．ここでは，

4
00:00:14,825 --> 00:00:21,501
現在広く使われているPASCAL物体検出チャレンジをとりあげます．

5
00:00:21,501 --> 00:00:28,222
このデータセットは，もう5年以上使われています．

6
00:00:28,222 --> 00:00:33,687
このデータセットには，各カテゴリに対して

7
00:00:33,687 --> 00:00:39,843
10,000枚以上の画像が収集されました．そして画像中にある

8
00:00:39,843 --> 00:00:44,554
そのカテゴリの物体を四角で囲みました．例えばダイニングテーブル，犬，馬，

9
00:00:44,554 --> 00:00:50,235
オートバイ，人，植木鉢，羊などです．カテゴリの数は

10
00:00:50,235 --> 00:00:56,504
20あります．各カテゴリに属する物体が四角形で囲まれています．

11
00:00:56,504 --> 00:01:02,087
例えば，これは犬を囲む矩形，

12
00:01:02,087 --> 00:01:06,892
そしてこれは馬を囲む矩形と

13
00:01:06,892 --> 00:01:10,429
人々に対応する矩形です．

14
00:01:10,429 --> 00:01:18,413
画像中に人と馬が一緒にいるので．
このタスクのゴールは物体を検出することです．

15
00:01:18,413 --> 00:01:22,975
つまりこれがコンピュータがすることです．例えば犬を見つけたいのです．

16
00:01:22,975 --> 00:01:27,983
やりたいことは，画像のどこに犬がいるのかを矩形で

17
00:01:27,983 --> 00:01:35,261
囲むことです．そして実際にその位置に犬がいるのかどうかを

18
00:01:35,261 --> 00:01:39,586
評価するには，この矩形が正しい矩形と十分に重なっているか

19
00:01:39,586 --> 00:01:45,993
を見ます．さて，これが3次元物体認識でよく用いられている

20
00:01:45,993 --> 00:01:50,719
データセットです．このためにどんな手法が使えるでしょう．

21
00:01:50,719 --> 00:01:56,856
最初はもちろん，基本的なやり方である多重スケールのスライディングウインドウを

22
00:01:56,856 --> 00:02:01,706
使います．この方法は顔検出のために90年代に使われました．

23
00:02:01,706 --> 00:02:08,244
そして現在まで，人物検出などに使われています．では，

24
00:02:08,244 --> 00:02:13,505
この基本的な方法を見てみましょう．ここにウィンドウがあります．例えば，

25
00:02:13,505 --> 00:02:20,981
画像の左上から始めます．この緑色の四角の一つ一つが

26
00:02:20,981 --> 00:02:28,387
ウィンドウに対応します．そして，このウィンドウの中に，

27
00:02:28,387 --> 00:02:34,254
顔があるか？バスがあるのか？を認識します．そしてウィンドウを少しスライドして，

28
00:02:34,254 --> 00:02:39,791
同じ事をおこないます．画像中の人物の大きさは様々なので，

29
00:02:39,791 --> 00:02:45,815
この処理を色々な大きさのウィンドウを使って行い，小さな物体から

30
00:02:45,815 --> 00:02:53,717
大きな物体まで扱えるようにします．一般的に用いられている認識方法は

31
00:02:53,717 --> 00:02:58,106
線形サポートベクターマシン(SVM)を使って勾配方向ヒストグラム(HOG)特徴量を学習することです．

32
00:02:58,106 --> 00:03:05,048
これは2005年にDalalとTriggsが提案した方法で，

33
00:03:05,048 --> 00:03:09,319
彼等の論文に詳しく書かれています．これらのブロックをどう計算し正規化するか，などに

34
00:03:09,319 --> 00:03:13,531
興味があれば，彼らの論文をぜひ読んでください．

35
00:03:13,531 --> 00:03:18,866
DalalとTriggsのアプローチは歩行者検出に

36
00:03:18,866 --> 00:03:25,759
適用されましたが，そのためにはひとつのブロックで十分でした．これで

37
00:03:25,759 --> 00:03:31,736
対象物体を検出できました．それではもっと複雑な物体はどうでしょう．

38
00:03:31,736 --> 00:03:37,715
姿勢が変化したら？犬や猫はどうする？これらの変形は非剛体です．だから

39
00:03:37,715 --> 00:03:43,373
変形しないテンプレートが一つでは不十分です．そこで，パーツに基づく(part-based)アプローチが

40
00:03:43,373 --> 00:03:50,220
必要になります．現在，パーツに基づくアプローチは2つあります．1つ目は

41
00:03:50,220 --> 00:03:56,116
変形可能(deformable)パーツモデルで，Felzenszwalbらによって提案されたものです．これは

42
00:03:56,116 --> 00:04:03,207
2010年のPAMIの論文です．もう一つのアプローチはポーズレット(Poselet)と呼ばれるもので，

43
00:04:03,207 --> 00:04:09,915
Lubomir Bourdevやその他の私のグループの研究者が提案しました．

44
00:04:09,915 --> 00:04:16,031
その基本的なアイデアは？　まずFelzenszwalbのアプローチを紹介しましょう．

45
00:04:16,031 --> 00:04:23,734
彼らの基本的なアイデアは，ルートフィルタ(root filter)が物体全体を

46
00:04:23,734 --> 00:04:28,670
検出します．そして多数のパーツ用のフィルタ(part filters)が

47
00:04:28,670 --> 00:04:36,951
顔や足などを検出します．これらのパーツ用フィルタは

48
00:04:36,951 --> 00:04:43,412
ルートフィルタに対してある特殊な関係になる時だけ使われます．つまり，この検出器は

49
00:04:43,412 --> 00:04:50,087
物体全体の検出器とパーツ用フィルタの組み合わせであり，

50
00:04:50,087 --> 00:04:54,584
パーツ用フィルタは物体全体とある特定の関係にあるように制約されます．そして

51
00:04:54,584 --> 00:05:00,743
このアプローチは，ルートフィルタと様々なパーツ用フィルタから構成され，

52
00:05:00,743 --> 00:05:05,168
識別はLatentSVMによって行われます．このためには更にアノテーションを付ける必要はありません．

53
00:05:05,168 --> 00:05:11,663
ここでパーツとは，顔や足などです．ですが

54
00:05:11,663 --> 00:05:16,611
ここで注意したいのは，パーツとは，そのように何らかの意味のあるものでなくても

55
00:05:16,611 --> 00:05:23,751
構わないということです．もう一つのポーズレットのアプローチでは，アイデアとして

56
00:05:23,751 --> 00:05:29,735
パーツは意味のあるものでなくてはなりません．そしてそのために

57
00:05:29,735 --> 00:05:34,534
更なるアノテーションを付ける必要があります．例えば，人々の画像があるとします．

58
00:05:34,534 --> 00:05:38,503
これには，キーポイントにアノテーションを付けなければなりません．例えばこれは左肩であるとか

59
00:05:38,503 --> 00:05:42,688
右肩とか，左ひじ，右肩などです．その他のカテゴリの

60
00:05:42,688 --> 00:05:47,721
物体に対しては，キーポイントは，例えば飛行機のカテゴリであれば，

61
00:05:47,721 --> 00:05:53,775
胴体先端や翼の先端がキーポイントです．

62
00:05:53,775 --> 00:05:56,801
このアプローチには作業が必要になります．なぜなら，誰かが

63
00:05:56,801 --> 00:06:01,851
テスト画像を全部見て，キーポイントにマークを付けなければならないので．しかしその結果，

64
00:06:01,851 --> 00:06:07,950
もう少し色々なことができるようになります．このスライドに示しているのは，

65
00:06:07,950 --> 00:06:14,469
識別的に学習されたパーツに基づくモデルが物体を検出している様子です．

66
00:06:14,469 --> 00:06:21,024
これはDPMモデルという，Felzenszwalb，Girshick，MacAllester，Ramananが提案したものです．

67
00:06:21,024 --> 00:06:26,919
ここに示すように，このモデルは自転車を非常によく検出することができます．実際には，

68
00:06:26,919 --> 00:06:31,844
一つのモデルだけを学習するのではなく，混合モデルを学習します．ここの示すモデルは

69
00:06:31,844 --> 00:06:39,714
自転車を横から見たものに対応します．これはルートフィルタです．

70
00:06:39,714 --> 00:06:45,165
ルートフィルタはこのように見えます．これは剛体のテンプレートです．

71
00:06:45,165 --> 00:06:49,751
これは特定方向のエッジを探して，

72
00:06:49,751 --> 00:06:57,181
横から見た自転車を検出します．その次は様々なパーツ用フィルタです．パーツ用フィルタは

73
00:06:57,181 --> 00:07:02,204
これです．これらの一つ一つの矩形が，

74
00:07:02,204 --> 00:07:06,869
パーツ用フィルタに対応します．ここにあるフィルタは，

75
00:07:06,869 --> 00:07:15,257
タイヤを検出するテンプレートのようなものです．そして，

76
00:07:15,257 --> 00:07:20,969
最終的なスコアを計算します．そのためには，ルートフィルタのスコアと

77
00:07:20,969 --> 00:07:26,485
各パーツ用フィルタのスコアを総合します．

78
00:07:26,485 --> 00:07:31,122
横から見た自転車を検出するこの検出器は，

79
00:07:31,122 --> 00:07:36,826
自転車を前から見た場合にはうまく働きません．そのため，複数のモデルが

80
00:07:36,826 --> 00:07:44,490
必要になります．そのモデルがこれです．ここにタイヤがありますが，

81
00:07:44,490 --> 00:07:50,273
これはパーツとしては少し違います．そのため，複数のモデルを使います．

82
00:07:50,273 --> 00:07:55,113
色々な姿勢を扱う必要があります．各モデルは

83
00:07:55,113 --> 00:08:01,483
ルートフィルタと様々なパーツ用フィルタを組み合わせています．また，学習データには微妙な部分もあります．なぜなら

84
00:08:01,483 --> 00:08:07,163
キーポイントにたいするアノテーションがないかもしれないからです．

85
00:08:07,163 --> 00:08:11,042
ここで紹介した学習アプローチでは，

86
00:08:11,042 --> 00:08:15,420
学習したパーツがどこにあるのかを見つけます．詳細については，PAMI2010の論文を読んでください．

87
00:08:15,420 --> 00:08:23,544
それでは，どのくらい検出できているのでしょうか．一般的にコンピュータビジョンで用いられている

88
00:08:23,544 --> 00:08:29,519
検出器の評価方法を説明します．ここでは

89
00:08:29,519 --> 00:08:35,255
例えばオートバイ検出器を例に取りましょう．そして，適合率・再現率曲線を

90
00:08:35,255 --> 00:08:40,238
計算します．そのアイデアはこうです．検出アルゴリズムは

91
00:08:40,238 --> 00:08:47,430
オートバイがいるかもしれない場所を四角として検出します．そして

92
00:08:47,430 --> 00:08:52,147
この検出された矩形を評価します．それが正しいのか間違いなのか？　そして

93
00:08:52,147 --> 00:08:56,241
正しい矩形との重なりが例えば50%以上であれば，検出できたと

94
00:08:56,241 --> 00:09:04,838
することします．次に，このしきい値をどのくらい厳しくするのかを決めます．

95
00:09:04,838 --> 00:09:10,295
もし検出が十分な精度だと思うなら，すべての候補を検出結果として評価しても良いでしょう．

96
00:09:10,295 --> 00:09:14,573
もちろん全部のオートバイが検出できていれば，ですが．

97
00:09:14,573 --> 00:09:18,902
それはそれでよさそうです．ではここで何をするかというと，

98
00:09:18,902 --> 00:09:24,116
しきい値を決めてそれに対して適合率と再現率を計算します．

99
00:09:24,116 --> 00:09:30,775
適合率(precision)と再現率(recall)です．その意味はこうです．

100
00:09:30,775 --> 00:09:36,452
適合率とは，検出したオートバイのうち，何割が本当のオートバイなのかを

101
00:09:36,452 --> 00:09:44,117
表します．再現率とは，検出するべきオートバイのうち，どのくらいが

102
00:09:44,117 --> 00:09:49,205
検出できたのか，です．もちろん適合率は100%になるのが理想ですし

103
00:09:49,205 --> 00:09:54,519
再現率も100%がよい．でも実際にはそんなにうまく行きません．

104
00:09:54,519 --> 00:10:00,621
全部のオートバイが検出できなければ，例えば，この点では，

105
00:10:00,621 --> 00:10:07,112
適合率は0.7です．この意味は，検出した結果は

106
00:10:07,112 --> 00:10:12,704
70%しか正しくない，ということです．この点の再現率は

107
00:10:12,704 --> 00:10:19,082
55%程度なので，このしきい値では，つまり55%しか

108
00:10:19,082 --> 00:10:24,847
オートバイを検出できないということです．しきい値をあまくしていくと，

109
00:10:24,847 --> 00:10:28,644
誤検出が増えますが，未検出は減ります．

110
00:10:28,644 --> 00:10:32,905
曲線のこの付近では，

111
00:10:32,905 --> 00:10:38,603
およそ70%から80%のオートバイが

112
00:10:38,603 --> 00:10:45,605
検出されています．この図に示す複数の曲線は

113
00:10:45,605 --> 00:10:51,309
異なるアルゴリズムの結果を示しています．これらのアルゴリズムを比較するには

114
00:10:51,309 --> 00:10:59,018
曲線の下の面積(AUC)を用います．理想的には，もちろんこれは100%になります．

115
00:10:59,018 --> 00:11:04,432
実際には50%とか60%という数字になり，

116
00:11:04,432 --> 00:11:09,840
これは平均適合率(AP)と呼ばれています．これを用いて異なるアルゴリズムを比較します．

117
00:11:09,840 --> 00:11:16,740
この適合率再現率曲線は，別のカテゴリの物体検出結果を示しています．つまり

118
00:11:16,740 --> 00:11:21,751
人物検出です．異なるアルゴリズムに対応する曲線があります．

119
00:11:21,751 --> 00:11:27,215
このアルゴリズムはあまり良くありませんが，こちらのアルゴリズムはもっと性能が良いです．

120
00:11:27,215 --> 00:11:32,941
どの曲線でも，すべての人物は検出できていません．

121
00:11:32,941 --> 00:11:38,352
30%の人物はどのアルゴリズムでも検出されていません．

122
00:11:38,352 --> 00:11:43,059
一部が隠れていたり，一般的な姿勢をしていなかったりするためです．

123
00:11:43,059 --> 00:11:53,453
そういう状況は検出を非常に難しくします．　最終的にPASCAL VOCでは

124
00:11:53,453 --> 00:12:04,331
各クラスの平均適合率を計算します．そして

125
00:12:04,331 --> 00:12:09,887
2つの数値を求めます．Maxはそのカテゴリで最もよいアルゴリズムです．

126
00:12:09,887 --> 00:12:13,830
オートバイのmaxは58%，という具合です．これはオートバイ検出で

127
00:12:13,830 --> 00:12:19,490
最もよいアルゴリズムの平均適合率は58%ということです．そしてmedianは，

128
00:12:19,490 --> 00:12:23,888
もちろん複数のアルゴリズムの中央値です．

129
00:12:23,888 --> 00:12:29,237
あるカテゴリは別のカテゴリより簡単なものがあります．オートバイはおそらく

130
00:12:29,237 --> 00:12:35,100
一番簡単です．平均適合率が58%なので．植木鉢などはもっと難しく

131
00:12:35,100 --> 00:12:41,186
検出の平均適合率は16%しかありません．だから

132
00:12:41,186 --> 00:12:46,345
検出がうまくできているかどうかは，私の考えでは，すべてのカテゴリで

133
00:12:46,345 --> 00:12:51,849
平均適合率が50%以上かどうかです．ここではオートバイ，

134
00:12:51,849 --> 00:12:59,961
自転車，バス，飛行機，馬，車，猫，電車，バス，です．50%ということは，

135
00:12:59,961 --> 00:13:05,372
そのカテゴリでは半分正解して半分は間違えていると言えるかもしれません．

136
00:13:05,372 --> 00:13:11,567
50%程度なので，もしかすると「ボート」と答えているかもしれません．ではもっと難しい

137
00:13:11,567 --> 00:13:16,847
カテゴリを見てみましょう．ボートのカテゴリでは，平均適合率は

138
00:13:16,847 --> 00:13:22,343
0.23です．この例を見れば，なぜ

139
00:13:22,343 --> 00:13:26,773
難しいかが分かるでしょう．ボートによっては見かけが全然ちがいます．

140
00:13:26,773 --> 00:13:32,169
これは非常に難しいのです．これらをすべて学習して検出するには．

141
00:13:32,169 --> 00:13:39,397
それではもっと難しい例を見てみましょう．イスです．これらの画像に

142
00:13:39,397 --> 00:13:46,742
イスを表す矩形を描くとします．では，

143
00:13:46,742 --> 00:13:51,868
例えば剛体テンプレートでこれらを検出することを考えましょう．

144
00:13:51,868 --> 00:13:56,981
イスに特徴的なエッジを見つけるのです．分かるように，そのような方法では

145
00:13:56,981 --> 00:14:03,092
まったく見込みがありません．おそらく，人間がイスを見つける場合には，

146
00:14:03,092 --> 00:14:07,545
人間がイスの上に特定の姿勢で座る，という事実を使うでしょう．そして

147
00:14:07,545 --> 00:14:11,826
多くの文脈情報を使うはずですが，そのような情報は現在のアルゴリズムでは考慮されていません．

148
00:14:11,826 --> 00:14:19,887
では人物の画像に戻りましょう．人物画像の解析は

149
00:14:19,887 --> 00:14:27,741
非常に重要です．ヒューマンコンピュータインタラクションに応用できますし

150
00:14:27,741 --> 00:14:36,678
映像を解析し，動作を認識することにも使えます．しかし

151
00:14:36,678 --> 00:14:42,557
これは難しい．人物の姿勢が様々であり，服装も様々で

152
00:14:42,557 --> 00:14:47,892
隠れているかもしれないし，サイズも様々です．ですから人物は本当に

153
00:14:47,892 --> 00:14:51,613
難しいカテゴリです．物体認識にとって一番重要なカテゴリ

154
00:14:51,613 --> 00:14:57,418
かも知れません．それでは，ポーズレットを使ったアプローチの研究を紹介します．

155
00:14:57,418 --> 00:15:02,704
もう一つのアプローチとして紹介したものです．そのアイデアは

156
00:15:02,704 --> 00:15:08,611
顔検出や歩行者検出がうまく働くので，それに依存できる，ということです．

157
00:15:08,611 --> 00:15:14,193
顔認識は，すでに性能が非常に良いです．歩行者検出もそうです．特に

158
00:15:14,193 --> 00:15:21,682
直立した人物や歩いている歩行者は検出できます．本質的には

159
00:15:21,682 --> 00:15:25,760
どちらもパターンのマッチングに依存しています．共通した視覚的特徴のパターンを

160
00:15:25,760 --> 00:15:30,504
学習します．しかしそれは，この2つのパターンに限ったことではありません．

161
00:15:30,504 --> 00:15:35,269
実際，2本の足に対応するパターンも存在します．

162
00:15:35,269 --> 00:15:43,640
もしそれが検出できるなら，人物を検出したと確信できます．そして

163
00:15:43,640 --> 00:15:47,166
そのようなパターンは，人体のどこか一つの部位に対応するものでなくても良いのです．

164
00:15:47,166 --> 00:15:52,793
ここに示しているのは，顔の半分，胴体の半分，肩の中心です．

165
00:15:52,793 --> 00:15:56,616
これはうまくいきます．つまり，これは人物に特徴的なパターンなのです．

166
00:15:56,616 --> 00:16:04,882
もちろん，顔検出器を訓練するためには，顔をマークした

167
00:16:04,882 --> 00:16:08,998
画像が必要です．つまり顔だけの画像を

168
00:16:08,998 --> 00:16:14,105
正例として機械学習アルゴリズムに入力します．一方，

169
00:16:14,105 --> 00:16:19,079
これらの配置すべてを検出するにはどうしたらよいでしょう．足と顔と

170
00:16:19,079 --> 00:16:25,127
肩の配置を，です．ポーズレットのアイデアは，これらの検出器とまったく同じですが

171
00:16:25,127 --> 00:16:30,947
あらかじめこれらを指定することはやりたくありません．まずは

172
00:16:30,947 --> 00:16:38,204
ポーズレットの例をお見せします．これがポーズレットです．「レット」は一部分を意味します．

173
00:16:38,204 --> 00:16:44,428
ポーズレットは，人間の姿勢（ポーズ）が小さな部分的なポーズから構成されていると考えます．

174
00:16:44,428 --> 00:16:51,193
一番上の行は，顔，上半身，そして

175
00:16:51,193 --> 00:16:56,327
腕のある特定の配置に対応しています．2番めの行は，2本の足に対応します．3番目の行は，

176
00:16:56,327 --> 00:17:02,376
人間の後ろ姿に対応しています．実際には，

177
00:17:02,376 --> 00:17:11,535
このようなポーズレットが大量にあります．それが保持する値は

178
00:17:11,535 --> 00:17:17,128
あとで行うタスクを簡単にしてくれるものです．例えば

179
00:17:17,128 --> 00:17:22,246
性別認識を学習するとします．つまり男性と女性を識別します．そのためには

180
00:17:22,246 --> 00:17:28,788
顔の画像が使えますし，背中の画像も使えます．脚もです．

181
00:17:28,788 --> 00:17:34,847
服装が女声と男声ではかなり違いますから．アイデアは，これらを

182
00:17:34,847 --> 00:17:40,470
正例として検出器に学習させるのです．実際には2つの検出器を

183
00:17:40,470 --> 00:17:47,194
訓練します．一つは男性の顔，もう一つは女性の顔です．

184
00:17:47,194 --> 00:17:52,885
これをそれぞれの検出器で行なって，

185
00:17:52,885 --> 00:17:59,201
人物を識別することができます．

186
00:17:59,201 --> 00:18:04,673
いくつかの結果を示しましょう．これがこのアプローチの結果です．

187
00:18:04,673 --> 00:18:09,086
上の段は男性の検出結果，下の段は女性の検出結果です．

188
00:18:09,086 --> 00:18:14,669
いくつか間違いもあります．例えば，これは，

189
00:18:14,669 --> 00:18:23,273
実際には女性です．他にも間違いはありますが，それでも驚くほど結果は良好です．

190
00:18:23,273 --> 00:18:28,703
こちらの結果は，上の段は長いズボンをはいた人物です．

191
00:18:28,703 --> 00:18:34,159
下の段はズボンが短い人物です．これができれば，

192
00:18:34,159 --> 00:18:38,549
人物を記述することができるのが分かるでしょう．画像中に，

193
00:18:38,549 --> 00:18:42,646
人物がいて，背が高くて，ブロンドの男性で，

194
00:18:42,646 --> 00:18:52,107
緑色のズボンをはいている，と言えるようになります．この結果では，上段は

195
00:18:52,107 --> 00:18:58,569
帽子をかぶった人物，下の段は帽子がない人物です．このアプローチは

196
00:18:58,569 --> 00:19:05,337
動作の検出にも使えます．ここに示す結果は，静止画像中の動作を

197
00:19:05,337 --> 00:19:10,076
検出しています．画像は1枚しかありません．この画像は

198
00:19:10,076 --> 00:19:14,836
座っている人物，電話で話している人物，

199
00:19:14,836 --> 00:19:20,362
馬に乗っている人物，走っている人物，などです．ポーズレットは

200
00:19:20,362 --> 00:19:27,785
この問題にも適用できます．例えば，ポーズレットに

201
00:19:27,785 --> 00:19:32,645
電話をかけている人物，走っている人物，歩いている人物，馬に乗っている人物，を学習させます．

202
00:19:32,645 --> 00:19:40,973
このような動作の検出は，もっと一般的な問題です．

203
00:19:40,973 --> 00:19:45,724
明らかに，静止画像の情報だけでは足りません．

204
00:19:45,724 --> 00:19:51,395
映像があれば，オプティカルフローのベクトルが計算できます．この情報はこの問題を

205
00:19:51,395 --> 00:19:57,407
扱う別の情報になります．認識したい動作の種類としては，

206
00:19:57,407 --> 00:20:01,101
動きや姿勢の変化，物体の操作，会話のジェスチャ，

207
00:20:01,101 --> 00:20:06,625
手話，などがあります．そのためには，物体を英語の名詞と考えることもできます．

208
00:20:06,625 --> 00:20:12,882
動作は英語の動詞に相当します．すると

209
00:20:12,882 --> 00:20:15,985
物体認識に使われていた手法の幾つかがこの問題に使えることが分かります．

210
00:20:15,985 --> 00:20:21,202
例えばbag-of-spatio-temporal wordや，

211
00:20:21,202 --> 00:20:26,314
SIFT特徴を動画に一般化したものもあります．それらは非常に有用で

212
00:20:26,314 --> 00:20:34,568
動作認識タスクにおいて最良の結果も得られています．さてここで今回の話をまとめましょう．

213
00:20:34,568 --> 00:20:41,598
この研究分野は，物体認識，動作認識などにおいて非常に進歩してきたと

214
00:20:41,598 --> 00:20:46,897
私は思います．しかし，やらなければならないこともまだまだあります．

215
00:20:46,897 --> 00:20:51,109
マルチメディア情報システムの研究分野で使われている用語に

216
00:20:51,109 --> 00:20:58,860
セマンティックギャップというものがあります．これが示すのは，画像や映像は

217
00:20:58,860 --> 00:21:04,003
画素や輝度値，RGB値で表現されている，ということです．

218
00:21:04,003 --> 00:21:08,471
しかし私たちが本当に知りたいのは，意味的な内容なのです．シーン中の物体は何なのか？

219
00:21:08,471 --> 00:21:12,942
シーンとは何か？どんなイベントが起こっていているのか．このようなことを知りたいのです．

220
00:21:12,942 --> 00:21:19,059
しかしまだそこまでには至っていません．人間の性能に近づいてもいません．

221
00:21:19,059 --> 00:21:25,115
しかし，今後数年の間に，大きな進展は続くだろうと思っています．

222
00:21:25,115 --> 00:21:29,115
これで終わりです．
（日本語翻訳：玉木徹）