कंप्यूटर वस्तुओं को पहचानना कैसे सीखता है?

0:01 - 0:02

दस साल पहले,
0:02 - 0:05

कंप्यूटर दृष्टि शोधकर्ताओं ने
सोचा था कि एक कंप्यूटर द्वारा
0:05 - 0:07

एक बिल्ली और एक कुत्ते
के बीच अंतर बताना
0:08 - 0:09

लगभग असंभव होगा,
0:10 - 0:13

कृत्रिम बुद्धि में महत्वपूर्ण
प्रगति के बावजूद भी
0:13 - 0:17

अब हम इसे 99 प्रतिशत से भी
अधिक यथार्थता के साथ कर सकते हैं
0:18 - 0:20

इसे छबी वर्गीकरण कहा जाता है -
0:20 - 0:23

इसे एक छबी दें,
उस छवि पर एक लेबल डालें -
0:23 - 0:26

और कंप्यूटर हजारों अन्य श्रेणीयां
भी जानते हैं
0:27 - 0:29

मैं वॉशिंगटन विश्वविद्यालय में
एक स्नातक छात्र हूँ,
0:29 - 0:31

मैं डार्कनेट परियोजना
पर काम करता हूं,
0:32 - 0:33

जो एक तंत्रिका नेटवर्क ढांचा है
0:33 - 0:36

कंप्यूटर दृष्टि मॉडल के
प्रशिक्षण और परीक्षण के लिए
0:36 - 0:39

चलो देखते हैं कि डार्कनेट क्या सोचता है?
0:39 - 0:41

इस छवि के बारे में, जो हमारे पास है.
0:43 - 0:45

जब हम अपने वर्गीकारक को
0:45 - 0:46

इस छवि पर चलाते हैं.
0:46 - 0:49

फिर हम केवल
कुत्ते या बिल्ली का ही नहीं ,
0:49 - 0:52

वास्तव में हमें विशिष्ट नस्ल का
पूर्वानुमान भी हो जाता है
0:52 - 0:54

अब ग्रैन्युलैरिटी का यह स्तर है
0:54 - 0:55

और यह सही है
0:55 - 0:57

मेरा कुत्ता वास्तव मेंअलास्का का है
0:57 - 1:01

इसलिए हमने आश्चर्यजनक प्रगति की है
छवि वर्गीकरण में,
1:01 - 1:04

लेकिन क्या होता है
जब हम अपने वर्गीकारक को चलाते हैं
1:04 - 1:06

ऐसी छवि पर जो इस तरह दिखती है?
1:07 - 1:08

अच्छा तो ...
1:13 - 1:17

हम देखते हैं कि क्लासिफायर वापस आता है
एक बहुत ही समान भविष्यवाणी के साथ
1:17 - 1:20

और यह सही है,छबी में एक मलम्यूट है,
1:20 - 1:23

लेकिन सिर्फ इस लेबल से ,
हम वास्तव में इतना नहीं जानते हैं
1:23 - 1:25

कि छवि में क्या हो रहा है?
1:25 - 1:27

हमें कुछ अधिक शक्तिशाली चाहिए।
1:27 - 1:29

मैं वस्तु का पता लगाने की
समस्या पर काम करता हूँ,
1:29 - 1:33

जहां हम एक छवि को देखते हैं,
वस्तुओं को खोजने का प्रयास करते हैं,
1:33 - 1:34

उनके आसपास बाउंडिंग बक्से लगाते हैं
1:34 - 1:36

और कहते हैं कि वे वस्तुओं क्या हैं?
1:36 - 1:40

जब हम इस छवि पर डिटेक्टर चलाते हैं
तो यह होता है।
1:41 - 1:43

अब, इस तरह के परिणाम के साथ,
¶
1:44 - 1:47

हम बहुत कुछ कर सकते हैं कंप्यूटर
दूर दृष्टि एल्गोरिदम के साथ
1:47 - 1:49

हम जानते हैं कि इसे पता है
कि एक बिल्ली व एक कुत्ता है
1:49 - 1:51

यह उनके सम्बंधित स्थानों को जानता है
1:52 - 1:53

उनका आकार
1:53 - 1:55

यह कुछ अतिरिक्त
जानकारी भी जान सकता है
1:55 - 1:57

कि पृष्ठभूमि में किताब है
1:57 - 2:01

और अगर आप कंप्यूटर दृष्टि के
शीर्ष पर एक सिस्टम बनाना चाहते हैं
2:01 - 2:04

जैसे कि एक स्वयं संचालित वाहन
या एक रोबोट प्रणाली,
2:04 - 2:06

आप इस प्रकार
की जानकारी चाहते हैं
2:07 - 2:10

आप कुछ ऐसा चाहते हैं जिससे
आप भौतिक दुनिया के साथ बातचीत कर सकते हैं
2:11 - 2:13

अब, जब मैंने वस्तु का पता लगाने पर
काम करना शुरू किया
2:13 - 2:16

एक एकल छवि को संसाधित
करने के लिए 20 सेकंड लगे
2:16 - 2:20

इस डोमेन में गति कितनी महत्वपूर्ण है,
ऐसा महसूस करने के लिए
2:21 - 2:24

यहाँ एक वस्तु डिटेक्टर का उदाहरण है
2:24 - 2:26

जो दो सेकंड लेता है
एक छबी को संसाधित करने के लिए
2:26 - 2:29

तो यह 10 गुना तेज है
2:29 - 2:32

20 सेकंड प्रति छवि डिटेक्टर से,
2:32 - 2:35

और आप उस समय में देख सकते हैं
जब यह पूर्वानुमान लगता है,
2:35 - 2:37

दुनिया की संपूर्ण स्थिति बदल गई है,
2:38 - 2:40

और यह बहुत उपयोगी नहीं होगा
2:40 - 2:42

लागू करने के लिए
2:42 - 2:44

अगर हम इसे दस गुना
और तेज करते हैं
2:44 - 2:47

यानि कि डिटेक्टर के पांच
फ्रेम प्रति सेकंड पर चलते हुए
2:47 - 2:49

यह बहुत बेहतर है,
2:49 - 2:51

लेकिन उदाहरण के लिए
2:51 - 2:53

अगर कोई बहुत अधिक हिलना डुलना है,
2:53 - 2:56

मैं अपनी कार चलाने के लिए
ऐसा सिस्टम नहीं चाहूंगा
2:57 - 3:00

लैपटॉप पर वास्तविक समय में चलती हुई
यह हमारी पहचान प्रणाली है
3:01 - 3:04

तो यह आसानी से ट्रैक करता है
जब मैं फ्रेम के पास गति विधि करता हूँ
3:04 - 3:08

और यह विविध आकार
3:09 - 3:11

मुद्रा में,
3:11 - 3:13

आगे, पीछे परिवर्तन में मजबूत है।
3:13 - 3:14

यह भी खूब रही।
3:14 - 3:16

हमें वास्तव में यही चाहिए
3:16 - 3:19

अगर हम सिस्टम कंप्यूटर दृष्टि के
शीर्ष पर बनाने जा रहे हैं
3:19 - 3:23

(तालियां)
3:24 - 3:26

तो बस कुछ ही वर्षों में,
3:26 - 3:29

हम प्रति छवि 20 सेकंड से
3:29 - 3:33

प्रति छवि 20 मिलीसेकंड तक चले गए हैं
यानि कि एक हजार गुना तेज!
3:33 - 3:34

हम वहां कैसे पहुंचे?
3:34 - 3:37

ठीक है, अतीत में,
ऑब्जेक्ट डिटेक्शन सिस्टम
3:37 - 3:39

इस तरह की एक छवि ले कर
3:39 - 3:42

और इसे क्षेत्रों के एक गुच्छे में
विभाजित कर के
3:42 - 3:45

और फिर इन क्षेत्रों में प्रत्येक पर
क्लासिफायर चलाते हुए
3:45 - 3:47

और उस क्लासिफायर के उच्च स्कोर को
3:47 - 3:51

छवि में पहचान माना जाता था
3:51 - 3:55

लेकिन इसमें छवि पहचान के लिए
छवि पर हजारों बार क्लासिफायर चलाना,
3:55 - 3:58

हजारों तंत्रिका नेटवर्क मूल्यांकन
करना होता था
3:59 - 4:04

इसके बजाय, हमने हर पहचान के लिए
एक एकल नेटवर्क को प्रशिक्षित किया
4:04 - 4:08

यह एक साथ सभी बक्सों और श्रेणी
संभावनाओं को बनाता है
4:09 - 4:12

हमारे सिस्टम से एक छवि को
हजारों बार देखने की बजाय
4:12 - 4:14

उसका पता लगाने के लिए,
4:14 - 4:15

आप केवल एक बार देखते हैं,
4:15 - 4:18

यही कारण है कि हम इसे कहते हैं
वस्तु का पता लगाने की योलो विधि
4:19 - 4:23

तो इस गति के साथ,
हम सिर्फ छवियों तक सीमित नहीं हैं;
4:23 - 4:26

हम वास्तविक समय में वीडियो
संसाधित कर सकते हैं
4:26 - 4:29

और अब, सिर्फ देखने के बजाय
कि बिल्ली और कुत्ते,
4:29 - 4:33

हम उन्हें चारों ओर घूमते देख सकते हैं
और एक दूसरे के साथ बातचीत करते हुए।
4:35 - 4:37

यह एक डिटेक्टर है जिसे
हमने प्रशिक्षित किया है
4:39 - 4:41

80 विभिन्न वर्गों पर
4:43 - 4:44

माइक्रोसॉफ्ट के कोको डाटासेट में
4:44 - 4:48

इसमें सभी प्रकार की चीजें हैं
जैसे चम्मच और कांटा, कटोरा,
4:48 - 4:49

उस तरह की सामान्य वस्तुएं
4:50 - 4:53

इसमें कई प्रकार की विदेशी चीजें हैं:
4:53 - 4:57

जानवर, कार, ज़ेबरा, जिराफ
4:57 - 4:59

और अब हम कुछ मज़ा करने वाले हैं
4:59 - 5:01

अब हम दर्शकों के
बीच जाने वाले हैं
5:01 - 5:03

देखें किस प्रकार की
चीजों का पता लगाते हैं
5:03 - 5:05

क्या कोई भरवां पशु चाहता है?
5:06 - 5:08

वहाँ कुछ टेडी भालू हैं
5:10 - 5:15

और हम पता लगाने की अपनी सीमा
थोड़ी सी नीचे कर सकते हैं
5:15 - 5:18

ताकि हम अधिक लोगों को
दर्शकों में ढूंढ सकते हैं
5:20 - 5:22

चलो देखते हैं कि हम रोकने के
संकेत प्राप्त कर सकते हैं।
5:22 - 5:24

हमें कुछ बैकपैक मिलते हैं
5:26 - 5:28

चलो थोड़ा सा साइज बड़ा करें
5:30 - 5:32

और यह बढ़िया है
5:32 - 5:35

और सभी प्रसंस्करण
वास्तविक समय में हो रहा है
5:35 - 5:36

लैपटॉप पर
5:37 - 5:39

और यह याद रखना महत्वपूर्ण है
¶
5:39 - 5:42

कि यह एक सामान्य उद्देश्य है
ऑब्जेक्ट डिटेक्शन सिस्टम,
5:42 - 5:47

इसलिए हम इसे किसी भी छवि डोमेन
के लिए प्रशिक्षित कर सकते हैं।
5:48 - 5:51

उसी कोड का, जिसका हम उपयोग करते हैं
5:51 - 5:53

रोकने के संकेत या
पैदल चलने वालों को ढूंढने के लिए,
5:53 - 5:55

स्वयं संचालित वाहन में साईकलों का,
5:55 - 5:58

कैंसर कोशिकाओं को खोजने के लिए
इस्तेमाल किया जा सकता है
5:58 - 6:01

ऊतक बायोप्सी में
6:01 - 6:05

और दुनिया भर के शोधकर्ता पहले से ही
इस तकनीक का इस्तेमाल
6:06 - 6:10

दवाइओं ,रोबोटिक्स जैसी चीजों
की प्रगति के लिए कर रहे हैं
6:10 - 6:11

आज सुबह, मैंने एक पेपर पढ़ा
6:11 - 6:16

जहां वे नैरोबी राष्ट्रीय उद्यान में
पशुओं की जनगणना कर रहे थे
6:16 - 6:19

योलो पहचान प्रणाली के साथ
जो इसका हिस्सा रहा
6:19 - 6:22

और इसका कारण यह है कि
डार्कनेट खुला स्रोत है
6:22 - 6:24

और सार्वजनिक डोमेन में है,
जो सभी के लिए नि:शुल्क है
6:26 - 6:31

(तालियां)
¶
6:31 - 6:36

हमने पड़ताल को और भी पहुँच वाला
व उपयोगी बनाना चाहा¶
6:36 - 6:40

मॉडल अनुकूलन की नेटवर्क
बिनारिजेशन और सन्निकटन के
6:40 - 6:43

संयोजन माध्यम से,
6:43 - 6:47

हमारी वस्तु जाँच प्रणाली
एक फोन पर चल रही है
6:53 - 6:58

(तालियां)
¶
6:59 - 7:04

और मैं वास्तव में उत्साहित हूँ क्योंकि
अब हमारे पास एक बहुत शक्तिशाली समाधान है¶
7:04 - 7:06

इस निम्न स्तरीय
कंप्यूटर दृष्टि समस्या के लिए,
7:06 - 7:10

कोई भी इसे ले सकता है
और कुछ निर्माण कर सकता है
7:10 - 7:13

अतः बाकी सब आप व
दुनिया भर के लोगों पर,
7:13 - 7:16

इस सॉफ़्टवेयर की पहुंच
के साथ, निर्भर करता है
7:16 - 7:20

और मैं इंतजार नहीं कर सकता कि
लोग इस तकनीक से क्या बनायेगें
7:20 - 7:21

धन्यवाद।
¶

Title:: कंप्यूटर वस्तुओं को पहचानना कैसे सीखता है?
Speaker:: वक्ता: जोसेफ रेडमन
Description:: दस साल पहले, शोधकर्ताओं ने सोचा कि एक बिल्ली और कुत्ते के बीच के अंतर को बताने के लिए कंप्यूटर मिलना लगभग असंभव होगा आज, कम्प्यूटर विज़न सिस्टम 99 प्रतिशत सटीकता से अधिक है कैसे? यूसुफ रेडमन, योलो (आप केवल एक बार देखो) सिस्टम, ऑब्जेक्ट का पता लगाने का एक खुले स्रोत तरीका है जो छवियों और वीडियो में ऑब्जेक्ट की पहचान कर सकता है - ज़ाबरा से संकेतों को रोकने के लिए - बिजली की तेज़ गति के साथ एक उल्लेखनीय लाइव डेमो में, रेडमोन स्वयं-ड्राइविंग कारों, रोबोटिक्स और यहां तक कि कैंसर का पता लगाने जैसे अनुप्रयोगों के लिए इस महत्वपूर्ण कदम को आगे दिखाता है।

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Omprakash Bisen edited Hindi subtitles for How computers learn to recognize objects instantly
	Arvind Patil edited Hindi subtitles for How computers learn to recognize objects instantly
	Dr Prem P. Atreja edited Hindi subtitles for How computers learn to recognize objects instantly
	Dr Prem P. Atreja edited Hindi subtitles for How computers learn to recognize objects instantly
	Dr Prem P. Atreja edited Hindi subtitles for How computers learn to recognize objects instantly

Hindi subtitles

Revisions

Revision 5 Edited

Omprakash Bisen

कंप्यूटर वस्तुओं को पहचानना कैसे सीखता है?

Revisions

Our website uses cookies

Operating cookies (Required)