Return to Video

कंप्यूटर वस्तुओं को पहचानना कैसे सीखता है?

  • 0:01 - 0:02
    दस साल पहले,
  • 0:02 - 0:05
    कंप्यूटर दृष्टि शोधकर्ताओं ने
    सोचा था कि एक कंप्यूटर द्वारा
  • 0:05 - 0:07
    एक बिल्ली और एक कुत्ते
    के बीच अंतर बताना
  • 0:08 - 0:09
    लगभग असंभव होगा,
  • 0:10 - 0:13
    कृत्रिम बुद्धि में महत्वपूर्ण
    प्रगति के बावजूद भी
  • 0:13 - 0:17
    अब हम इसे 99 प्रतिशत से भी
    अधिक यथार्थता के साथ कर सकते हैं
  • 0:18 - 0:20
    इसे छबी वर्गीकरण कहा जाता है -
  • 0:20 - 0:23
    इसे एक छबी दें,
    उस छवि पर एक लेबल डालें -
  • 0:23 - 0:26
    और कंप्यूटर हजारों अन्य श्रेणीयां
    भी जानते हैं
  • 0:27 - 0:29
    मैं वॉशिंगटन विश्वविद्यालय में
    एक स्नातक छात्र हूँ,
  • 0:29 - 0:31
    मैं डार्कनेट परियोजना
    पर काम करता हूं,
  • 0:32 - 0:33
    जो एक तंत्रिका नेटवर्क ढांचा है
  • 0:33 - 0:36
    कंप्यूटर दृष्टि मॉडल के
    प्रशिक्षण और परीक्षण के लिए
  • 0:36 - 0:39
    चलो देखते हैं कि डार्कनेट क्या सोचता है?
  • 0:39 - 0:41
    इस छवि के बारे में, जो हमारे पास है.
  • 0:43 - 0:45
    जब हम अपने वर्गीकारक को
  • 0:45 - 0:46
    इस छवि पर चलाते हैं.
  • 0:46 - 0:49
    फिर हम केवल
    कुत्ते या बिल्ली का ही नहीं ,
  • 0:49 - 0:52
    वास्तव में हमें विशिष्ट नस्ल का
    पूर्वानुमान भी हो जाता है
  • 0:52 - 0:54
    अब ग्रैन्युलैरिटी का यह स्तर है
  • 0:54 - 0:55
    और यह सही है
  • 0:55 - 0:57
    मेरा कुत्ता वास्तव मेंअलास्का का है
  • 0:57 - 1:01
    इसलिए हमने आश्चर्यजनक प्रगति की है
    छवि वर्गीकरण में,
  • 1:01 - 1:04
    लेकिन क्या होता है
    जब हम अपने वर्गीकारक को चलाते हैं
  • 1:04 - 1:06
    ऐसी छवि पर जो इस तरह दिखती है?
  • 1:07 - 1:08
    अच्छा तो ...
  • 1:13 - 1:17
    हम देखते हैं कि क्लासिफायर वापस आता है
    एक बहुत ही समान भविष्यवाणी के साथ
  • 1:17 - 1:20
    और यह सही है,छबी में एक मलम्यूट है,
  • 1:20 - 1:23
    लेकिन सिर्फ इस लेबल से ,
    हम वास्तव में इतना नहीं जानते हैं
  • 1:23 - 1:25
    कि छवि में क्या हो रहा है?
  • 1:25 - 1:27
    हमें कुछ अधिक शक्तिशाली चाहिए।
  • 1:27 - 1:29
    मैं वस्तु का पता लगाने की
    समस्या पर काम करता हूँ,
  • 1:29 - 1:33
    जहां हम एक छवि को देखते हैं,
    वस्तुओं को खोजने का प्रयास करते हैं,
  • 1:33 - 1:34
    उनके आसपास बाउंडिंग बक्से लगाते हैं
  • 1:34 - 1:36
    और कहते हैं कि वे वस्तुओं क्या हैं?
  • 1:36 - 1:40
    जब हम इस छवि पर डिटेक्टर चलाते हैं
    तो यह होता है।
  • 1:41 - 1:43
    अब, इस तरह के परिणाम के साथ,
  • 1:44 - 1:47
    हम बहुत कुछ कर सकते हैं कंप्यूटर
    दूर दृष्टि एल्गोरिदम के साथ
  • 1:47 - 1:49
    हम जानते हैं कि इसे पता है
    कि एक बिल्ली व एक कुत्ता है
  • 1:49 - 1:51
    यह उनके सम्बंधित स्थानों को जानता है
  • 1:52 - 1:53
    उनका आकार
  • 1:53 - 1:55
    यह कुछ अतिरिक्त
    जानकारी भी जान सकता है
  • 1:55 - 1:57
    कि पृष्ठभूमि में किताब है
  • 1:57 - 2:01
    और अगर आप कंप्यूटर दृष्टि के
    शीर्ष पर एक सिस्टम बनाना चाहते हैं
  • 2:01 - 2:04
    जैसे कि एक स्वयं संचालित वाहन
    या एक रोबोट प्रणाली,
  • 2:04 - 2:06
    आप इस प्रकार
    की जानकारी चाहते हैं
  • 2:07 - 2:10
    आप कुछ ऐसा चाहते हैं जिससे
    आप भौतिक दुनिया के साथ बातचीत कर सकते हैं
  • 2:11 - 2:13
    अब, जब मैंने वस्तु का पता लगाने पर
    काम करना शुरू किया
  • 2:13 - 2:16
    एक एकल छवि को संसाधित
    करने के लिए 20 सेकंड लगे
  • 2:16 - 2:20
    इस डोमेन में गति कितनी महत्वपूर्ण है,
    ऐसा महसूस करने के लिए
  • 2:21 - 2:24
    यहाँ एक वस्तु डिटेक्टर का उदाहरण है
  • 2:24 - 2:26
    जो दो सेकंड लेता है
    एक छबी को संसाधित करने के लिए
  • 2:26 - 2:29
    तो यह 10 गुना तेज है
  • 2:29 - 2:32
    20 सेकंड प्रति छवि डिटेक्टर से,
  • 2:32 - 2:35
    और आप उस समय में देख सकते हैं
    जब यह पूर्वानुमान लगता है,
  • 2:35 - 2:37
    दुनिया की संपूर्ण स्थिति बदल गई है,
  • 2:38 - 2:40
    और यह बहुत उपयोगी नहीं होगा
  • 2:40 - 2:42
    लागू करने के लिए
  • 2:42 - 2:44
    अगर हम इसे दस गुना
    और तेज करते हैं
  • 2:44 - 2:47
    यानि कि डिटेक्टर के पांच
    फ्रेम प्रति सेकंड पर चलते हुए
  • 2:47 - 2:49
    यह बहुत बेहतर है,
  • 2:49 - 2:51
    लेकिन उदाहरण के लिए
  • 2:51 - 2:53
    अगर कोई बहुत अधिक हिलना डुलना है,
  • 2:53 - 2:56
    मैं अपनी कार चलाने के लिए
    ऐसा सिस्टम नहीं चाहूंगा
  • 2:57 - 3:00
    लैपटॉप पर वास्तविक समय में चलती हुई
    यह हमारी पहचान प्रणाली है
  • 3:01 - 3:04
    तो यह आसानी से ट्रैक करता है
    जब मैं फ्रेम के पास गति विधि करता हूँ
  • 3:04 - 3:08
    और यह विविध आकार
  • 3:09 - 3:11
    मुद्रा में,
  • 3:11 - 3:13
    आगे, पीछे परिवर्तन में मजबूत है।
  • 3:13 - 3:14
    यह भी खूब रही।
  • 3:14 - 3:16
    हमें वास्तव में यही चाहिए
  • 3:16 - 3:19
    अगर हम सिस्टम कंप्यूटर दृष्टि के
    शीर्ष पर बनाने जा रहे हैं
  • 3:19 - 3:23
    (तालियां)
  • 3:24 - 3:26
    तो बस कुछ ही वर्षों में,
  • 3:26 - 3:29
    हम प्रति छवि 20 सेकंड से
  • 3:29 - 3:33
    प्रति छवि 20 मिलीसेकंड तक चले गए हैं
    यानि कि एक हजार गुना तेज!
  • 3:33 - 3:34
    हम वहां कैसे पहुंचे?
  • 3:34 - 3:37
    ठीक है, अतीत में,
    ऑब्जेक्ट डिटेक्शन सिस्टम
  • 3:37 - 3:39
    इस तरह की एक छवि ले कर
  • 3:39 - 3:42
    और इसे क्षेत्रों के एक गुच्छे में
    विभाजित कर के
  • 3:42 - 3:45
    और फिर इन क्षेत्रों में प्रत्येक पर
    क्लासिफायर चलाते हुए
  • 3:45 - 3:47
    और उस क्लासिफायर के उच्च स्कोर को

  • 3:47 - 3:51
    छवि में पहचान माना जाता था
  • 3:51 - 3:55
    लेकिन इसमें छवि पहचान के लिए
    छवि पर हजारों बार क्लासिफायर चलाना,
  • 3:55 - 3:58
    हजारों तंत्रिका नेटवर्क मूल्यांकन
    करना होता था
  • 3:59 - 4:04
    इसके बजाय, हमने हर पहचान के लिए
    एक एकल नेटवर्क को प्रशिक्षित किया
  • 4:04 - 4:08
    यह एक साथ सभी बक्सों और श्रेणी
    संभावनाओं को बनाता है
  • 4:09 - 4:12
    हमारे सिस्टम से एक छवि को
    हजारों बार देखने की बजाय
  • 4:12 - 4:14
    उसका पता लगाने के लिए,
  • 4:14 - 4:15
    आप केवल एक बार देखते हैं,
  • 4:15 - 4:18
    यही कारण है कि हम इसे कहते हैं
    वस्तु का पता लगाने की योलो विधि
  • 4:19 - 4:23
    तो इस गति के साथ,
    हम सिर्फ छवियों तक सीमित नहीं हैं;
  • 4:23 - 4:26
    हम वास्तविक समय में वीडियो
    संसाधित कर सकते हैं
  • 4:26 - 4:29
    और अब, सिर्फ देखने के बजाय
    कि बिल्ली और कुत्ते,
  • 4:29 - 4:33
    हम उन्हें चारों ओर घूमते देख सकते हैं
    और एक दूसरे के साथ बातचीत करते हुए।
  • 4:35 - 4:37
    यह एक डिटेक्टर है जिसे
    हमने प्रशिक्षित किया है
  • 4:39 - 4:41
    80 विभिन्न वर्गों पर
  • 4:43 - 4:44
    माइक्रोसॉफ्ट के कोको डाटासेट में
  • 4:44 - 4:48
    इसमें सभी प्रकार की चीजें हैं
    जैसे चम्मच और कांटा, कटोरा,
  • 4:48 - 4:49
    उस तरह की सामान्य वस्तुएं
  • 4:50 - 4:53
    इसमें कई प्रकार की विदेशी चीजें हैं:
  • 4:53 - 4:57
    जानवर, कार, ज़ेबरा, जिराफ
  • 4:57 - 4:59
    और अब हम कुछ मज़ा करने वाले हैं
  • 4:59 - 5:01
    अब हम दर्शकों के
    बीच जाने वाले हैं
  • 5:01 - 5:03
    देखें किस प्रकार की
    चीजों का पता लगाते हैं
  • 5:03 - 5:05
    क्या कोई भरवां पशु चाहता है?
  • 5:06 - 5:08
    वहाँ कुछ टेडी भालू हैं
  • 5:10 - 5:15
    और हम पता लगाने की अपनी सीमा
    थोड़ी सी नीचे कर सकते हैं
  • 5:15 - 5:18
    ताकि हम अधिक लोगों को
    दर्शकों में ढूंढ सकते हैं
  • 5:20 - 5:22
    चलो देखते हैं कि हम रोकने के
    संकेत प्राप्त कर सकते हैं।
  • 5:22 - 5:24
    हमें कुछ बैकपैक मिलते हैं
  • 5:26 - 5:28
    चलो थोड़ा सा साइज बड़ा करें
  • 5:30 - 5:32
    और यह बढ़िया है
  • 5:32 - 5:35
    और सभी प्रसंस्करण
    वास्तविक समय में हो रहा है
  • 5:35 - 5:36
    लैपटॉप पर
  • 5:37 - 5:39
    और यह याद रखना महत्वपूर्ण है

  • 5:39 - 5:42
    कि यह एक सामान्य उद्देश्य है
    ऑब्जेक्ट डिटेक्शन सिस्टम,
  • 5:42 - 5:47
    इसलिए हम इसे किसी भी छवि डोमेन
    के लिए प्रशिक्षित कर सकते हैं।
  • 5:48 - 5:51
    उसी कोड का, जिसका हम उपयोग करते हैं
  • 5:51 - 5:53
    रोकने के संकेत या
    पैदल चलने वालों को ढूंढने के लिए,
  • 5:53 - 5:55
    स्वयं संचालित वाहन में साईकलों का,
  • 5:55 - 5:58
    कैंसर कोशिकाओं को खोजने के लिए
    इस्तेमाल किया जा सकता है
  • 5:58 - 6:01
    ऊतक बायोप्सी में
  • 6:01 - 6:05
    और दुनिया भर के शोधकर्ता पहले से ही
    इस तकनीक का इस्तेमाल
  • 6:06 - 6:10
    दवाइओं ,रोबोटिक्स जैसी चीजों
    की प्रगति के लिए कर रहे हैं
  • 6:10 - 6:11
    आज सुबह, मैंने एक पेपर पढ़ा
  • 6:11 - 6:16
    जहां वे नैरोबी राष्ट्रीय उद्यान में
    पशुओं की जनगणना कर रहे थे
  • 6:16 - 6:19
    योलो पहचान प्रणाली के साथ
    जो इसका हिस्सा रहा
  • 6:19 - 6:22
    और इसका कारण यह है कि
    डार्कनेट खुला स्रोत है
  • 6:22 - 6:24
    और सार्वजनिक डोमेन में है,
    जो सभी के लिए नि:शुल्क है
  • 6:26 - 6:31
    (तालियां)

  • 6:31 - 6:36
    हमने पड़ताल को और भी पहुँच वाला
    व उपयोगी बनाना चाहा¶
  • 6:36 - 6:40
    मॉडल अनुकूलन की नेटवर्क
    बिनारिजेशन और सन्निकटन के
  • 6:40 - 6:43
    संयोजन माध्यम से,
  • 6:43 - 6:47
    हमारी वस्तु जाँच प्रणाली
    एक फोन पर चल रही है
  • 6:53 - 6:58
    (तालियां)

  • 6:59 - 7:04
    और मैं वास्तव में उत्साहित हूँ क्योंकि
    अब हमारे पास एक बहुत शक्तिशाली समाधान है¶
  • 7:04 - 7:06
    इस निम्न स्तरीय
    कंप्यूटर दृष्टि समस्या के लिए,
  • 7:06 - 7:10
    कोई भी इसे ले सकता है
    और कुछ निर्माण कर सकता है
  • 7:10 - 7:13
    अतः बाकी सब आप व
    दुनिया भर के लोगों पर,
  • 7:13 - 7:16
    इस सॉफ़्टवेयर की पहुंच
    के साथ, निर्भर करता है
  • 7:16 - 7:20
    और मैं इंतजार नहीं कर सकता कि
    लोग इस तकनीक से क्या बनायेगें
  • 7:20 - 7:21
    धन्यवाद।
Title:
कंप्यूटर वस्तुओं को पहचानना कैसे सीखता है?
Speaker:
वक्ता: जोसेफ रेडमन
Description:

दस साल पहले, शोधकर्ताओं ने सोचा कि एक बिल्ली और कुत्ते के बीच के अंतर को बताने के लिए कंप्यूटर मिलना लगभग असंभव होगा आज, कम्प्यूटर विज़न सिस्टम 99 प्रतिशत सटीकता से अधिक है कैसे? यूसुफ रेडमन, योलो (आप केवल एक बार देखो) सिस्टम, ऑब्जेक्ट का पता लगाने का एक खुले स्रोत तरीका है जो छवियों और वीडियो में ऑब्जेक्ट की पहचान कर सकता है - ज़ाबरा से संकेतों को रोकने के लिए - बिजली की तेज़ गति के साथ एक उल्लेखनीय लाइव डेमो में, रेडमोन स्वयं-ड्राइविंग कारों, रोबोटिक्स और यहां तक ​​कि कैंसर का पता लगाने जैसे अनुप्रयोगों के लिए इस महत्वपूर्ण कदम को आगे दिखाता है।

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Hindi subtitles

Revisions