1 00:00:08,334 --> 00:00:09,417 Привет. 2 00:00:10,562 --> 00:00:13,951 Мы живём в удивительное время, 3 00:00:13,952 --> 00:00:19,281 когда новаторство и технология способны сделать невозможное 4 00:00:19,282 --> 00:00:22,559 или даже просто немыслимое, 5 00:00:22,560 --> 00:00:26,560 если говорить о стирании граней между немощью и мощью. 6 00:00:28,345 --> 00:00:31,325 15% населения Земли — 7 00:00:32,564 --> 00:00:35,324 миллиард человек во всём мире — 8 00:00:35,325 --> 00:00:37,184 живёт с инвалидностью, 9 00:00:37,185 --> 00:00:41,668 что делает таких людей самым большим меньшинством в мире. 10 00:00:42,605 --> 00:00:45,264 И живут они не на другой планете. 11 00:00:45,265 --> 00:00:50,145 Они могут быть частью нашей семьи, круга друзей или коллег. 12 00:00:51,426 --> 00:00:55,985 Сегодня я расскажу о том, как люди с речевыми дефектами 13 00:00:55,986 --> 00:00:59,366 скоро смогут общаться. 14 00:00:59,375 --> 00:01:03,233 Мне было 7 лет, когда родилась моя сестра Амал. 15 00:01:03,234 --> 00:01:05,893 Я был слишком мал, чтобы осознавать проблемы, 16 00:01:05,894 --> 00:01:09,463 с которыми наша семья сталкивалась ежедневно, 17 00:01:09,464 --> 00:01:13,813 но я видел, что Амал не могла ползать, есть или говорить, 18 00:01:13,814 --> 00:01:16,913 как другие малыши её возраста. 19 00:01:16,914 --> 00:01:22,063 Со временем мы приспособились к ребёнку с церебральным параличом, 20 00:01:22,064 --> 00:01:26,802 научились понимать её способ общения и её нужды. 21 00:01:28,406 --> 00:01:29,845 Спустя девять лет 22 00:01:29,846 --> 00:01:33,469 в нашей семье родился ещё один малыш, Ахмад. 23 00:01:34,469 --> 00:01:38,288 Ахмад решил расти так же, как и его сестра Амал: 24 00:01:38,289 --> 00:01:42,838 такой же умный, сообразительный, любопытный до всего вокруг, 25 00:01:42,839 --> 00:01:47,208 он также предпочёл свою собственную систему речи 26 00:01:47,209 --> 00:01:48,809 для общения с нами, 27 00:01:49,782 --> 00:01:53,081 а для людей, которые его не понимали, 28 00:01:53,082 --> 00:01:55,208 мы выступали в роли переводчиков. 29 00:01:55,209 --> 00:01:59,626 Амал и Ахмад говорят «нам», когда они голодны, 30 00:01:59,659 --> 00:02:04,528 звук «аа» заменяет имя моей сестры Норы. 31 00:02:04,542 --> 00:02:08,833 А чтобы позвать меня по имени, они говорят «абейя». 32 00:02:08,834 --> 00:02:12,585 Если им надо пойти в туалет, они произносят «ккхх». 33 00:02:13,366 --> 00:02:16,945 Мы понимаем большинство их особенных речевых сигналов, 34 00:02:16,946 --> 00:02:20,546 но это только мы, их близкие. 35 00:02:20,551 --> 00:02:25,131 И так обычно происходит со всеми, кто обделён внятной речью. 36 00:02:26,292 --> 00:02:29,471 Одна из таких людей — Урит. 37 00:02:29,472 --> 00:02:33,691 Урит — 34-летняя женщина с церебральным параличом. 38 00:02:33,692 --> 00:02:35,946 Она живёт самостоятельно. 39 00:02:35,947 --> 00:02:41,003 Она может водить машину, ходить в спортзал и делать массу других вещей. 40 00:02:42,917 --> 00:02:47,656 Однако, когда дело доходит до использования собственного голоса, 41 00:02:47,657 --> 00:02:50,912 то ей порой бывает труднее, чем на занятиях фитнесом, 42 00:02:50,913 --> 00:02:53,122 её переполняет чувство досады, 43 00:02:53,123 --> 00:02:58,542 когда ей приходится повторять одно и то же слово снова и снова, 44 00:02:58,543 --> 00:03:01,067 чтобы её поняли. 45 00:03:01,068 --> 00:03:04,738 Мы попросили Урит произнести несколько слов по-английски. 46 00:03:06,370 --> 00:03:08,199 Давайте вместе её послушаем 47 00:03:08,200 --> 00:03:11,280 и посмотрим, сможете ли вы понять, что она пытается сказать. 48 00:03:11,856 --> 00:03:16,356 (неразборчивая речь) 49 00:03:17,481 --> 00:03:21,861 Не знаю, скольким из вас удалось разобрать её слова с первого раза, 50 00:03:21,862 --> 00:03:23,471 но давайте прослушаем ещё раз, 51 00:03:23,472 --> 00:03:27,521 по-настоящему стараясь понять, что она пытается сказать. 52 00:03:27,522 --> 00:03:32,088 (неразборчивая речь) 53 00:03:33,251 --> 00:03:37,491 Попробуйте запомнить, что вы услышали; мы вернёмся к этому позже. 54 00:03:38,664 --> 00:03:41,883 Мои брат и сестра, Урит и другие знакомые мне люди 55 00:03:41,884 --> 00:03:46,443 дали мне возможность наблюдать за миром, полным проблем — 56 00:03:46,444 --> 00:03:49,454 миром особенных и нуждающихся людей. 57 00:03:50,353 --> 00:03:53,772 И это позволило мне проанализировать существующие технологии 58 00:03:53,773 --> 00:03:57,865 в поиске решения, необходимого моей сестре и моему брату. 59 00:03:58,542 --> 00:04:02,334 К сожалению, существующие вспомогательные технологии, 60 00:04:02,335 --> 00:04:07,348 включая программы распознавания речи, были не способны помочь. 61 00:04:08,485 --> 00:04:13,534 На сегодняшний день все вспомогательные технологии полностью отказались от голоса, 62 00:04:13,535 --> 00:04:17,411 сделав ставку на использование других способов общения, 63 00:04:18,362 --> 00:04:22,361 при которых голос заменяется символами, картинками 64 00:04:22,362 --> 00:04:26,222 или движениями тела, головы или глаз. 65 00:04:27,356 --> 00:04:31,806 Теперь поговорим о более щадящей альтернативе, использующей голос, — 66 00:04:32,695 --> 00:04:35,844 о приложениях распознавания речи. 67 00:04:35,845 --> 00:04:39,395 Эта технология развивается в двух направлениях. 68 00:04:40,281 --> 00:04:44,781 Первый подход — попытки определить, какое слово было произнесено. 69 00:04:46,013 --> 00:04:49,302 Второй подход основан на распознавании фонем. 70 00:04:49,303 --> 00:04:54,533 Фонемы — это все звуки, производимые нами с помощью рта и носа. 71 00:04:55,618 --> 00:04:59,806 Оба подхода основаны на статистических моделях 72 00:04:59,807 --> 00:05:03,136 из огромной базы данных речевых стандартов. 73 00:05:03,137 --> 00:05:05,959 Но если речь нестандартная — 74 00:05:05,960 --> 00:05:09,659 достаточно просто наличия акцента, 75 00:05:09,660 --> 00:05:11,739 как у большинства из нас здесь, — 76 00:05:11,740 --> 00:05:13,770 то программа не работает. 77 00:05:14,444 --> 00:05:19,593 Мои коллеги и я разработали новый метод для подобных технологий, 78 00:05:19,594 --> 00:05:22,355 при котором используется голос самого человека, 79 00:05:22,356 --> 00:05:26,175 а также учитываются нестандартные особенности речи, 80 00:05:26,176 --> 00:05:31,506 что помогает людям с речевыми дефектами вновь обрести голос. 81 00:05:32,858 --> 00:05:36,407 Итак, чью жизнь это изменит? 82 00:05:36,408 --> 00:05:39,166 Людей с церебральным параличом, 83 00:05:39,167 --> 00:05:41,959 людей с болезнью Паркинсона и с тяжёлой миастенией, 84 00:05:41,972 --> 00:05:44,347 со множеством других неврологических расстройств, 85 00:05:44,348 --> 00:05:46,637 людей, родившихся с дефектом слуха, 86 00:05:46,638 --> 00:05:51,717 или тех, кто внезапно пережил инсульт, перевернувший их жизнь, 87 00:05:51,718 --> 00:05:54,569 но не только их. 88 00:05:54,570 --> 00:05:58,803 Не только тех, кто с трудом может себя выразить, 89 00:05:58,804 --> 00:06:03,473 но и всех тех, кто имеет с ними дело день за днём. 90 00:06:03,474 --> 00:06:08,547 Это облегчит им путь в общество, 91 00:06:08,548 --> 00:06:13,195 потому что каждому из нас хочется быть частью общества. 92 00:06:13,196 --> 00:06:17,508 Вы, наверное, спрашиваете себя сейчас: «Как же этот метод работает?» 93 00:06:17,509 --> 00:06:22,078 «Почему другие технологии распознавания речи не смогли сделать то же самое?» 94 00:06:24,978 --> 00:06:27,598 Дело в том, что наша технология действует иначе. 95 00:06:28,808 --> 00:06:32,217 Каждый человек должен пройти через две фазы. 96 00:06:32,218 --> 00:06:35,357 Первая фаза называется фазой калибрации, 97 00:06:35,358 --> 00:06:41,047 когда человек обучает устройство и приложение своим речевым моделям, 98 00:06:41,048 --> 00:06:44,227 заводя их в систему и создавая свой собственный словарь. 99 00:06:44,228 --> 00:06:45,920 Как правило, во время этой фазы 100 00:06:45,921 --> 00:06:48,920 помогает тот, кто лучше всех понимает пациента. 101 00:06:48,921 --> 00:06:51,090 Они составляют словарь вместе. 102 00:06:51,091 --> 00:06:55,340 Обычно на это уходит всего от одного до трёх часов 103 00:06:55,341 --> 00:06:58,280 в зависимости от речевых способностей говорящего. 104 00:06:58,281 --> 00:07:00,022 После составления словаря 105 00:07:00,023 --> 00:07:03,642 мы переходим ко второй фазе, называемой фазой распознавания. 106 00:07:03,643 --> 00:07:07,628 Приложение способно распознать в неразборчивой речи 107 00:07:07,629 --> 00:07:10,828 модели из уже готового словаря 108 00:07:10,829 --> 00:07:14,369 и перевести их в чёткую речь в реальном времени. 109 00:07:15,660 --> 00:07:19,819 Наш подход зависит от пользователя, но не от языка, 110 00:07:19,820 --> 00:07:23,470 что делает его подходящим для любого языка в мире, 111 00:07:24,347 --> 00:07:26,476 даже для выдуманного. 112 00:07:26,477 --> 00:07:29,726 Главным понятием здесь является «сопоставление фрагментов». 113 00:07:29,727 --> 00:07:35,016 Как только собственный словарь готов и произнесено существующее в нём слово, 114 00:07:35,017 --> 00:07:36,682 происходит сопоставление фрагментов 115 00:07:36,682 --> 00:07:39,832 между тем, что произнесено, и тем, что находится в словаре. 116 00:07:39,833 --> 00:07:41,852 Но с этим у нас возникла проблема. 117 00:07:41,853 --> 00:07:44,921 Мы обнаружили, что люди с речевыми дефектами 118 00:07:44,922 --> 00:07:48,012 произносят разные слова очень похоже. 119 00:07:49,652 --> 00:07:53,601 И нашей задачей было научить систему их различать. 120 00:07:53,602 --> 00:07:57,314 Так мы создали технологию под названием Adaptive Framing. 121 00:07:58,255 --> 00:08:03,825 Технологию Adaptive Framing можно подогнать к ширине звука во фрагменте. 122 00:08:03,834 --> 00:08:09,543 В известных технологиях «Л» и «А» занимают один и тот же отсек. 123 00:08:10,402 --> 00:08:15,011 В нашей же технологии «Л» и «А» занимают разные отсеки, 124 00:08:15,012 --> 00:08:18,042 что увеличивает точность при сопоставлении фрагментов. 125 00:08:18,844 --> 00:08:22,914 Поэтому наш алгоритм сопоставления фрагментов работает лучше. 126 00:08:23,463 --> 00:08:26,352 Полагаю, вы ещё не забыли Урит? 127 00:08:26,353 --> 00:08:30,523 Давайте послушаем её снова, но на этот раз вместе с Talkitt: 128 00:08:33,520 --> 00:08:34,568 (неразборчивая речь) 129 00:08:34,570 --> 00:08:36,042 Теперь я могу... 130 00:08:36,043 --> 00:08:37,373 (неразборчивая речь) 131 00:08:37,374 --> 00:08:38,374 начать ... 132 00:08:38,375 --> 00:08:39,881 (неразборчивая речь) 133 00:08:39,881 --> 00:08:41,522 говорить свободно. 134 00:08:42,982 --> 00:08:45,332 (Аплодисменты) 135 00:08:55,552 --> 00:08:57,906 Talkitt — это лишь один из шагов 136 00:08:57,907 --> 00:09:02,026 на пути сужения пропасти между немощью и мощью, 137 00:09:02,027 --> 00:09:04,946 позволяющий людям выразить свой потенциал. 138 00:09:04,947 --> 00:09:07,085 Чем больше мы озадачим свой разум, 139 00:09:07,086 --> 00:09:11,512 тем меньше препятствий будет у всех нас на пути к нормальной жизни. 140 00:09:11,513 --> 00:09:12,622 Спасибо. 141 00:09:12,623 --> 00:09:14,373 (Аплодисменты)