1
00:00:08,334 --> 00:00:09,417
Привет.

2
00:00:10,562 --> 00:00:13,951
Мы живём в удивительное время,

3
00:00:13,952 --> 00:00:19,281
когда новаторство и технология
способны сделать невозможное

4
00:00:19,282 --> 00:00:22,559
или даже просто немыслимое,

5
00:00:22,560 --> 00:00:26,560
если говорить о стирании граней
между немощью и мощью.

6
00:00:28,345 --> 00:00:31,325
15% населения Земли —

7
00:00:32,564 --> 00:00:35,324
миллиард человек во всём мире —

8
00:00:35,325 --> 00:00:37,184
живёт с инвалидностью,

9
00:00:37,185 --> 00:00:41,668
что делает таких людей
самым большим меньшинством в мире.

10
00:00:42,605 --> 00:00:45,264
И живут они не на другой планете.

11
00:00:45,265 --> 00:00:50,145
Они могут быть частью нашей семьи,
круга друзей или коллег.

12
00:00:51,426 --> 00:00:55,985
Сегодня я расскажу о том,
как люди с речевыми дефектами

13
00:00:55,986 --> 00:00:59,366
скоро смогут общаться.

14
00:00:59,375 --> 00:01:03,233
Мне было 7 лет,
когда родилась моя сестра Амал.

15
00:01:03,234 --> 00:01:05,893
Я был слишком мал,
чтобы осознавать проблемы,

16
00:01:05,894 --> 00:01:09,463
с которыми наша семья
сталкивалась ежедневно,

17
00:01:09,464 --> 00:01:13,813
но я видел, что Амал не могла
ползать, есть или говорить,

18
00:01:13,814 --> 00:01:16,913
как другие малыши её возраста.

19
00:01:16,914 --> 00:01:22,063
Со временем мы приспособились
к ребёнку с церебральным параличом,

20
00:01:22,064 --> 00:01:26,802
научились понимать её способ
общения и её нужды.

21
00:01:28,406 --> 00:01:29,845
Спустя девять лет

22
00:01:29,846 --> 00:01:33,469
в нашей семье родился
ещё один малыш, Ахмад.

23
00:01:34,469 --> 00:01:38,288
Ахмад решил расти так же,
как и его сестра Амал:

24
00:01:38,289 --> 00:01:42,838
такой же умный, сообразительный,
любопытный до всего вокруг,

25
00:01:42,839 --> 00:01:47,208
он также предпочёл свою
собственную систему речи

26
00:01:47,209 --> 00:01:48,809
для общения с нами,

27
00:01:49,782 --> 00:01:53,081
а для людей, которые его не понимали,

28
00:01:53,082 --> 00:01:55,208
мы выступали в роли переводчиков.

29
00:01:55,209 --> 00:01:59,626
Амал и Ахмад говорят «нам»,
когда они голодны,

30
00:01:59,659 --> 00:02:04,528
звук «аа» заменяет
имя моей сестры Норы.

31
00:02:04,542 --> 00:02:08,833
А чтобы позвать меня
по имени, они говорят «абейя».

32
00:02:08,834 --> 00:02:12,585
Если им надо пойти в туалет,
они произносят «ккхх».

33
00:02:13,366 --> 00:02:16,945
Мы понимаем большинство
их особенных речевых сигналов,

34
00:02:16,946 --> 00:02:20,546
но это только мы, их близкие.

35
00:02:20,551 --> 00:02:25,131
И так обычно происходит со всеми,
кто обделён внятной речью.

36
00:02:26,292 --> 00:02:29,471
Одна из таких людей — Урит.

37
00:02:29,472 --> 00:02:33,691
Урит — 34-летняя женщина
с церебральным параличом.

38
00:02:33,692 --> 00:02:35,946
Она живёт самостоятельно.

39
00:02:35,947 --> 00:02:41,003
Она может водить машину, ходить
в спортзал и делать массу других вещей.

40
00:02:42,917 --> 00:02:47,656
Однако, когда дело доходит
до использования собственного голоса,

41
00:02:47,657 --> 00:02:50,912
то ей порой бывает труднее,
чем на занятиях фитнесом,

42
00:02:50,913 --> 00:02:53,122
её переполняет чувство досады,

43
00:02:53,123 --> 00:02:58,542
когда ей приходится повторять
одно и то же слово снова и снова,

44
00:02:58,543 --> 00:03:01,067
чтобы её поняли.

45
00:03:01,068 --> 00:03:04,738
Мы попросили Урит произнести
несколько слов по-английски.

46
00:03:06,370 --> 00:03:08,199
Давайте вместе её послушаем

47
00:03:08,200 --> 00:03:11,280
и посмотрим, сможете ли вы понять,
что она пытается сказать.

48
00:03:11,856 --> 00:03:16,356
(неразборчивая речь)

49
00:03:17,481 --> 00:03:21,861
Не знаю, скольким из вас удалось
разобрать её слова с первого раза,

50
00:03:21,862 --> 00:03:23,471
но давайте прослушаем ещё раз,

51
00:03:23,472 --> 00:03:27,521
по-настоящему стараясь понять,
что она пытается сказать.

52
00:03:27,522 --> 00:03:32,088
(неразборчивая речь)

53
00:03:33,251 --> 00:03:37,491
Попробуйте запомнить, что вы услышали;
мы вернёмся к этому позже.

54
00:03:38,664 --> 00:03:41,883
Мои брат и сестра, Урит
и другие знакомые мне люди

55
00:03:41,884 --> 00:03:46,443
дали мне возможность наблюдать
за миром, полным проблем —

56
00:03:46,444 --> 00:03:49,454
миром особенных и нуждающихся людей.

57
00:03:50,353 --> 00:03:53,772
И это позволило мне проанализировать
существующие технологии

58
00:03:53,773 --> 00:03:57,865
в поиске решения, необходимого
моей сестре и моему брату.

59
00:03:58,542 --> 00:04:02,334
К сожалению, существующие
вспомогательные технологии,

60
00:04:02,335 --> 00:04:07,348
включая программы распознавания
речи, были не способны помочь.

61
00:04:08,485 --> 00:04:13,534
На сегодняшний день все вспомогательные
технологии полностью отказались от голоса,

62
00:04:13,535 --> 00:04:17,411
сделав ставку на использование
других способов общения,

63
00:04:18,362 --> 00:04:22,361
при которых голос заменяется
символами, картинками

64
00:04:22,362 --> 00:04:26,222
или движениями тела, головы или глаз.

65
00:04:27,356 --> 00:04:31,806
Теперь поговорим о более щадящей
альтернативе, использующей голос, —

66
00:04:32,695 --> 00:04:35,844
о приложениях распознавания речи.

67
00:04:35,845 --> 00:04:39,395
Эта технология развивается
в двух направлениях.

68
00:04:40,281 --> 00:04:44,781
Первый подход — попытки определить,
какое слово было произнесено.

69
00:04:46,013 --> 00:04:49,302
Второй подход основан
на распознавании фонем.

70
00:04:49,303 --> 00:04:54,533
Фонемы — это все звуки,
производимые нами с помощью рта и носа.

71
00:04:55,618 --> 00:04:59,806
Оба подхода основаны
на статистических моделях

72
00:04:59,807 --> 00:05:03,136
из огромной базы данных
речевых стандартов.

73
00:05:03,137 --> 00:05:05,959
Но если речь нестандартная —

74
00:05:05,960 --> 00:05:09,659
достаточно просто наличия акцента,

75
00:05:09,660 --> 00:05:11,739
как у большинства из нас здесь, —

76
00:05:11,740 --> 00:05:13,770
то программа не работает.

77
00:05:14,444 --> 00:05:19,593
Мои коллеги и я разработали
новый метод для подобных технологий,

78
00:05:19,594 --> 00:05:22,355
при котором используется
голос самого человека,

79
00:05:22,356 --> 00:05:26,175
а также учитываются
нестандартные особенности речи,

80
00:05:26,176 --> 00:05:31,506
что помогает людям с речевыми
дефектами вновь обрести голос.

81
00:05:32,858 --> 00:05:36,407
Итак, чью жизнь это изменит?

82
00:05:36,408 --> 00:05:39,166
Людей с церебральным параличом,

83
00:05:39,167 --> 00:05:41,959
людей с болезнью Паркинсона
и с тяжёлой миастенией,

84
00:05:41,972 --> 00:05:44,347
со множеством других
неврологических расстройств,

85
00:05:44,348 --> 00:05:46,637
людей, родившихся с дефектом слуха,

86
00:05:46,638 --> 00:05:51,717
или тех, кто внезапно пережил
инсульт, перевернувший их жизнь,

87
00:05:51,718 --> 00:05:54,569
но не только их.

88
00:05:54,570 --> 00:05:58,803
Не только тех, кто с трудом
может себя выразить,

89
00:05:58,804 --> 00:06:03,473
но и всех тех, кто имеет
с ними дело день за днём.

90
00:06:03,474 --> 00:06:08,547
Это облегчит им путь в общество,

91
00:06:08,548 --> 00:06:13,195
потому что каждому из нас
хочется быть частью общества.

92
00:06:13,196 --> 00:06:17,508
Вы, наверное, спрашиваете себя
сейчас: «Как же этот метод работает?»

93
00:06:17,509 --> 00:06:22,078
«Почему другие технологии распознавания
речи не смогли сделать то же самое?»

94
00:06:24,978 --> 00:06:27,598
Дело в том, что наша технология
действует иначе.

95
00:06:28,808 --> 00:06:32,217
Каждый человек должен
пройти через две фазы.

96
00:06:32,218 --> 00:06:35,357
Первая фаза называется
фазой калибрации,

97
00:06:35,358 --> 00:06:41,047
когда человек обучает устройство
и приложение своим речевым моделям,

98
00:06:41,048 --> 00:06:44,227
заводя их в систему и создавая
свой собственный словарь.

99
00:06:44,228 --> 00:06:45,920
Как правило, во время этой фазы

100
00:06:45,921 --> 00:06:48,920
помогает тот, кто лучше всех
понимает пациента.

101
00:06:48,921 --> 00:06:51,090
Они составляют словарь вместе.

102
00:06:51,091 --> 00:06:55,340
Обычно на это уходит всего
от одного до трёх часов

103
00:06:55,341 --> 00:06:58,280
в зависимости от речевых
способностей говорящего.

104
00:06:58,281 --> 00:07:00,022
После составления словаря

105
00:07:00,023 --> 00:07:03,642
мы переходим ко второй фазе,
называемой фазой распознавания.

106
00:07:03,643 --> 00:07:07,628
Приложение способно распознать
в неразборчивой речи

107
00:07:07,629 --> 00:07:10,828
модели из уже готового словаря

108
00:07:10,829 --> 00:07:14,369
и перевести их в чёткую речь
в реальном времени.

109
00:07:15,660 --> 00:07:19,819
Наш подход зависит от пользователя,
но не от языка,

110
00:07:19,820 --> 00:07:23,470
что делает его подходящим
для любого языка в мире,

111
00:07:24,347 --> 00:07:26,476
даже для выдуманного.

112
00:07:26,477 --> 00:07:29,726
Главным понятием здесь
является «сопоставление фрагментов».

113
00:07:29,727 --> 00:07:35,016
Как только собственный словарь готов
и произнесено существующее в нём слово,

114
00:07:35,017 --> 00:07:36,682
происходит сопоставление фрагментов

115
00:07:36,682 --> 00:07:39,832
между тем, что произнесено,
и тем, что находится в словаре.

116
00:07:39,833 --> 00:07:41,852
Но с этим у нас возникла проблема.

117
00:07:41,853 --> 00:07:44,921
Мы обнаружили, что люди
с речевыми дефектами

118
00:07:44,922 --> 00:07:48,012
произносят разные слова очень похоже.

119
00:07:49,652 --> 00:07:53,601
И нашей задачей было
научить систему их различать.

120
00:07:53,602 --> 00:07:57,314
Так мы создали технологию
под названием Adaptive Framing.

121
00:07:58,255 --> 00:08:03,825
Технологию Adaptive Framing можно
подогнать к ширине звука во фрагменте.

122
00:08:03,834 --> 00:08:09,543
В известных технологиях «Л» и «А»
занимают один и тот же отсек.

123
00:08:10,402 --> 00:08:15,011
В нашей же технологии «Л» и «А»
занимают разные отсеки,

124
00:08:15,012 --> 00:08:18,042
что увеличивает точность
при сопоставлении фрагментов.

125
00:08:18,844 --> 00:08:22,914
Поэтому наш алгоритм сопоставления
фрагментов работает лучше.

126
00:08:23,463 --> 00:08:26,352
Полагаю, вы ещё не забыли Урит?

127
00:08:26,353 --> 00:08:30,523
Давайте послушаем её снова,
но на этот раз вместе с Talkitt:

128
00:08:33,520 --> 00:08:34,568
(неразборчивая речь)

129
00:08:34,570 --> 00:08:36,042
Теперь я могу...

130
00:08:36,043 --> 00:08:37,373
(неразборчивая речь)

131
00:08:37,374 --> 00:08:38,374
начать ...

132
00:08:38,375 --> 00:08:39,881
(неразборчивая речь)

133
00:08:39,881 --> 00:08:41,522
говорить свободно.

134
00:08:42,982 --> 00:08:45,332
(Аплодисменты)

135
00:08:55,552 --> 00:08:57,906
Talkitt — это лишь один из шагов

136
00:08:57,907 --> 00:09:02,026
на пути сужения пропасти
между немощью и мощью,

137
00:09:02,027 --> 00:09:04,946
позволяющий людям
выразить свой потенциал.

138
00:09:04,947 --> 00:09:07,085
Чем больше мы озадачим свой разум,

139
00:09:07,086 --> 00:09:11,512
тем меньше препятствий будет
у всех нас на пути к нормальной жизни.

140
00:09:11,513 --> 00:09:12,622
Спасибо.

141
00:09:12,623 --> 00:09:14,373
(Аплодисменты)