1
00:00:08,334 --> 00:00:09,417
Hola.

2
00:00:10,562 --> 00:00:13,951
Vivimos una era emocionante,

3
00:00:13,952 --> 00:00:19,281
en la que la innovación y la tecnología
tienen el potencial de lo inimaginable,

4
00:00:19,282 --> 00:00:22,559
y se vuelve aún más inimaginable

5
00:00:22,560 --> 00:00:26,560
al romper la brecha entre 
la discapacidad y la capacidad.

6
00:00:28,345 --> 00:00:31,325
El 15 % de la población mundial

7
00:00:32,564 --> 00:00:35,324
--1000 millones de personas en el mundo--

8
00:00:35,325 --> 00:00:37,184
vive con discapacidad,

9
00:00:37,185 --> 00:00:41,668
lo que convierte a las personas con 
discapacidad en la primera minoría.

10
00:00:42,605 --> 00:00:45,264
Y no viven en un planeta diferente.

11
00:00:45,265 --> 00:00:50,145
Puede que sean parte de nuestras 
familias, amigos o colegas.

12
00:00:51,426 --> 00:00:55,985
Hoy les hablaré de cómo las personas
con discapacidad del habla

13
00:00:55,986 --> 00:00:59,366
tendrán una forma de comunicarse mejor.

14
00:00:59,375 --> 00:01:03,233
Yo tenía 7 años cuando
nació mi hermana Amal.

15
00:01:03,234 --> 00:01:05,893
Era demasiado joven para ver los desafíos

16
00:01:05,894 --> 00:01:09,463
que enfrentaba mi familia a diario,

17
00:01:09,464 --> 00:01:13,813
pero podía ver que Amal no podía
gatear, comer, ni hablar

18
00:01:13,814 --> 00:01:16,913
como cualquier otro bebé de su edad.

19
00:01:16,914 --> 00:01:22,063
Con el tiempo, nos acostumbramos
a criar un bebé con parálisis cerebral,

20
00:01:22,064 --> 00:01:26,492
y a la vez entender sus patrones
y necesidades de comunicación especiales.

21
00:01:28,406 --> 00:01:29,845
Nueve años más tarde,

22
00:01:29,846 --> 00:01:33,469
mi familia fue bendecida 
con otro bebé, Ahmad.

23
00:01:34,469 --> 00:01:38,288
Ahmad decidió crecer exactamente
como su hermana Amal,

24
00:01:38,289 --> 00:01:42,838
muy inteligente, agudo, curioso
por todo lo que le rodeaba,

25
00:01:42,839 --> 00:01:47,208
pero también decidió inventar sus 
patrones de comunicación especiales

26
00:01:47,209 --> 00:01:48,809
para comunicarse con nosotros,

27
00:01:49,782 --> 00:01:53,081
y para otras personas 
que no podían entenderle,

28
00:01:53,082 --> 00:01:55,208
teníamos que traducir.

29
00:01:55,209 --> 00:01:59,626
Amal y Ahmad dicen "num"
cuando tienen hambre,

30
00:01:59,659 --> 00:02:04,528
y dicen "ahh" para llamar
a Nora, mi hermana.

31
00:02:04,542 --> 00:02:08,833
Y cuando quieren decir
mi nombre, dicen "abeya".

32
00:02:08,834 --> 00:02:12,585
Para ir al baño, dicen "kkhh".

33
00:02:13,366 --> 00:02:16,945
Nosotros entendemos gran parte de 
sus patrones de comunicación especiales,

34
00:02:16,946 --> 00:02:20,546
pero solo nosotros, el círculo íntimo.

35
00:02:20,551 --> 00:02:25,131
Como sucede con casi todas las personas
que tienen voz no muy clara.

36
00:02:26,292 --> 00:02:29,471
Una de esas personas es Urit.

37
00:02:29,472 --> 00:02:33,691
Urit es una mujer de 34 años
que tiene parálisis cerebral.

38
00:02:33,692 --> 00:02:35,946
Ella vive una vida independiente.

39
00:02:35,947 --> 00:02:41,003
Puede conducir su auto, ir al gimnasio,
y hacer muchas cosas.

40
00:02:42,917 --> 00:02:47,656
Sin embargo, cuando se trata
de comunicarse con la voz,

41
00:02:47,657 --> 00:02:50,912
a veces, puede tornarse
más difícil que ir al gimnasio,

42
00:02:50,913 --> 00:02:53,122
y más frustrante

43
00:02:53,123 --> 00:02:58,542
porque se encuentra repitiendo 
las mismas palabras una y otra vez

44
00:02:58,543 --> 00:03:01,067
para que le entiendan.

45
00:03:01,068 --> 00:03:04,738
Le pedimos a Urit que diga
algunas palabras en inglés.

46
00:03:06,370 --> 00:03:08,199
Escuchémosla juntos

47
00:03:08,200 --> 00:03:10,790
y vean si pueden entender
lo que trata de decir.

48
00:03:11,856 --> 00:03:13,946
(Ininteligible)

49
00:03:17,481 --> 00:03:21,861
No sé cuántos pudieron entenderle
esta primera vez,

50
00:03:21,862 --> 00:03:23,471
pero escuchémosle otra vez,

51
00:03:23,472 --> 00:03:27,521
y hagamos hincapié en tratar de entender
lo que trata de decir.

52
00:03:27,522 --> 00:03:29,488
(Ininteligible)

53
00:03:33,251 --> 00:03:37,491
Traten de memorizar lo que dijo;
volveremos a eso más tarde.

54
00:03:38,664 --> 00:03:41,883
Con mis hermanos, y Urit,
y la gente conozco,

55
00:03:41,884 --> 00:03:46,443
tuve la oportunidad de ver 
un mundo de desafíos,

56
00:03:46,444 --> 00:03:49,454
un mundo de personas especiales
con necesidades.

57
00:03:50,353 --> 00:03:53,772
Y esto me permitió examinar
la tecnología existente

58
00:03:53,773 --> 00:03:57,635
en busca de una respuesta para 
lo que buscaban mis hermanos.

59
00:03:58,542 --> 00:04:02,334
Por desgracia, el estado actual
del arte en tecnología asistida,

60
00:04:02,335 --> 00:04:07,258
incluyendo aplicaciones de reconocimiento 
del habla, no dio una respuesta.

61
00:04:08,485 --> 00:04:13,534
Toda tecnología asistida
ignoraba estas voces,

62
00:04:13,535 --> 00:04:17,411
y optamos por usar otras 
formas de comunicación

63
00:04:18,362 --> 00:04:22,361
reemplazando la voz
por símbolos e imágenes,

64
00:04:22,362 --> 00:04:26,222
o movimientos del cuerpo
en la cabeza o en los ojos.

65
00:04:27,356 --> 00:04:31,806
Esto me lleva a la otra leve
alternativa que hace uso de la voz

66
00:04:32,695 --> 00:04:35,844
que son las aplicaciones
de reconocimiento de voz.

67
00:04:35,845 --> 00:04:39,395
Esta tecnología funciona en dos enfoques.

68
00:04:40,281 --> 00:04:44,401
El primer enfoque trata de descubrir 
qué palabra se ha dicho.

69
00:04:46,013 --> 00:04:49,302
El segundo enfoque se basa en fonemas.

70
00:04:49,303 --> 00:04:54,443
Los fonemas son sonidos que
producimos con la boca y la nariz.

71
00:04:55,618 --> 00:04:59,806
Ambos enfoques se basan 
en modelos estadísticos

72
00:04:59,807 --> 00:05:03,136
a partir de una gran base de datos 
de discursos comunes.

73
00:05:03,137 --> 00:05:05,959
Pero cuando el discurso no es común,

74
00:05:05,960 --> 00:05:09,659
--cuando me alejo del estándar,
y es suficiente con hablar con acento

75
00:05:09,660 --> 00:05:11,739
como nosotros aquí--

76
00:05:11,740 --> 00:05:13,590
esto no funcionará.

77
00:05:14,444 --> 00:05:19,593
Mis colegas y yo desarrollamos
un nuevo enfoque en tecnología asistida

78
00:05:19,594 --> 00:05:22,355
que usa la voz de la persona

79
00:05:22,356 --> 00:05:26,175
y puede entender patrones 
de discurso no estándares,

80
00:05:26,176 --> 00:05:31,506
con la misión de devolverle la voz
a personas con discapacidad del habla.

81
00:05:32,858 --> 00:05:36,407
¿A quiénes le cambiará esto la vida?

82
00:05:36,408 --> 00:05:39,166
A personas con parálisis cerebral,

83
00:05:39,167 --> 00:05:41,959
a personas con Parkinson,
Miastenia Gravis,

84
00:05:41,972 --> 00:05:44,347
y muchos otros trastornos neurológicos,

85
00:05:44,348 --> 00:05:46,637
a personas nacidas con
discapacidades auditivas,

86
00:05:46,638 --> 00:05:51,717
o a personas que de repente tuvieron
un ACV y eso les cambió la vida,

87
00:05:51,718 --> 00:05:54,569
pero no solo a ellos.

88
00:05:54,570 --> 00:05:58,803
No solo a las personas que tienen
dificultad para expresarse,

89
00:05:58,804 --> 00:06:03,473
sino a todos los que interactúan
con ellos a diario.

90
00:06:03,474 --> 00:06:08,547
Esto les facilitará la inclusión social

91
00:06:08,548 --> 00:06:13,195
--porque todos queremos
ser incluidos socialmente--

92
00:06:13,196 --> 00:06:17,508
Y ahora se podrán estar preguntando:
"¿Cómo funciona esto?"

93
00:06:17,509 --> 00:06:22,078
"¿Cómo es que la tecnología de 
reconocimiento de voz no hace lo mismo?"

94
00:06:24,978 --> 00:06:27,598
Porque nuestra tecnología
funciona en forma diferente.

95
00:06:28,808 --> 00:06:32,217
Cada persona tiene que 
atravesar dos fases.

96
00:06:32,218 --> 00:06:35,357
La primera fase se llama
fase de calibración,

97
00:06:35,358 --> 00:06:41,047
en la que la persona tiene que entrenar
al dispositivo y a la aplicación

98
00:06:41,048 --> 00:06:44,227
ingresando los patrones y creando
su propio diccionario.

99
00:06:44,228 --> 00:06:45,920
Esta fase por lo general ocurre

100
00:06:45,921 --> 00:06:48,920
con la persona que lo entiende mejor.

101
00:06:48,921 --> 00:06:51,090
Juntos crearán el diccionario.

102
00:06:51,091 --> 00:06:55,340
Esto usualmente lleva solo 
de una a tres horas,

103
00:06:55,341 --> 00:06:58,280
y depende de la capacidad 
de habla del orador.

104
00:06:58,281 --> 00:07:00,022
Luego de crear este diccionario,

105
00:07:00,023 --> 00:07:03,642
pasamos a la segunda fase que 
es la fase de reconocimiento.

106
00:07:03,643 --> 00:07:07,628
La aplicación podrá reconocer
patrones del habla ininteligibles

107
00:07:07,629 --> 00:07:10,828
a partir del diccionario predefinido

108
00:07:10,829 --> 00:07:14,369
y traducirlos en voz clara
en tiempo real.

109
00:07:15,660 --> 00:07:19,819
Nuestro enfoque depende del usuario
y es independiente del idioma

110
00:07:19,820 --> 00:07:23,470
lo que significa que puede funcionar
en cualquier idioma del mundo,

111
00:07:24,347 --> 00:07:26,476
incluso con idiomas inventados.

112
00:07:26,477 --> 00:07:29,726
Aquí la clave es el
"reconocimiento de patrones".

113
00:07:29,727 --> 00:07:35,016
Una vez que la persona crea su propio 
diccionario y dice una palabra existente,

114
00:07:35,017 --> 00:07:36,652
se hace el reconocimiento de patrones

115
00:07:36,653 --> 00:07:39,832
entre lo dicho y lo existente.

116
00:07:39,833 --> 00:07:41,852
Pero aquí encontramos un problema.

117
00:07:41,853 --> 00:07:44,921
Vemos que las personas con 
una discapacidad del habla

118
00:07:44,922 --> 00:07:48,012
pronuncian distintas palabras
de manera similar.

119
00:07:49,652 --> 00:07:53,601
Y el desafío era diferenciarlas.

120
00:07:53,602 --> 00:07:57,314
Para eso creamos una tecnología
llamada "marco adaptativo".

121
00:07:58,255 --> 00:08:03,825
El marco adaptativo puede adaptarse
a la amplitud del evento en el patrón.

122
00:08:03,834 --> 00:08:09,543
Con la tecnología existente, podemos ver
la L y la A en el mismo marco.

123
00:08:10,402 --> 00:08:15,011
Pero con la nueva tecnología, vemos que 
la L y la A están en distintos marcos

124
00:08:15,012 --> 00:08:18,042
lo que aumenta la precisión
del reconocimiento de patrones.

125
00:08:18,844 --> 00:08:22,454
Y esto hace que nuestro reconocimiento
de patrones sea mucho mejor.

126
00:08:23,463 --> 00:08:26,352
Supongo que aún recordarán a Urit, ¿no?

127
00:08:26,353 --> 00:08:30,523
Escuchémosla otra vez ahora,
pero esta vez usando Talkitt:

128
00:08:33,520 --> 00:08:34,568
(Ininteligible)

129
00:08:34,570 --> 00:08:36,042
Ahora puedo...

130
00:08:36,043 --> 00:08:37,373
(Ininteligible)

131
00:08:37,374 --> 00:08:38,374
comenzar...

132
00:08:38,375 --> 00:08:39,881
(Ininteligible)

133
00:08:39,881 --> 00:08:41,342
a hablar libremente.

134
00:08:42,982 --> 00:08:44,542
(Aplausos)

135
00:08:55,552 --> 00:08:57,906
Talkitt dio solo un paso

136
00:08:57,907 --> 00:09:02,026
para zanjar la brecha entre 
discapacidad y capacidad

137
00:09:02,027 --> 00:09:04,946
permitiendo que las personas
expresen su potencial.

138
00:09:04,947 --> 00:09:07,085
Cuanto más desafiemos nuestras mentes,

139
00:09:07,086 --> 00:09:11,512
más brechas se derribarán para 
permitirnos hacer vidas normales.

140
00:09:11,513 --> 00:09:12,622
Gracias.

141
00:09:12,623 --> 00:09:13,653
(Aplausos)