WEBVTT 00:00:00.556 --> 00:00:03.943 Nos émotions influencent tous les aspects de notre vie, 00:00:03.943 --> 00:00:04.943 de notre santé et notre façon d'apprendre 00:00:04.943 --> 00:00:07.179 à la manière dont nous faisons des affaires, 00:00:07.179 --> 00:00:09.922 et prenons des décisions, petites ou grandes. 00:00:10.672 --> 00:00:14.162 Elles influencent aussi la manière dont nous interagissons ensemble. 00:00:15.132 --> 00:00:19.108 Nous avons évolué pour vivre dans un monde qui ressemble à ça, 00:00:19.108 --> 00:00:23.797 mais nous vivons nos vies de plus en plus plutôt comme ceci -- 00:00:23.807 --> 00:00:26.561 c'est le message que ma fille m'a envoyé hier soir -- 00:00:26.561 --> 00:00:29.301 dans un monde dépourvu d'émotion. 00:00:29.301 --> 00:00:31.252 Ma mission est de changer tout ça. 00:00:31.252 --> 00:00:35.343 Je veux ramener l'expression de nos émotions dans nos expériences numériques. NOTE Paragraph 00:00:36.223 --> 00:00:39.300 J'ai commencé de travailler dans cette direction il y a 15 ans. 00:00:39.300 --> 00:00:41.366 J'étais informaticienne en Égypte, 00:00:41.366 --> 00:00:45.711 et venais juste d'être acceptée dans un programme de thèse à Cambridge. 00:00:45.711 --> 00:00:47.984 Alors j'ai fait quelque chose d'assez inhabituel 00:00:47.984 --> 00:00:52.209 pour une jeune musulmane égyptienne et tout juste mariée : 00:00:53.599 --> 00:00:56.598 avec le soutien de mon mari qui devait rester en Égypte, 00:00:56.598 --> 00:00:59.616 j'ai fait mes bagages et suis partie pour l'Angleterre. 00:00:59.616 --> 00:01:02.844 A Cambridge, à des milliers de kilomètres de chez moi, 00:01:02.844 --> 00:01:06.257 j'ai réalisé que je passais plus d'heures sur mon ordinateur 00:01:06.257 --> 00:01:08.486 qu'avec n'importe quel humain. 00:01:08.486 --> 00:01:13.339 Pourtant, malgré cette intimité, il n'avait absolument aucune idée 00:01:13.339 --> 00:01:16.550 de ce que je ressentais. Il ne savait pas si j'étais heureuse, 00:01:16.550 --> 00:01:19.538 si j'avais eu une mauvaise journée, si j'étais stressée 00:01:19.538 --> 00:01:22.460 ou confuse et ça devenait vraiment frustrant. 00:01:23.600 --> 00:01:26.031 Le pire, c'était que lorsque je communiquais en ligne 00:01:26.031 --> 00:01:29.031 avec ma famille à la maison, 00:01:29.031 --> 00:01:32.703 j'avais l'impression que toutes mes émotions disparaissaient 00:01:32.703 --> 00:01:37.858 dans cet espace virtuel. J'avais le mal du pays, je me sentais seule 00:01:37.858 --> 00:01:41.026 et me mettais même à pleurer certains jours. 00:01:41.026 --> 00:01:44.806 Mais tout ce que j'avais pour partager ces émotions, c'était ça. (Rires) 00:01:44.806 --> 00:01:49.780 La technologie moderne a beaucoup de Q.I. mais aucun Q.E.: c'est-à-dire 00:01:49.780 --> 00:01:52.956 beaucoup d'intelligence cognitive mais pas émotionnelle. 00:01:52.956 --> 00:01:55.153 Je me suis alors demandée 00:01:55.153 --> 00:01:58.777 ce que ça changerait si notre technologie pouvait percevoir nos émotions ? 00:01:58.777 --> 00:02:02.853 Que se passerait-il si nos appareils pouvaient les percevoir et réagir 00:02:02.853 --> 00:02:05.866 en fonction, exactement comme un ami le ferait ? 00:02:06.666 --> 00:02:10.230 Ces questions nous ont menés, mon équipe et moi 00:02:10.230 --> 00:02:14.607 à développer des technologies qui peuvent lire et réagir à nos émotions, 00:02:14.607 --> 00:02:17.697 à partir du visage humain. NOTE Paragraph 00:02:18.577 --> 00:02:21.750 Il se trouve que le visage est un des moyens d'expression 00:02:21.750 --> 00:02:25.766 les plus puissants que nous utilisons pour communiquer notre état social 00:02:25.766 --> 00:02:28.776 ou émotionnel, tout de la joie, la surprise, 00:02:28.776 --> 00:02:32.979 la compassion à la curiosité. 00:02:32.979 --> 00:02:37.907 En science des émotions, chacun des mouvements du visage est appelé action. 00:02:37.907 --> 00:02:40.522 Par exemple, action numéro 12 00:02:40.522 --> 00:02:42.870 n'est pas le nom du dernier succès hollywoodien, 00:02:42.870 --> 00:02:46.312 mais l'action de tirer le coin des lèvres, autrement dit de sourire. 00:02:46.312 --> 00:02:49.240 Essayez ! Faisons tous nos plus beaux sourires ! 00:02:49.240 --> 00:02:51.954 Autre exemple, action numéro 4, le froncement de sourcils. 00:02:51.954 --> 00:02:54.192 C'est lorsque vous plissez les sourcils 00:02:54.192 --> 00:02:56.459 ensemble et créez toutes ces rides et textures. 00:02:56.459 --> 00:03:00.244 On ne les aime pas mais c'est un très bon indicateur d'émotion négative. 00:03:00.244 --> 00:03:02.960 Nous avons environ 45 de ces actions 00:03:02.960 --> 00:03:06.350 que nous combinons pour exprimer des centaines d'émotions. NOTE Paragraph 00:03:06.350 --> 00:03:09.831 Enseigner à un ordinateur comment reconnaître ces expressions faciales 00:03:09.831 --> 00:03:12.913 est difficile parce qu'elles peuvent être rapides, sont subtiles, 00:03:12.913 --> 00:03:15.777 et peuvent former beaucoup de combinaisons différentes. 00:03:15.777 --> 00:03:19.515 Prenez par exemple, un sourire normal ou un sourire narquois. 00:03:19.515 --> 00:03:23.268 Ils sont en soi assez similaires, mais ont une signification bien différente. 00:03:23.268 --> 00:03:24.866 (Rires) 00:03:24.866 --> 00:03:27.450 Le sourire normal est positif, 00:03:27.450 --> 00:03:29.260 le sourire narquois souvent négatif. 00:03:29.260 --> 00:03:33.136 Un sourire narquois peut même vous rendre célèbre parfois ! 00:03:33.136 --> 00:03:35.960 Mais plus sérieusement, il est très important 00:03:35.960 --> 00:03:38.815 que l'ordinateur puisse différencier ces deux expressions. NOTE Paragraph 00:03:38.815 --> 00:03:40.627 Alors comment y arrive-t-on ? 00:03:40.627 --> 00:03:42.414 On donne à nos algorithmes 00:03:42.414 --> 00:03:46.524 des dizaines de milliers d'exemples spécifiques de personnes 00:03:46.524 --> 00:03:49.589 en train de sourire, d'origines, âge, sexe différents 00:03:49.589 --> 00:03:52.160 et on fait la même chose pour des sourires narquois. 00:03:52.160 --> 00:03:54.174 Ensuite par un processus d'apprentissage, 00:03:54.174 --> 00:03:56.810 l'algorithme assimile toutes ces textures, ces rides 00:03:56.810 --> 00:03:59.390 et mouvements de notre visage, 00:03:59.390 --> 00:04:02.592 apprend les caractéristiques générales d'un sourire, 00:04:02.592 --> 00:04:05.773 et en associe de plus spécifiques aux sourires narquois. 00:04:05.773 --> 00:04:08.141 Ainsi au prochain visage qu'il voit, 00:04:08.141 --> 00:04:10.440 l'algorithme peut essentiellement 00:04:10.440 --> 00:04:13.473 reconnaître les caractéristiques d'un sourire et dire : 00:04:13.473 --> 00:04:17.751 « ha ! je reconnais cette expression, c'est un sourire. » NOTE Paragraph 00:04:18.011 --> 00:04:21.181 Le meilleur moyen d'illustrer comment cette technologie fonctionne 00:04:21.181 --> 00:04:23.317 est une démonstration en direct 00:04:23.317 --> 00:04:27.230 alors j'aurais besoin d'un volontaire, de préférence quelqu'un avec un visage. 00:04:27.230 --> 00:04:29.564 (Rires) 00:04:29.564 --> 00:04:32.335 Cloe sera notre volontaire aujourd'hui. NOTE Paragraph 00:04:33.325 --> 00:04:37.533 Au cours des 5 dernières années, notre groupe de recherche au MIT 00:04:37.533 --> 00:04:38.939 est devenu une entreprise, 00:04:38.939 --> 00:04:42.601 dans laquelle mon équipe a travaillé dur pour que cette technologie marche, 00:04:42.601 --> 00:04:44.700 dans la vie de tous les jours, comme on dit. 00:04:44.700 --> 00:04:47.210 Nous l'avons aussi optimisée pour qu'elle fonctionne 00:04:47.210 --> 00:04:50.530 sur n'importe quel appareil pourvu d'une caméra, comme cet iPad. 00:04:50.530 --> 00:04:53.316 Mais essayons plutôt. NOTE Paragraph 00:04:54.756 --> 00:04:58.680 Comme vous le voyez, l'algorithme trouve essentiellement le visage de Cloe 00:04:58.680 --> 00:05:00.372 dans cette zone encadrée blanche, 00:05:00.372 --> 00:05:02.943 et décèle les mouvements des points principaux 00:05:02.943 --> 00:05:05.799 tels que ses sourcils, ses yeux, sa bouche et son nez. 00:05:05.799 --> 00:05:08.786 La question est alors de savoir s'il peut reconnaître ses expressions. 00:05:08.786 --> 00:05:10.457 Essayons donc de le tester. 00:05:10.457 --> 00:05:14.643 Tout d'abord, montrez moi un visage impassible. Oui, parfait ! (Rires) 00:05:14.643 --> 00:05:17.406 Et maintenant un sourire franc, en voilà un beau, parfait. 00:05:17.406 --> 00:05:20.066 Vous voyez, l'indicateur vert monte quand elle sourit. 00:05:20.066 --> 00:05:21.418 C'était un beau sourire ça. 00:05:21.418 --> 00:05:23.891 Pouvez-vous faire un sourire plus subtil pour voir ? 00:05:23.891 --> 00:05:25.782 Oui, le programme le reconnaît aussi. 00:05:25.782 --> 00:05:27.897 On a travaillé dur pour que ça marche. 00:05:27.897 --> 00:05:31.439 Là, les sourcils relevés déclenchent l'indicateur de surprise. 00:05:31.439 --> 00:05:35.688 Le sillon des sourcils, lui, est l'indicateur de confusion. 00:05:35.688 --> 00:05:39.695 Froncez les sourcils. Oui, parfait. 00:05:39.695 --> 00:05:43.188 Tout ça vous montre différentes actions, il y en a beaucoup d'autres. 00:05:43.188 --> 00:05:45.220 C'est juste une démonstration épurée. 00:05:45.220 --> 00:05:48.368 Chaque action reconnue est une point de donnée émotionnelle 00:05:48.368 --> 00:05:51.707 et l'ensemble de ces données peut décrire différentes émotions. 00:05:51.707 --> 00:05:55.730 Sur la droite ici regardez comme vous êtes heureuse. 00:05:55.730 --> 00:05:57.444 L'indicateur de joie se déclenche. 00:05:57.444 --> 00:05:59.371 Maintenant exprimez le dégoût. 00:05:59.371 --> 00:06:02.903 Souvenez-vous du départ de Zayn de One Direction. 00:06:02.903 --> 00:06:04.223 (Rires) 00:06:04.223 --> 00:06:09.495 Voilà, le nez se ride. Super. 00:06:09.495 --> 00:06:13.226 La capacité est en fait assez négative, vous deviez vraiment être fan ! 00:06:13.226 --> 00:06:16.096 Cette jauge montre si l'expérience est positive ou négative, 00:06:16.096 --> 00:06:18.712 la jauge d'engagement montre le niveau d'expression. 00:06:18.712 --> 00:06:22.126 Imaginez que Cloe ait accès direct à ce flux d'émotions en temps réel, 00:06:22.126 --> 00:06:24.935 elle pourrait alors le partager avec qui elle voudrait. 00:06:24.935 --> 00:06:27.078 Merci. 00:06:27.078 --> 00:06:32.479 (Applaudissements) NOTE Paragraph 00:06:33.749 --> 00:06:39.019 Jusqu'à présent nous avons accumulé 12 milliards de ces données émotionnelles. 00:06:39.019 --> 00:06:41.730 C'est la plus grande base de données de ce type au monde, 00:06:41.730 --> 00:06:45.023 construite à partir de 2,9 millions de vidéos de visages de personnes 00:06:45.023 --> 00:06:47.493 qui acceptent de partager leurs émotions avec nous 00:06:47.493 --> 00:06:50.398 et provenant de 75 pays différents. 00:06:50.398 --> 00:06:52.113 Et ça continue tous les jours. 00:06:52.603 --> 00:06:54.670 Ça me fascine totalement que l'on puisse 00:06:54.670 --> 00:06:57.965 à présent quantifier quelque chose d'aussi personnel que nos émotions, 00:06:57.965 --> 00:07:00.100 et qu'on le fasse à cette échelle. NOTE Paragraph 00:07:00.100 --> 00:07:02.277 Qu'a-t-on appris de tout ça jusqu'à présent ? 00:07:03.057 --> 00:07:05.388 En ce qui concerne le genre : 00:07:05.388 --> 00:07:08.504 nos données confirment ce dont vous vous doutiez probablement, 00:07:08.504 --> 00:07:10.891 les femmes sont plus expressives que les hommes. 00:07:10.891 --> 00:07:13.814 Non seulement elles sourient plus, mais aussi plus longtemps, 00:07:13.814 --> 00:07:16.298 et on peut maintenant vraiment quantifier ce à quoi 00:07:16.298 --> 00:07:18.664 les hommes et les femmes réagissent différemment. 00:07:18.664 --> 00:07:20.904 Pour l'influence culturelle : aux États-Unis 00:07:20.904 --> 00:07:24.228 si les femmes sont 40% plus expressives que les hommes, curieusement, 00:07:24.228 --> 00:07:27.753 on ne voit aucune différence à ce niveau-là au Royaume Uni. 00:07:27.753 --> 00:07:30.259 (Rires) 00:07:31.296 --> 00:07:35.323 Pour l'âge : les personnes de 50 ans et plus 00:07:35.323 --> 00:07:38.759 sont 25% plus émotives que les personnes plus jeunes. 00:07:39.489 --> 00:07:43.751 Les femmes dans leur vingtaine sourient beaucoup plus que les hommes du même âge, 00:07:43.751 --> 00:07:47.320 peut-être par nécessité pour faire des rencontres. 00:07:47.320 --> 00:07:50.207 Mais ce qui nous a surpris le plus dans toutes ces données, 00:07:50.207 --> 00:07:53.140 c'est que nous sommes en fait constamment expressifs, 00:07:53.140 --> 00:07:56.243 mais lorsque nous sommes assis tout seuls en face de nos écrans, 00:07:56.243 --> 00:07:59.517 et pas seulement à regarder des vidéos de chats sur Facebook. 00:08:00.217 --> 00:08:03.027 Nous sommes expressifs quand on écrit un mail, un texto, 00:08:03.027 --> 00:08:05.837 quand on achète en ligne et même quand on paie nos impôts. NOTE Paragraph 00:08:05.837 --> 00:08:08.199 Pour quoi utilise-t-on ces données aujourd'hui ? 00:08:08.199 --> 00:08:11.282 Ça va de comprendre comment nous interagissons avec les médias, 00:08:11.282 --> 00:08:13.506 les phénomènes viraux, les dynamiques de vote, 00:08:13.506 --> 00:08:16.886 à doter nos technologies de capacités émotionnelles, 00:08:16.886 --> 00:08:20.527 et j'aimerais partager avec vous quelques exemples qui me tiennent à cœur. 00:08:21.197 --> 00:08:24.265 Des lunettes à lecture émotionnelle peuvent aider les malvoyants 00:08:24.265 --> 00:08:27.493 à décrypter les expressions sur le visage des autres, 00:08:27.493 --> 00:08:31.680 et peuvent aider les personnes atteintes d'autisme à interpréter les émotions, 00:08:31.680 --> 00:08:34.458 ce qu'elles ont beaucoup de mal à faire. 00:08:35.568 --> 00:08:38.777 Pour l'éducation, imaginez que les applications d'apprentissage 00:08:38.777 --> 00:08:41.587 perçoivent votre confusion et ralentissent, 00:08:41.587 --> 00:08:43.744 qu'elles perçoivent votre ennui et accélèrent 00:08:43.744 --> 00:08:46.803 tout comme un bon enseignant le ferait dans la salle de classe. 00:08:47.043 --> 00:08:49.644 Imaginez que votre montre puisse déceler votre humeur, 00:08:49.644 --> 00:08:52.267 ou que votre voiture puisse percevoir votre fatigue, 00:08:52.267 --> 00:08:55.455 ou peut-être que votre frigo puisse sentir que vous êtes stressé 00:08:55.455 --> 00:08:59.091 et se verrouiller pour empêcher toute frénésie alimentaire. (Rires) 00:08:59.091 --> 00:09:03.668 J'apprécierais ça, oui. 00:09:03.668 --> 00:09:05.595 Que se serait-il passé si à Cambridge 00:09:05.595 --> 00:09:07.908 j'avais eu accès à ces données émotionnelles 00:09:07.908 --> 00:09:11.437 pour les partager tout naturellement avec ma famille à la maison 00:09:11.437 --> 00:09:15.408 comme si nous avions tous été dans la même pièce ? NOTE Paragraph 00:09:15.408 --> 00:09:18.550 Je pense que d'ici cinq ans, 00:09:18.550 --> 00:09:20.887 tous nos appareils auront une puce émotionnelle, 00:09:20.887 --> 00:09:23.151 et on ne se souviendra même plus du temps où, 00:09:23.151 --> 00:09:26.041 quand on fronçait les sourcils devant l'un d'eux, 00:09:26.041 --> 00:09:29.200 il ne nous retournait pas un, « hmm, ça ne t'a pas plu, hein ? » 00:09:29.200 --> 00:09:30.200 Notre plus grand défit est qu'il existe 00:09:30.200 --> 00:09:32.961 tellement d'applications à cette technologie. 00:09:32.961 --> 00:09:33.961 Mon équipe et moi nous rendons bien compte que 00:09:33.961 --> 00:09:35.864 nous ne pouvons pas tout faire nous-même 00:09:35.864 --> 00:09:38.650 et avons donc rendu cette technologie publique 00:09:38.650 --> 00:09:41.474 pour que d'autres puissent la développer et être créatifs. 00:09:41.474 --> 00:09:45.560 Nous sommes conscients des risques potentiels 00:09:45.560 --> 00:09:47.627 et des possibilités d'abus, 00:09:47.627 --> 00:09:50.576 mais personnellement, après avoir passé des années à faire ça, 00:09:50.576 --> 00:09:53.548 je pense que les bénéfices que l'humanité peut recevoir 00:09:53.548 --> 00:09:55.823 d'une technologie émotionnellement intelligente 00:09:55.823 --> 00:09:59.399 dépassent de loin les risques potentiels de mauvais usage. 00:09:59.399 --> 00:10:01.930 Je vous invite tous à prendre part à la discussion. 00:10:01.930 --> 00:10:04.484 Plus de gens seront au courant de cette technologie, 00:10:04.484 --> 00:10:07.991 mieux on pourra en définir ensemble les termes d'usage. 00:10:09.081 --> 00:10:13.655 Alors que de plus en plus de notre vie passe au digital, nous nous lançons 00:10:13.655 --> 00:10:17.153 dans une lutte perdue d'avance pour restreindre notre usage d'appareils 00:10:17.153 --> 00:10:20.632 et reconquérir nos émotions. Ce que j'essaie 00:10:20.632 --> 00:10:24.536 de faire au contraire est d'amener nos émotions dans notre technologie 00:10:24.536 --> 00:10:26.765 et la rendre ainsi plus réactive. 00:10:26.765 --> 00:10:30.025 Je veux que ces appareils qui nous séparaient les uns des autres, 00:10:30.025 --> 00:10:32.347 finalement nous rapprochent. 00:10:32.347 --> 00:10:36.485 En rendant notre technologie plus humaine, nous avons également l'opportunité 00:10:36.485 --> 00:10:39.782 de revoir la façon dont nous interagissons avec les machines, 00:10:39.782 --> 00:10:44.263 et par là-même la façon dont nous, humains, 00:10:44.263 --> 00:10:46.167 interagissons ensemble. NOTE Paragraph 00:10:46.167 --> 00:10:47.097 Merci. NOTE Paragraph 00:10:47.097 --> 00:10:51.640 (Applaudissements)