Return to Video

Behind the Mic: The Science of Talking with Computers

  • 0:04 - 0:07
    ♪ (Musica in aumento) ♪
  • 0:15 - 0:19
    (Cinguettio)
  • 0:25 - 0:30
    (Voci, lingue diverse)
  • 0:32 - 0:35
    (Voci si sovrappongono in sottofondo)
  • 0:36 - 0:38
    (Risate)
  • 0:38 - 0:44
    (Beep di computer)
  • 0:45 - 0:47
    [Parlare con i computer]
  • 0:49 - 0:54
    (Uomo) Nasciamo in questo mondo
    con l'innata capacità di imparare a interagire
  • 0:54 - 0:57
    con altri esseri senzienti.
  • 0:58 - 1:00
    (Bambino che vocalizza)
  • 1:00 - 1:03
    (Uomo) Immaginate di dover interagire
    con altri scrivendo brevi messaggi.
  • 1:03 - 1:05
    (Bambino che vocalizza)
  • 1:05 - 1:07
    (Uomo) Sarebbe penosissimo.
  • 1:07 - 1:09
    (Uomo) È in questo modo
    che interagiamo con i computer.
  • 1:09 - 1:12
    È molto più facile parlare...
    molto più facile...
  • 1:12 - 1:13
    (Bambino che vocalizza)
  • 1:14 - 1:16
    se i computer potessero capire
    quello che diciamo.
  • 1:18 - 1:20
    Per questo, ci vuole
    un ottimo riconoscimento vocale.
  • 1:21 - 1:24
    (Narratore) Il primo sistema di riconoscimento vocale
    fu sviluppato dai Laboratori Bell
  • 1:24 - 1:28
    nel 1952. Riusciva a riconoscere solo
    i numeri detti da una persona.
  • 1:28 - 1:32
    Nel 1970, la Carnegie-Mellon
    lanciò l'Harpy System.
  • 1:32 - 1:37
    Era in grado di riconoscere
    più di 1000 parole e diverse pronunce
  • 1:37 - 1:40
    della stessa parola.
    (Uomo) Pomodoro - (Donna) Pomodoro
  • 1:40 - 1:43
    (Narratore) Il riconoscimento vocale continuò
    negli anni '80 con l'introduzione
  • 1:43 - 1:46
    del Hidden Markov Model,
    che usava un approccio più matematico
  • 1:46 - 1:50
    per analizzare le onde sonore che hanno portato
    alle grandi innovazioni che abbiamo oggi.
  • 1:50 - 1:53
    Si prendono onde sonore molto grezze
  • 1:53 - 1:55
    come quelle di un microfono
  • 1:55 - 1:56
    o del telefono
  • 1:56 - 1:57
    o altro...
  • 1:57 - 2:02
    (Donna) La spezzettiamo e cerchiamo
    di identificare quale fonema
  • 2:02 - 2:05
    viene pronunciato in quel discorso.
  • 2:05 - 2:09
    Il fonema è un un'unità primitiva
    di espressione delle parole.
  • 2:10 - 2:14
    (Fonemi)
  • 2:15 - 2:20
    Poi li rimette insieme
    in possibili parole come Palo Alto.
  • 2:20 - 2:24
    Il riconoscimento vocale oggi è valido
    per trascrivere quello che dite...
  • 2:24 - 2:25
    (Uomo, al telefono) Che tempo fa
    oggi a Topeka?
  • 2:25 - 2:30
    (Uomo) Si può parlare di viaggi, contatti,
    come, "Dove trovo una pizza?"
  • 2:30 - 2:32
    (Telefono) Ecco la lista delle pizzerie.
  • 2:32 - 2:34
    (Uomo) "Quanto è alta la Torre Eiffel?"
    (Telefono) La Torre Eiffel è...
  • 2:34 - 2:37
    (Donna) Abbiamo fatto progressi incredibili
    molto rapidamente.
  • 2:37 - 2:39
    (Uomo, al telefono) Chi è il 21° presidente
    degli Stati Uniti?
  • 2:40 - 2:42
    (Beep del telefono)
    (Telefono) Chester A. Arthur è stato il 21°
  • 2:42 - 2:44
    (Uomo, al telefono) Ok, Google, di dov'è?
  • 2:44 - 2:47
    (Uomo) Anni fa, per interagire
    con i computer bisognava essere ingegneri.
  • 2:48 - 2:50
    Oggi, tutti possono interagire.
  • 2:50 - 2:54
    Quel che è ancora agli inizi
    è la comprensione.
  • 2:54 - 2:56
    Ci serve un un modello di comprensione
    molto più sofisticato
  • 2:56 - 2:59
    che capisca il significato delle frasi.
  • 2:59 - 3:01
    Siamo ancora molto lontani.
  • 3:01 - 3:03
    [Comprensione del linguaggio]
  • 3:04 - 3:07
    ♪ (Musica in sottofondo) ♪
  • 3:08 - 3:12
    (Donna) La nostra capacità di usare
    la lingua ci aiuta ad avere una cultura.
  • 3:13 - 3:19
    È una delle cose che aiuta a trasmettere
    le tradizioni alle generazioni successive.
  • 3:20 - 3:26
    Capire come il sistema del linguaggio
    funziona, anche se sembra facile,
  • 3:26 - 3:33
    si rivela molto difficile, ma lo capisce
    anche un bambino di due anni.
  • 3:33 - 3:38
    (Ragazza) Ce ne sono due.
    (Donna) Ci sono due L, sì.
  • 3:38 - 3:41
    La lingua è estremamente
    complessa e sofisticata...
  • 3:41 - 3:42
    Dalla semantica,
  • 3:42 - 3:44
    all'ironia, agli accenti,
  • 3:44 - 3:45
    alle espressioni del viso,
  • 3:45 - 3:47
    alle emozioni umane, perché fa parte
    del nostro modo di comunicare.
  • 3:47 - 3:49
    L'umorismo.
  • 3:49 - 3:52
    Devo stare attento
    a non offendere il dinosauro?
  • 3:52 - 3:54
    Il linguaggio ha così tante sfumature
    ed è il motivo per cui
  • 3:54 - 3:56
    è così complicato.
  • 3:56 - 3:59
    (Uomo) Il cervello umano
    e gli algoritmi di apprendimento
  • 3:59 - 4:02
    sono molto più bravi
    nella comprensione della lingua
  • 4:02 - 4:05
    e molto più bravi
    nell'afferrare i giochi di parole.
  • 4:05 - 4:09
    Che replichiamo esattamente o meno
    quello che fa il cervello, capire
  • 4:09 - 4:14
    la lingua e il discorso
    è ancora un problema.
  • 4:15 - 4:17
    [Reti neurali]
  • 4:18 - 4:23
  • 4:23 - 4:27
  • 4:27 - 4:33
  • 4:33 - 4:37
  • 4:37 - 4:40
  • 4:40 - 4:44
  • 4:45 - 4:49
  • 4:49 - 4:53
  • 4:53 - 4:59
  • 5:00 - 5:04
  • 5:04 - 5:09
  • 5:09 - 5:12
  • 5:12 - 5:15
  • 5:15 - 5:20
  • 5:21 - 5:24
  • 5:24 - 5:27
  • 5:27 - 5:33
  • 5:33 - 5:36
  • 5:36 - 5:38
  • 5:38 - 5:44
  • 5:44 - 5:50
  • 5:50 - 5:53
  • 5:53 - 5:58
  • 5:58 - 6:01
  • 6:01 - 6:06
  • 6:06 - 6:11
  • 6:13 - 6:19
  • 6:19 - 6:21
  • 6:21 - 6:26
  • 6:26 - 6:28
  • 6:28 - 6:33
  • 6:33 - 6:37
  • 6:37 - 6:42
  • 6:42 - 6:47
  • 6:47 - 6:51
  • 6:51 - 6:52
  • 6:52 - 6:56
  • 6:56 - 7:00
  • 7:00 - 7:03
  • 7:03 - 7:09
  • 7:13 - 7:14
Title:
Behind the Mic: The Science of Talking with Computers
Description:

more » « less
Video Language:
English
Team:
Captions Requested
Duration:
07:19

Italian subtitles

Incomplete

Revisions