WEBVTT 00:00:06.677 --> 00:00:11.306 Hogyan lehetséges, hogy sok, filmekben és tévében szereplő intergalaktikus faj 00:00:11.306 --> 00:00:14.483 tökéletesen beszél angolul? 00:00:14.483 --> 00:00:17.956 A rövid válasz az, hogy senki nem akarja végignézni, 00:00:17.956 --> 00:00:21.774 ahogy egy csillaghajó legénysége éveket tölt egy szótár összeállításával. 00:00:21.774 --> 00:00:24.252 De hogy következetesek maradjanak, a Star Trek 00:00:24.252 --> 00:00:26.789 és más tudományos-fantasztikus világok alkotói, 00:00:26.789 --> 00:00:30.514 bevezették az univerzális fordítóeszköz fogalmát. 00:00:30.514 --> 00:00:35.012 Ez egy hordozható eszköz, amely azonnal fordít bármely két nyelv között. 00:00:35.012 --> 00:00:38.539 Létezik ilyen univerzális fordítóeszköz a valóságban? 00:00:38.539 --> 00:00:42.137 Sok program tudja elvileg megcsinálni azt, 00:00:42.137 --> 00:00:45.954 hogy vesz egy szót, mondatot, vagy egy egész könyvet egy nyelven 00:00:45.954 --> 00:00:49.004 és lefordítja szinte bármely másikra, 00:00:49.004 --> 00:00:52.337 legyen az mai angol vagy ősi szanszkrit. 00:00:52.337 --> 00:00:56.433 És ha a fordítás csak annyiból állna, hogy megtaláljunk szavakat a szótárban, 00:00:56.433 --> 00:00:59.825 ezek a programok leköröznék az embereket. 00:00:59.825 --> 00:01:03.299 A valóság azonban egy kicsit bonyolultabb. 00:01:03.299 --> 00:01:07.349 A szabályokon alapuló fordítóprogram lexikális adatbázist használ, 00:01:07.349 --> 00:01:10.302 ami tartalmaz minden szótárban megtalálható szót, 00:01:10.302 --> 00:01:14.413 annak minden lehetséges nyelvtani alakjával, és egy szabályhalmazt, 00:01:14.413 --> 00:01:18.925 amivel felismeri a nyelvészeti alkotóelemeket a bemeneti nyelvben. 00:01:18.925 --> 00:01:22.396 Egy olyan egyszerűnek tűnő mondatot, mint "The children eat the muffins," 00:01:22.396 --> 00:01:27.050 a program először szintaktikailag elemez, vagyis a nyelvtani struktúrát nézi, 00:01:27.050 --> 00:01:29.587 és azonosítja, hogy a "the children" az alany, 00:01:29.587 --> 00:01:32.317 és a mondat további része az állítmány, 00:01:32.317 --> 00:01:34.368 ami az "eat" igéből 00:01:34.368 --> 00:01:37.422 és a "the muffins" tárgyból áll. 00:01:37.422 --> 00:01:40.249 Ezután következik az angol morfológiai elemzés, 00:01:40.249 --> 00:01:44.681 avagy hogyan lehet a nyelvet a legkisebb értelmes egységekre bontani, 00:01:44.681 --> 00:01:46.124 mint például a "muffin" szó 00:01:46.124 --> 00:01:49.755 és az "s" utótag, ami [az angolban] a többesszámot jelenti. 00:01:49.755 --> 00:01:52.449 Végül értenie kell a szemantikát, 00:01:52.449 --> 00:01:56.178 vagyis a mondat különböző részeinek jelentését. 00:01:56.178 --> 00:01:58.074 A mondat megfelelő lefordításához 00:01:58.074 --> 00:02:01.982 a program a célnyelv minden egyes elemére 00:02:01.982 --> 00:02:05.166 egy másik szó- és szabályhalmazt alkalmaz. 00:02:05.166 --> 00:02:07.020 És itt válik trükkössé a dolog. 00:02:07.020 --> 00:02:11.820 Pár nyelv szintaxisa lehetővé teszi, hogy a szavak bármilyen sorrendben legyenek, 00:02:11.820 --> 00:02:16.954 míg más nyelveken, ha így teszünk, akkor a muffin eszi meg a gyereket. 00:02:16.954 --> 00:02:19.647 A morfológia is problémás lehet. 00:02:19.647 --> 00:02:23.243 A szlovén különbséget tesz kettő, és három vagy több gyerek között 00:02:23.243 --> 00:02:27.097 a más nyelveken nem létező dupla utótag használatával. 00:02:27.097 --> 00:02:30.532 Az oroszban pedig a határozott névelők hiánya miatt azon gondolkodsz, 00:02:30.532 --> 00:02:33.575 hogy a gyerekek néhány konkrét muffint esznek 00:02:33.575 --> 00:02:36.719 vagy csak általában esznek muffint. 00:02:36.719 --> 00:02:39.708 Végül, még ha a szemantika gyakorlatilag helyes is, 00:02:39.708 --> 00:02:42.757 a program eltévesztheti a finomabb részleteket, 00:02:42.757 --> 00:02:45.809 mint például, hogy a gyerekek "mangiano" (megeszik) a muffinokat, 00:02:45.809 --> 00:02:47.794 vagy "divorano" (felfalják) azokat. 00:02:47.794 --> 00:02:51.558 Egy másik módszer a statisztikai gépi fordítás, 00:02:51.558 --> 00:02:55.762 ami egy olyan könyvekből, cikkekből és dokumentumokból álló adatbázist elemez, 00:02:55.762 --> 00:02:59.488 amit emberek már lefordítottak. 00:02:59.488 --> 00:03:02.959 Ha egyezéseket talál a forrás- és a célszövegek között, 00:03:02.959 --> 00:03:05.393 amik nem valószínű, hogy véletlenül fordulnak elő, 00:03:05.393 --> 00:03:09.345 a program összetartozó frázisokat és mintázatokat azonosíthat, 00:03:09.345 --> 00:03:12.429 és használhatja őket jövőbeni fordításokban. 00:03:12.429 --> 00:03:14.969 Viszont az effajta fordítás minősége 00:03:14.969 --> 00:03:17.690 függ a kezdeti adatbázis nagyságától, 00:03:17.690 --> 00:03:21.357 és attól, hogy mennyi minta áll rendelkezésre bizonyos nyelveken 00:03:21.357 --> 00:03:23.383 illetve bizonyos stílusú írásokból. 00:03:23.383 --> 00:03:27.140 Az emberek számára ösztönösen érezhető kivételek, 00:03:27.140 --> 00:03:30.994 szabálytalanságok és jelentésárnyalatok, amik a gépeknek nehézséget okoznak, 00:03:30.994 --> 00:03:35.045 azt a benyomást keltik a kutatókban, hogy a nyelv megértése 00:03:35.045 --> 00:03:39.251 biológiai agyunk struktúrájának egyedi terméke. 00:03:39.251 --> 00:03:43.101 Az egyik legismertebb kitalált univerzális fordítóeszköz, 00:03:43.101 --> 00:03:46.439 a Bábel-hal, a Galaxis útikalauz stopposoknak című alkotásból, 00:03:46.439 --> 00:03:49.726 valójában nem is egy gép, hanem egy apró teremtmény, 00:03:49.726 --> 00:03:54.210 amely az élőlények agyhullámait 00:03:54.210 --> 00:03:57.005 és idegjelzéseit egyféle telepátián keresztül fordítja le. 00:03:57.005 --> 00:04:01.466 Egyelőre a régimódi nyelvtanulás még mindig jobb eredményeket hoz, 00:04:01.466 --> 00:04:05.106 mint bármelyik jelenleg elérhető számítógépes program. 00:04:05.106 --> 00:04:06.749 De ez nem egyszerű feladat, 00:04:06.749 --> 00:04:09.014 a világ nyelveinek puszta száma, 00:04:09.014 --> 00:04:12.989 illetve a növekvő interakció a nyelveket beszélők között, 00:04:12.989 --> 00:04:18.004 továbbra is viszi előre az automatizált fordítás fejlesztését. 00:04:18.004 --> 00:04:21.409 Talán mire találkozunk az intergalaktikus életformákkal, 00:04:21.409 --> 00:04:24.660 tudunk majd kommunikálni velük egy apró kütyüvel. 00:04:24.660 --> 00:04:29.026 Vagy lehet mégis el kell kezdenünk összeállítani azt a szótárat.