WEBVTT 00:00:06.307 --> 00:00:11.306 Hoe komt het dat zoveel buitenaardse wezens in films en op tv 00:00:11.306 --> 00:00:14.213 toevallig perfect Engels spreken? 00:00:14.213 --> 00:00:17.886 Het korte antwoord is dat je geen ruimteschipbemanning wilt zien 00:00:17.886 --> 00:00:21.484 dat jaren bezig is om een woordenboek Buitenaards-Engels samen te stellen. 00:00:21.484 --> 00:00:23.192 Maar om consequent te blijven, 00:00:23.192 --> 00:00:26.789 hebben de makers van Star Trek en andere science-fiction 00:00:26.789 --> 00:00:30.324 een universele vertaler bedacht. 00:00:30.324 --> 00:00:34.822 Een draagbaar apparaat dat ogenblikkelijk alle talen kan vertalen. 00:00:34.822 --> 00:00:38.219 Is zo'n universele vertaler in het echte leven mogelijk? 00:00:38.219 --> 00:00:42.027 Er bestaan al veel programma's die beweren dat te doen. 00:00:42.027 --> 00:00:45.954 Een woord, een zin of een compleet boek in een bepaalde taal 00:00:45.954 --> 00:00:48.784 vertalen naar bijna elke andere taal, 00:00:48.784 --> 00:00:52.247 of het nou modern Engels of Oud-Sanskriet is. 00:00:52.247 --> 00:00:55.913 Als vertalen alleen zou bestaan uit woorden opzoeken in een woordenboek, 00:00:55.913 --> 00:00:59.625 dan zouden die programma's de mens makkelijk verslaan. 00:00:59.625 --> 00:01:03.199 De realiteit is echter veel ingewikkelder. 00:01:03.199 --> 00:01:07.349 Een op regels gebaseerd vertaalprogramma gebruikt een lexicale database, 00:01:07.349 --> 00:01:10.302 die alle woorden bevat die in een woordenboek staan 00:01:10.302 --> 00:01:13.073 met alle grammaticale vormen die ze kunnen hebben, 00:01:13.073 --> 00:01:18.705 en een aantal regels om de taalelementen van de brontaal te herkennen. 00:01:18.705 --> 00:01:22.396 Voor een ogenschijnlijk eenvoudige zin als 'De kinderen eten de muffins' 00:01:22.396 --> 00:01:27.050 zoekt het programma eerst uit wat de syntax of grammaticale structuur is 00:01:27.050 --> 00:01:29.587 door de kinderen als onderwerp te benoemen 00:01:29.587 --> 00:01:32.287 en de rest van de zin als gezegde, 00:01:32.287 --> 00:01:34.328 bestaande uit het werkwoord 'eten' 00:01:34.328 --> 00:01:37.382 en het lijdend voorwerp 'de muffins'. 00:01:37.382 --> 00:01:40.249 Daarna moet het de Engelse woordstructuur herkennen, 00:01:40.249 --> 00:01:44.681 oftewel hoe de taal kan worden opgedeeld in de kleinste stukjes met betekenis, 00:01:44.681 --> 00:01:47.394 zoals het woord 'muffin' en het aanhangsel 's', 00:01:47.394 --> 00:01:49.755 dat het meervoud aangeeft. 00:01:49.755 --> 00:01:52.449 Tot slot moet het de semantiek begrijpen: 00:01:52.449 --> 00:01:56.088 wat de verschillende zinsdelen betekenen. 00:01:56.088 --> 00:01:58.024 Om deze zin netjes te vertalen, 00:01:58.024 --> 00:02:01.982 zou het programma moeten verwijzen naar een andere woordenschat en regels 00:02:01.982 --> 00:02:04.946 voor elk onderdeel in de doeltaal. 00:02:04.946 --> 00:02:06.770 Hier wordt het lastiger. 00:02:06.770 --> 00:02:11.820 Soms kan de syntax van een taal toestaan dat de woordvolgorde niet uitmaakt, 00:02:11.820 --> 00:02:16.774 terwijl dat bij andere talen betekent dat de muffin het kind eet. 00:02:16.774 --> 00:02:19.647 Morfologie kan ook nog roet in het eten gooien. 00:02:19.647 --> 00:02:23.083 Slovenen maken onderscheid tussen twee en drie of meer kinderen 00:02:23.083 --> 00:02:26.847 door twee achtervoegsels te gebruiken die veel andere talen niet hebben, 00:02:26.847 --> 00:02:30.532 terwijl je je door het Russische gebrek aan lidwoorden blijft afvragen 00:02:30.532 --> 00:02:33.575 of de kinderen bepaalde muffins eten, 00:02:33.575 --> 00:02:36.719 of muffins in het algemeen. 00:02:36.719 --> 00:02:39.708 Zelfs als de semantiek technisch klopt, 00:02:39.708 --> 00:02:42.637 kan het programma nog steeds de finesses missen, 00:02:42.637 --> 00:02:45.719 bijvoorbeeld of de kinderen de muffins 'mangiano' 00:02:45.719 --> 00:02:47.714 of 'divorano'. 00:02:47.714 --> 00:02:51.558 Een andere methode is de statistische machinevertaling, 00:02:51.558 --> 00:02:55.762 die een database analyseert met boeken, artikelen en documenten 00:02:55.762 --> 00:02:59.268 die al zijn vertaald door de mens. 00:02:59.268 --> 00:03:02.959 Door overeenkomsten te zoeken tussen de bron en de vertaalde tekst 00:03:02.959 --> 00:03:05.393 die niet toevallig lijken te bestaan, 00:03:05.393 --> 00:03:09.345 kan het programma overeenkomstige uitdrukkingen en patronen vinden, 00:03:09.345 --> 00:03:12.259 en ze gebruiken voor toekomstige vertalingen. 00:03:12.259 --> 00:03:14.839 De kwaliteit van dit soort vertalingen 00:03:14.839 --> 00:03:17.690 hangt echter af van de grootte van de database 00:03:17.690 --> 00:03:23.187 en de aanwezigheid van voorbeelden voor bepaalde talen of schrijfstijlen. 00:03:23.187 --> 00:03:27.140 Het probleem dat computers hebben met uitzonderingen, onregelmatigheden 00:03:27.140 --> 00:03:30.994 en nuances die mensen instinctief aanvoelen, 00:03:30.994 --> 00:03:35.045 hebben bij onderzoekers geleid tot de gedachte dat taalbegrip 00:03:35.045 --> 00:03:39.251 het unieke resultaat is van onze biologische hersenstructuur. 00:03:39.251 --> 00:03:43.101 Een van de beroemdste fictieve universele vertalers, 00:03:43.101 --> 00:03:46.439 Babelvis uit 'The Hitchhiker's Guide to the Galaxy', 00:03:46.439 --> 00:03:49.726 is immers geen machine, maar een klein wezen 00:03:49.726 --> 00:03:54.210 dat de hersengolven en zenuwsignalen van levende soorten vertaalt 00:03:54.210 --> 00:03:57.005 via een soort telepathie. 00:03:57.005 --> 00:03:59.986 Voorlopig geeft het leren van een taal op de ouderwetse manier 00:03:59.986 --> 00:04:04.816 betere resultaten dan welk computerprogramma ook. 00:04:04.816 --> 00:04:06.749 Dat is niet eenvoudig. 00:04:06.749 --> 00:04:09.014 Het grote aantal talen op de wereld 00:04:09.014 --> 00:04:12.989 en de toenemende interactie tussen de sprekers ervan 00:04:12.989 --> 00:04:18.004 zal het automatisch vertalen alleen maar sneller doen verbeteren. 00:04:18.004 --> 00:04:21.409 Tegen de tijd dat we buitenaardse levensvormen ontdekken, 00:04:21.409 --> 00:04:24.660 kunnen we wellicht praten via een gadget, 00:04:24.660 --> 00:04:29.026 of we moeten alsnog dat woordenboek schrijven.