-
Welkom bij de playlist over statistiek.
-
Dit is iets wat ik al lang wou doen.
-
Hoe dan ook, ik wil er meteen invliegen en
-
ik zal proberen zoveel mogelijk voorbeelden te geven en hopelijk
-
kan ik jou het gevoel geven waarover statistiek nu werkelijk gaat.
-
En geloof me, ook al ben je niet vertrouwd met statistiek,
-
denk ik dat heel wat mensen
-
een intuïtieve aanleg hebben over wat statistiek nu allemaal inhoudt.
-
Het essentiële is, om het wel zeer algemene termen uit te drukken,
-
om met data overweg te kunnen.
-
Het kan ruim geclassificeerd worden.
-
Er zijn misschien drie categorieën.
-
Je hebt de beschrijvende statistiek.
-
Dus je hebt een hoop gegevens en je wil iemand vertellen
-
waarover het gaat zonder hem al die data te geven.
-
Misschien kun je enkele getallen vinden die
-
de data zowat representeren zonder dat we
-
alle gegevens nogmaals moeten overlopen.
-
Dus dat is de beschrijvende statistiek.
-
Je hebt ook de voorspellende statistiek.
-
Ik groepeer ze zowat tesamen.
-
Er is inferentiële statistiek.
-
En dat is waar je de gegevens gaat gebruiken om duidelijk
-
conclusies te maken over dingen.
-
Laten we er van uit gaan dat je gegevens hebt verzameld over een populatie,
-
en we zullen veel praten over steekproeven tegenover populaties, maar
-
ik denk dat je wel al kunt aanvoelen wat dat inhoudt, niet?
-
Als ik drie mensen vraag wie ze als president zullen stemmen,
-
dan heb ik duidelijk niet de hele bevolking ondervraagd.
-
Ik heb een steekproef onderzocht.
-
Wat inferentiële statistiek precies inhoudt is dat,
-
als we wiskunde zouden kunnen toepassen op de steekproeven, misschien kunnen we dan ook
-
gevolgtrekkingen of besluiten over de populatie in zijn geheel gaan maken.
-
Nu, dat is slechts een grote schets van
-
wat statistiek allemaal inhoudt.
-
Laten we er meteen invliegen en we gaan van start met
-
de beschrijvende statistiek.
-
Het eerste dat ik zou willen doen,
-
of waarvan ik toch denk dat de meeste mensen zouden willen doen
-
als ze een hoop gegevens voorgeschoteld krijgen die ze moeten beschrijven...
-
Wel, misschien kan ik dan een getal vinden dat
-
indicatief is voor alle getallen in de dataset.
-
Een soort van getal dat zowat de centrale tendens weergeeft,
-
een woord dat je vaak in statistiekboeken zult tegenkomen.
-
De centrale tendens van een gegevensdataset.
-
En dat wordt ook het gemiddelde genoemd.
-
Ik zal hier wat preciezer in zijn dan normaal
-
met het woord "gemiddelde". Als ik praat over gemiddelde in deze context,
-
dan bedoel ik dat het gemiddelde een getal is dat op de één of andere manier
-
ons een gevoel geeft over de centrale tendens.
-
Een soort van getal dat het meest representatief is voor de hele set.
-
Ik weet dat het allemaal wat abstract klinkt,
-
maar laten we enkele voorbeelden doen.
-
Er zijn een hoop manieren waarop je de
-
centrale tendens of het gemiddelde van een dataset kunt meten.
-
Je hebt deze waarschijnlijk wel voorheen gezien.
-
Eerst heb je het gemiddelde.
-
Er bestaan verschillende types van gemiddelden, maar we zullen blijven
-
bij het rekenkundig gemiddelde.
-
Later zullen we het over het meetkundig gemiddelde hebben
-
en misschien ook over het harmonisch gemiddelde.
-
Je hebt het gemiddelde, de mediaan en de modus.
-
In de statistiek kunnen al deze getallen
-
representatief zijn voor de datasets of de centrale tendens van de populatie
-
of van de steekproef.
-
Ze zijn allemaal een vorm van
-
het gemiddelde.
-
Ik geloof dat dit duidelijker zal worden
-
als we enkele voorbeelden maken.
-
Wanneer mensen over het gemiddelde praten,
-
ik denk dat je in je leven wel al eens een gemiddelde berekend hebt,
-
dan praten ze doorgaans over het rekenkundig gemiddelde.
-
Dus als iemand zegt: "Laten we het gemiddelde nemen van
-
deze getallen", dan verwachten ze van jou dat je
-
het rekenkundig gemiddelde berekent.
-
Ze willen niet dat je de mediaan of de modus bepaalt.
-
Vooraleer we verdergaan, zullen we bepalen
-
wat deze dingen exact inhouden.
-
Ik zal een aantal gegevens opschrijven.
-
Stel dat we het getal 1 hebben.
-
En dan heb ik nog een 1, een 2, een 3.
-
We hebben ook een 4.
-
Dat volstaat.
-
We willen het simpel houden.
-
Het gemiddelde, of toch het rekenkundig gemiddelde, is datgene waarmee
-
je het meest vertrouwd bent wanneer mensen praten over "het gemiddelde".
-
En dat houdt essentieel in dat je alle getallen optelt
-
en dan deelt door het aantal getallen dat je hebt.
-
In dit geval zou dat zijn: 1 + 1 + 2 + 3 + 4
-
En dat zullen we delen door 1, 2, 3,
-
4, 5 getallen.
-
Wat is het?
-
1+1 = 2
-
2+2 = 4
-
4+3 = 7
-
7+4 = 11
-
Het is dus gelijk aan 11 gedeeld door 5.
-
Wat is dat?
-
Dat is 2 + 1/5
-
Dat is dus gelijk aan 2,2.
-
En dan zou iemand dus kunnen zeggen: "He, weet je,
-
dat is best een goede weergave
-
van deze reeks gegevens."
-
Dat is het getal waarbij al die getallen het dichtste liggen.
-
2,2 vertegenwoordigt de centrale tendens
-
van deze reeks gegevens.
-
En in het algemene taalgebruik is dat dan het gemiddelde.
-
Als we echter wat preciezer willen zijn, dan
-
moeten we dit het rekenkundig gemiddelde van onze dataset noemen.
-
En je ziet dat het die dataset weerspiegelt.
-
Als ik jou deze lijst van vijf getallen niet zou willen geven,
-
dan zou ik gezegd kunnen hebben: "Ik heb een reeks van vijf getallen en
-
hun gemiddelde is 2,2". Het zegt je infeite een beetje
-
of toch tenminste waar de getallen zich bevinden.
-
We zullen wat dieper ingaan op hoe je weet hoever
-
de gegevens van dat gemiddelde liggen in de volgende video.
-
Dus dat was één benadering.
-
Een andere benadering, in plaats van het gemiddelde op deze manier te nemen,
-
is om de getallen in volgorde te plaatsen,
-
wat hier infeite al gebeurd is.
-
Dus we schrijven onze getallen opnieuw in volgorde.
-
1, 1, 2, 3, 4.
-
En daarvan nemen we nu het middelste getal.
-
We hebben 5 getallen.
-
Het middelste getal is dus hier, juist?
-
Het middelste getal is 2.
-
Er zijn twee getallen die groter zijn dan 2 en er zijn twee
-
getallen die kleiner zijn dan 2.
-
Dit is wat we de mediaan noemen.
-
Dus dit neemt weinig berekening in beslag.
-
Je moet de getallen gewoon in de juiste volgorde plaatsen.
-
En dan moet je op zoek gaan naar het nummer waarvan er
-
evenveel getallen groter zijn dan dat nummer als dat er getallen zijn die kleiner zijn.
-
Dus de mediaan van deze reeks is 2.
-
En je merkt op dat dit infeite
-
dicht aansluit bij het gemiddelde.
-
Er bestaat geen juiste antwoord.
-
Geen van deze twee antwoorden is een beter antwoord voor hét gemiddelde.
-
Het zijn gewoon twee verschillende manieren om het gemiddelde op te gaan meten.
-
Dus dit is de mediaan.
-
En ik weet wat je denkt: "Wel, dat was makkelijk
-
aangezien we vijf getallen hadden.
-
Maar wat als we zes getallen zouden gehad hebben?"
Wat als het zou zijn zoals dit?
-
Wat als dit onze dataset was?
-
1, 1, 2, 3, laten we nog een vier toevoegen.
-
Dus nu is er geen middelste getal.
-
2 is niet het middelste getal want er zijn er twee getallen kleiner
-
en drie groter dan 2.
-
Ook 3 is niet het middelste getal want er zijn er drie groter,
-
ik bedoel 2 groter en 3
-
kleiner dat het getal 3.
-
Er is dus geen middelste getal.
-
Dus wanneer je een reeks hebt met een even aantal getallen en iemand
-
vraagt je om de mediaan te berekenen, dan moet je
-
de middelste twee getallen nemen en dan neem je het rekenkundig gemiddelde
-
van die twee getallen.
-
In dit geval zou de mediaan dus 2,5 zijn.
-
Duidelijk.
-
Laten we dit opzij zetten want ik wil de mediaan
-
en het gemiddelde en de modus voor
-
dezelfde reeks gegevens vergelijken.
-
Het is een goeie zaak om te weten omdat het soms
-
wat verwarrend kan zijn.
-
En dit zijn allemaal definities.
-
Het zijn allemaal wiskundige middeltjes om
-
met getallen overweg te kunnen.
-
Het is niet zo dat iemand op een dag één van deze formules
-
zag verschijnen op het gezicht van de zon en zei: "Oh, het maakt deel uit
-
van het universum en dat is hoe het gemiddelde berekend zou moeten worden."
-
Het zijn menselijke bepalingen om overweg te kunnen
-
met grote reeksen van gegevens.
-
Dit is hier geen grote reeks van gegevens, maar stel dat we in plaats van vijf getallen
-
een reeks van vijf miljoen getallen zouden gehad hebben, dan kun je inbeelden dat je
-
niet over elk getal apart zou gaan nadenken.
-
Hoe dan ook, vooraleer ik hier dieper op inga, sta mij toe
-
uit te leggen wat de modus is.
-
De modus is in zekere zin diegene die mensen
-
waarschijnlijk het meest vergeten of niet leren.
Wanneer ze het te zien krijgen op een examen,
-
zijn ze verward omdat ze zoiets hebben van:
-
"Oh, dat klinkt zeer diepgaand". Maar het is infeite de
-
makkelijkste manier van alle metingen van de centrale tendens of het gemiddelde.
-
De modus houdt in essentie in welk nummer het meest voorkomt in een reeks gegevens.
-
Dus in dit voorbeeld komt het getal 1 twee keer voor, terwijl
-
alle andere getallen slechts één keer voorkomen, juist?
-
De modus is hier 1.
-
De modus is simpelweg het meest voorkomende getal.
-
Dan zou je natuurlijk kunnen denken:
-
"Hé Sal, wat als dit onze dataset was...
-
"1,1, 2, 3, 4, 4?" Hier heb je twee keer 1 en twee keer 4.
-
En dat is waar de modus wat moeilijker wordt, want
-
beide getallen zouden een correct antwoord zijn voor de modus.
-
Je zou dus eigenlijk kunnen gezegd hebben dat 1 de modus was
-
of dat 4 de modus was en zo wordt het wat dubbelzinnig.
-
Je wilt waarschijnlijk een beetje duidelijkheid
-
van de persoon die het je vraagt.
-
Meestal als iemand je dit op een test vraagt, zal er
-
geen sprake zijn van deze dubbelzinnigheid.
-
Er zal simpelweg een getal zijn dat het meest voorkomt in de set.
-
Dus nu lijkt het zowat van, wel, waarom was één van deze
-
niet goed genoeg?
-
Je weet waarom we gemiddeldes geleerd hebben, waarom
-
gebruiken we ze niet gewoon?
-
Of waarom gebruiken we niet altijd het rekenkundig gemiddelde?
-
Wat is het nut van de mediaan en de modus?
-
Wel, ik zal je een voorbeeld proberen te geven en kijken
-
of je ziet waarom.
-
En dan kun je er nog wat dieper over nadenken.
-
Stel dat ik deze reeks getallen heb:
-
3, 3, 3, 3, 3 en 100.
-
Wat is het rekenkundig gemiddelde hier?
-
Ik heb vijf keer 3 en 100.
-
Dus dat betekent 115 gedeeld door 6, juist?
-
Ik heb zes getallen.
-
115 is de som van deze getallen.
-
Dus we kijken hoeveel keer 6 in 115 gaat.
-
6 gaat 1 keer in 11.
-
1 maal 6 is 6.
-
55 past 9 keer in
-
9 maal 6 is 54.
-
Dus het is gelijk aan 19 + 1/6
-
Duidelijk.
-
Ik heb gewoon al deze getallen opgeteld en gedeeld
-
door het aantal getallen.
-
Mijn vraag is nu: Is dit een goeie weerspiegeling
-
van deze reeks gegevens?
-
Ik bedoel, ik heb enorm veel drieën en dan heb ik plotseling 100
-
en dan gaan we beweren dat de centrale tendens 19 + 1/6e is?
-
Ik bedoel, 19 + 1/6e lijkt niet echt indicatief
-
voor deze set.
-
Misschien is het wel indicatief, dat hangt af van de toepassing,
-
maar het lijkt niet echt zo, juist?
-
Mijn intuïtie zou zijn dat de centrale tendens
-
een getal is dat dichter bij 3 ligt aangezien er zoveel drieën voorkomen.
-
Wat zou de mediaan ons vertellen?
-
Ik heb de getallen al in de juiste volgorde staan, juist?
-
Als ik je ze niet in de juiste volgorde zou gegeven hebben, dan zou je deze
-
in de juiste volgorde moeten zetten en je afvragen wat het middelste getal is.
-
De middelste twee getallen zijn, aangezien ik
-
een even aantal getallen heb, 3 en 3.
-
Dus als ik het gemiddelde ga nemen
-
van 3 en 3,
-
dus het rekenkundig gemiddelde van 3 en 3, dan krijg ik 3.
-
En dat lijkt een betere meting van de centrale tendens
-
of van het gemiddelde van deze gegevensset, juist?
-
Het komt er op neer dat ik, door de mediaan te nemen, niet zoveel
-
beïnvloed wordt door dit ene echt grote getal dat
-
zeer verschillend is van de rest.
-
In statistiek wordt dat een uitschieter genoemd.
-
Een getal dat, als je over een gemiddelde huisprijs zou praten,
-
stel dat elk huis $100,000 kost in een stad en dan
-
heb je één huis dat $1 triljoen kost.
-
Als dan iemand jou zou vertellen dat de gemiddelde huisprijs iets was van,
-
ik weet het niet exact, $1 miljoen, dan zou je duidelijk een verkeerd
-
beeld hebben van die stad.
-
Maar de mediaan van de huisprijzen zou $100,000 zijn en zo zou je
-
een beter gevoel hebben over de prijs van de huizen in die stad.
-
Dus gelijkaardig geeft deze mediaan jou misschien
-
een beter gevoel over wat de getallen in deze set werkelijk zijn.
-
Doordat het rekenkundig gemiddelde hierdoor werd beïnvloed,
-
wat men een uitschieter noemt.
-
Om te kunnen zeggen wat een uitschieter is, is
-
zo een ding waarvan een statisticus zou zeggen:
-
"Ik weet het wanner ik het zie"
-
Er is geen formele definitie voor een uitschieter maar het
-
is een getal dat werkelijk opvalt en soms
-
komt het gewoon door een foutieve meting of zoiets.
-
Tenslotte hebben we nog de modus.
-
Welk getal komt het meest voor in deze set?
-
We hebben vijf keer 3 en ook nog eens 100.
-
Het meest voorkomende getal is dus 3.
-
In dit geval, wanneer je deze uitschieter zou gehad hebben,
-
zouden de mediaan en de modus een betere manier zijn
-
om je een indicatie te geven over wat
-
deze getallen vertegenwoordigen.
-
Misschien was dit een metingsfout.
-
Ik weet het niet, we weten niet
-
wat deze getallen betekenen.
-
Als dit huisprijzen zijn, dan zou ik zeggen dat
-
deze metingen waarschijnlijk meer indicatief zijn
-
over wat de huisprijzen in die regio werkelijk zijn.
-
Maar als dit iets anders is, bijvoorbeeld een cijfer op een test,
-
dan kan het misschien zijn dat er één kind van de zes is
-
die zeer, zeer goed heeft gepresteerd en al de rest
-
simpelweg niet gestudeerd heeft.
-
En dit is meer indicatief om te zeggen hoe de studenten
-
op dat niveau het gemiddeld doen.
-
Hoe dan ook, ik ben klaar met hierover te praten.
-
Ik moedig je aan om wat met getallen te gaan spelen
-
en de concepten zelf te behandelen.
-
In de volgende video zullen we nog meer
-
beschrijvende statistiek gaan verkennen.
-
We zullen niet langer over de centrale tendens praten, maar
-
we zullen het hebben over hoever getallen verwijderd zijn van die
-
centrale tendens.
-
Ik zie je in de volgende video!