Centrale tendenser

Et af de altoverskyggende spørgsmål der opstår, fra ethvert sæt af numeriske data er dette: hvis der er en typisk værdi, hvad er det så sandsynligt den er? Svaret på dette spørgsmål, ligger i den centrale tendens af de numeriske data. Der er tre almindelige mål for den centrale tendens: (1) medianen (middelværdien), der er midtpunktet af data; (2) den gennemsnitlige værdi, som er balancepunktet i dataene og (3) typetallet, der er den værdi, der forekommer oftest i dataene.


Median

For at finde medianen, opstil alle posterne i datasættet, inklusiv alle gentagelser, i stigende eller faldende rækkefølge og find derefter midtpunktet. Hvis antallet af registreringer i datasættet (n) er ulige, vil medianen kunne findes som registrering nummer (n+1)/2. Hvis antallet af elementer i datasættet (n) er lige, er medianen den beregnede værdi halvvejs mellem de to midterste poster. Her er to eksempler:

Bemærk! at når antallet af værdier er lige, kan medianen beregnes ved at lægge de to midterste værdier sammen og dividere med 2 (dette gøres for at få gennemsnittet mellem de to værdier). For eksempel nummer to ovenfor ville det være beregnet således:


Gennemsnit

For at finde gennemsnittet (middelværdien), eller balancepunktet af et datasæt, lægges alle værdierne sammen og divideres med summen af antal værdier:


Tag for eksempel dette simple datasæt: 1, 2, 2, 4, 5, 6, 8. Her er gennemsnittet 4 (28 ÷ 7).

Gennemsnittet er også den unikke værdi, som kan erstatte alle de observerede værdier i datasættet uden at ændre totalen af disse værdier. For eksempel, hvis hver værdi i ovenstående datasæt erstattes med gennemsnittet, der er ”4”, giver det den samme total:

Vi kan betragte gennemsnittet som ”tyngdepunktet” i datasættet. Hvis vi placerer datapunkterne på en talrække, sige som vægte på en bjælke, så er gennemsnittet ligevægtspunktet, eller balancepunktet (se figur 1).

Figur 1:


Vægtene på en bjælke analogien for gennemsnittet af et datasæt.
De individuelle værdier: 4, 14, 19, 22, 26, 26, 29, 31, 32, 33, 33, 33,
33, 34, 35, 35, 39. Gennemsnittet er 28.

Gennemsnittet vi kigger på her, er det aritmetiske gennemsnit, en af de tre klassiske Pythagoras gennemsnit; de to andre er de geometriske og harmoniske gennemsnit. Det geometriske gennemsnit har, skønt der stødes på det langt sjældnere end det aritmetiske, dog funktioner der kan anvendes i det kliniske laboratorie, hvoraf den ene forekommer i beregningen af INZ (International Normalized Ratio).


Typetallet

Typetallet, er den værdi der forekommer oftest. I figur 6.2.1.1 er det tal 33. Fordi det kun har en type, kalder vi dette datasæt for unimodalt, selv om det er muligt for et datasæt at have mere end en top, i hvilke tilfælde datasættet kan være bimodalt eller endda tromodalt. Bemærk dog at typetallet ikke kan være i centrum, eller nær midten af datasættet; derfor er typetallet ikke nødvendigvis et mål for en central tendens.


Hvordan afvigende værdier påvirker den centrale tendens

En afvigende værdi, er en ekstrem værdi der falder godt over eller under de øvrige værdier. Kig på følgende tre datasæt:

Datasæt B og C har hver en afvigende værdi (”75” med pink). I sæt B har den afvigende værdi erstattet den sidste værdi i datasæt A; hvor den afvigende værdi i C blot er blevet tilføjet til datasæt A. Som det fremgår af tabellen, ændrer den afvigende værdi markant gennemsnittet, men påvirker næsten ikke medianen og forstyrrer ikke typetallet overhovedet. Dette illustrerer en stor forskel mellem disse tre mål for central tendens. Median og typetal modstår påvirkningen af afvigende værdier bedre end gennemsnittet; med andre ord, er medianen og typetallet generelt mere robuste. Dette skyldes at en afvigende værdi indgår direkte i beregningen af gennemsnittet, men det ikke nødvendigvis ændrer antallet af værdier i datasættet eller den hyppigste værdi.

Back to Top