Normalfordeling
Mange variabler i de fysiske, biologiske og adfærdsmæssige videnskaber, har adopteret hvad der kaldes en normalfordeling (se figur 1). Ordet normal, bruges ikke fordi fordelingen er korrekt, men (og denne skelnen er vigtig) fordi det anses for typisk eller standard for en variabel, der afhænger tilfældige processer.
Figur 1:
Normalfordelingen. Den lodrette stiplede linje angiver gennemsnittet,
medianen og typetallet for den uafhængige variabel.
I det kliniske laboratorie, kan kurven i figur 1 repræsentere serumkolesterolkoncentrationer, bestemt i 100 udvalgte patienter. I så fald, ville den uafhængige variabel (x-aksen) være kolesterolkoncentrationen og den afhængige variabel (y-aksen) ville være antallet af gange, hver koncentration blev observeret. I andre discipliner – økologi for eksempel – kunne den uafhængige variabel repræsentere bredder af ahornblade i det nordlige Europa; i sociologi, eksamenskaraktererne i matematik for alle niende klasses elever i Danmark.
Det er klart, at den laveste og den højeste værdi for den uafhængige variabel, forekommer mest sjældent, mens værdierne nær centrum, forekommer oftest. Det er let af se, hvorfor denne fordeling har erhvervet sit tilnavn ”klokkekurven”.
Kurven i figur 1 er defineret af middelværdien og standardafvigelsen. Teoretisk, kunne man tegne hele kurven ved kun at have disse to værdier. Det er det samme som hvis man kendte værdierne af alle datapunkterne. Selv om mange variabler i videnskaberne adopterer denne fordeling, gør nogle variabler det ikke og der er en tendens til, blandt nogle forskere, at påberåbe sig normalfordelingen inden der er nok beviser til at støtte en sådan udlægning.
Normalfordelingen, har en række vigtige egenskaber, som vi skal se nærmere på nu.
- Gennemsnit, median og typetal er ens. Med andre ord, balancepunktet, den midterste værdi og den mest almindelige værdi er alle det samme (figur 1, stiplet linje). Dette skyldes, at kurven er symmetrisk. Faktisk kan kurven godt være bredere, smallere, højere eller længere og dens højdepunkt kan forskydes i den ene eller anden retning, men normalfordelingen er altid symmetrisk.
- Normalfordelingen følger 68-95-99,7 reglen. I en normal fordeling af data (figur 2), falder 68% af værdierne inden for middelværdien plus en standardafvigelse (x + s) og middelværdien minus en standardafvigelse (x – s). 95% af værdierne falder mellem (x + 2s) og (x – 2s) og 99,7% af værdierne, falder mellem (x + 3s) og (x – 3s).
Figur 2:
I det kliniske laboratorie, guider standardafvigelsen accept og afvisning kvalitetskontrollen og bestemmer om patientprøver testes. Antag for eksempel, at dit laboratorie kører en test for ferritin i serum. Før du kører nogle patientprøver, skal du sikre dig, at din analysemetode fungerer korrekt. Du kører din ferritinkontrolopløsning og sammenligner resultatet (147 ng/mL), med middelværdien (151 ng/mL) for de 60 øvrige ferritinkontroller der er blevet foretaget de seneste 6 uger. Hvis standardvariationen af disse kontrolresultater er 3 ng/mL, så falder 68% af data mellem 148 og 154 ng/mL, eller mellem x – 1s og x + 1s (det vil sige mellem 151 – 3 og 151 + 3). Desuden vil 95% af dataene falde mellem 145 og 157 ng/mL, eller mellem x – 2s og x + 2s (altså mellem 151 – 6 og 151 + 6).
Dit resultat på 147 ng/mL, falder mellem en og to standardafvigelser under middelværdien. På dette tidspunkt, er spørgsmålet om dit resultat er tæt nok på middelværdien til at kunne konkludere at din analysemetode fungerer korrekt og du derfor kan gå videre med patientprøver. Laboratorier har normalt politikker for denne beslutning, baseret på afvigelsen af et givent resultat fra middelværdien. Hvis dit laboratorie har etableret grænsen for ferritinanalysen til at være ±2s, så er dit resultat på 147 ng/mL i orden og du kan fortsætte til at køre patientprøver. Hvis grænsen derimod er sat til ±1s, fejler din analysemetode og du kan ikke køre patientprøver før fejlen er fundet og udbedret.