Spredning
Som forklaret tidligere, besvarer de centrale tendenser spørgsmålet om typiske værdier for et datasæt. Nu står vi over for den naturlige konsekvens af dette spørgsmål: hvor typiske er den typiske værdi.
Sammenfatning af et datasæt ved at rapportere gennemsnittet (eller medianen eller typetallet), er ofte ikke nok. Selvom det lokaliserer midten af dataene, kan gennemsnittet ikke fortælle os noget om, hvordan dataene er spredt omkring det; med andre ord, fortæller det os ikke om dataene er tæt grupperet eller om de er spredte. De følgende to datasæt kan illustrere dette punkt.
Selvom de to datasæt har samme gennemsnit, har de to datasæt forskellige spredninger; dataene ligger tættere sammen i A end de gør i B. Derfor er ”13” mere typisk for dataene i A end det er for dataene i B.
Standardafvigelse
Det mest almindelige mål for spredningen, er standardafvigelsen (se ligningen herunder). I en simpel forstand, repræsentere standardafvigelsen den gennemsnitlige ændring af dataene omkring gennemsnittet. Vi kan fortolke standardafvigelsen som en indikator for spredning, som en typisk afstand mellem data og gennemsnit. En høj værdi fortælles os, at data i gennemsnit ligger langt fra gennemsnittet, mens en lav værdi fortæller os, at de er grupperet omkring gennemsnittet.
Værdien under sigma, angiver start x og værdien over sigma angiver det endelige x. I dette tilfælde, så lægger vi afvigelserne sammen ved at starte med x1 og slutter med xn.
For datasæt A ovenfor er s = 2,2. Hvad dette betyder er, at i gennemsnit ligger dataværdierne i en afstand på 2,2 fra deres gennemsnit, der er 13. For datasæt B er s = 7,9; den større standardafvigelse for B, er i overensstemmelse med den større spredning af data.
Selvom regnemaskiner og regneark kan beregne s for os, er man kommet et lang stykke hen af vejen der kan hjælpe os med at afværge fejlfortolkninger af standardafvigelsen, ved forståelse af ligningen for standardafvigelsen. Følgende sekvens gennemgår hovedtrækkene i denne ligning, som begynder med tælleren.
- Træk gennemsnittet fra hver dataværdi. Dette måler afstanden fra det specifikke datapunkt til gennemsnittet.
- Opløft værdierne i anden potens. Dette eliminerer eventuelle negative tal, der kan være opstået ved subtraktion hvis gennemsnittet var større end dataværdien. Dem det fremgår af ovenstående tabel, opløfter dette også enhederne i anden potens, som derfor synes ikke at give nogen mening; for hvad betyder en kvadreret koncentration? Trin 5 løser dette problem.
- Læg alle de kvadrerede forskelle sammen. Tælleren er summen af alle de kvadrerede afvigelser fra gennemsnittet.
- Dividér tælleren med n – 1. Denne mængde, n – 1, er antallet af frihedsgrader, der svarer til antallet af uafhængige værdier i datasættet. Bemærk at det er en mindre end antallet af værdier i datasættet (n). Som størrelsen af et datasæt stiger, bliver værdierne af n – 1 praktisk taget lige og vi kan en hvilken som helst af disse i nævneren. Ved slutningen af dette trin, er det der er under kvadratrodstegnet, den gennemsnitlige kvadrerede afvigelse fra gennemsnittet, kendt som variansen (se næste afsnit herunder).
- Tag kvadratroden. Dette løser problemet fra trin 2 og genskaber de oprindelige enheder. Vores mål for spredningen er nu i samme enheder som de oprindelige data.
Varians
Selvom vi sjældent ser variansen af et datasæt der anvendes til an kvantificere spredning, vises den i F-testen som behandles senere i dette kapitel, samt i andre sammenhænge. Derfor er det klogt på nuværende tidspunkt at vide, at variansen er kvadratet af standardafvigelsen:
Ligesom med standardafvigelsen, viser en høj varians os, at data ligger langt fra gennemsnittet, mens en lav varians viser os, at de er grupperet omkring det.
Variationskoefficient
Standardafvigelsen, kan undertiden være vildledende. For eksempel har en standardafvigelse på 2, en helt anden virkning når middelværdien er 5 end når middelværdien er 100. Med et middelværdi på 100 og en s = 2, fortæller standardafvigelsen at den gennemsnitlige afvigelse kun er 2 %. Med et middelværdi på 5, giver standardafvigelsen imidlertid en meget større værdi på 40% af middelværdien.
Derfor er det nødvendigt at have et mål for spredning, ved sammenligning af to datasæt, som relaterer standardafvigelsen direkte til middelværdien. Variationskoefficienten opfylder dette behov:
I realiteten, ”standardiserer” CV standardafvigelsen, ved at udtrykke den som en procentdel af middelværdien. Som et dimensionsløst forhold, forbliver dens værdi den samme, selv om måleenhederne ændres. Antag for eksempel, at dine måleværdier har en middelværdi på 30 mg/dL og en standardafvigelse på 2 mg/dL. Hvis du skal rapportere disse resultater i enheden g/L, vil konverteringen ændre middelværdien til 0,30 og standardafvigelsen til 0,02. CV forbliver dog fortsat den samme, 7%.
Variationskoefficienten er det mest almindelige mål for præcision, der fortæller os hvor tæt dataene ligger omkring deres middelværdi. Dette står i kontrast til nøjagtighed, der fortæller os hvor tæt middelværdien er på den sande eller accepterede værdi.