Korrelation måler styrken af sammenhængen mellem målte variabler, ved at evaluere deres adfærd. Med andre ord, det viser styrken af deres tendens til at ændres med hinanden. Korrelationskoefficienten, der er afbildet som r (i ligningen herunder), ligger i området fra -1 til 1, hvor en negativ værdi betyder at en variabel mindskes som den anden øges og en positiv værdi betyder at begge variabler bevæger sig i samme retning. Når r = 1, er korrelationen positiv og perfekt, med alle datapunkterne der ligger på en linje der har en positiv hældning, hvisket betyder at x og y stiger sammen (figur 1A). Når r = -1, er korrelationen negativ og perfekt, med alle datapunkterne der ligger på en linje, der har en negativ hældning, hvilket betyder at y falder når x øges (se figur 1B). Når r = 0, er der ingen lineær sammenhæng mellem variablerne (se figur 1C).

Ovenstående ligning, tillader beregningen af r direkte fra de originale data. Fordi beregningen er besværlig, bruger vi regnemaskiner og computere som kan udføre beregningen med lynets hast.

Figur 1:


A: Perfekt positiv korrelation. B: Perfekt negativ korrelation. C: Ingen lineær korrelation.

Hvordan ser værdier forskellig fra -1, 0 og 1 ud på en graf og hvad betyder de? Figur 2 viser nogle eksempler. Som r bevæger sig tættere på 0, enten fra -1 eller +1, passer dataene mindre og mindre godt til en lineær model; som resultat, bliver forudsigelserne af værdien af en variabel ud fra en anden variabel, mindre og mindre pålidelige.

Figur 2:


Stigning i spredningen af datapunkterne, som r nærmer sig 0 fra enten -1 eller +1.


Forbehold

Korrelationskoefficienten bruges undertiden forkert, især nå den anvendes på standardkurver. Strengt taget, er brugen af r hensigtsmæssig, når data repræsenterer tilfældige prøver udtaget af en større population. Med andre ord, den er egnet når hver variabel er blevet målt, som for eksempel i en sammenligning af resultaterne opnået fra to forskellige metoder på tilfældigt udvalgte patientprøver. Korrelationskoefficienten er generelt ikke egnet, når en variabel måles og den anden variabel er valgt på forhånd, som det er tilfældet i en standardkurve.

Ikke desto mindre, er korrelationskoefficienten ofte rapporteret for standardkurver, måske af flere grunde: (1) det forventes, (2) computere kan beregne den hurtigt, (3) den er let at kommunikerer ved et enkelt tal og (4) den hjælper med at give en grov vurdering af lineariteten sammen med andre statistikker. Men for at bedømme ”goodness-og-fit” af en regressionslinje for en standardkurve, er de foranstaltninger der blev beskrevet i de forrige afsnit, bedre (det vil sige SE og konfidensintervaller). Tabel 1 opsummerer forskellene mellem regression og korrelation.

Tabel 1 – Kort sammenligning af regression og korrelation

Der er et sidste forbehold. Se altid på de plottede data, før værdien af r fortolkes, fordi koefficienten kun er nyttig i det omfang, at den afslører hvor tæt de to variabler er koblet sammen. Stærk korrelation, hvad enten den er positiv eller negativ, garanterer ikke linearitet; selv kurvede data kan give en r-værdi tæt på +1 eller -1 (se figur 3A). Endvidere er en værdi af r tæt på nul, ikke til hinder for en sammenhæng mellem variablerne; bestemte lineære relationer, kan vise svag sammenhæng eller slet ingen (se figur 3B).

Figur 3:


Eksempler på vildledende r-værdier. A: stærk negativ korrelation, men en ikke-lineær sammenhæng (omvendt sigmoidal,
eller omvendt ”S” form). B: Ingen lineær sammenhæng, men et bestemt forhold (parabel, y = x2)

Back to Top