I det kliniske laboratorium, er det ofte nødvendigt at konstruere en standardkurve, for at sammenligne to metoder til kvantificering af samme stof, undersøge indvirkningen af et stof i et assay frem for et andet, eller andre grunde til at fastslå forholdet mellem to variable. I et sådan tilfælde, bruger vi regressionsanalyse for at afdække den matematiske ligning, der relaterer de uafhængige og afhængige variabler. Desuden, når denne ligning beskriver en lige linje, angiver korrelationen, styrken og retningen af forholdet.


Lineær regression

Lineær regression ved de mindste kvadraters metode, er en teknik der passer til en lige linje for et sæt datapunkter, der består af værdier for en afhængig variabel, y og tilsvarende værdier for en uafhængig variabel, x.

Ved at tilpasse en lige linje, etablerer regression det matematiske forhold mellem de to variabler og gør det derved muligt at beregne en værdi af en variabel ud fra værdien af en anden variabel. En vigtig anvendelse af regressionslinjer, er at bestemme den ukendte koncentration af et stof ud fra nogle responsvariabler, som for eksempel absorbans, fluorescens eller radioaktivitet. I et sådan tilfælde, fungerer linjen som en standardkurve.

For eksempel, kan man måle absorbansen af stoffet, ved hver af adskillige koncentrationer, plotte koncentrationen som funktion af absorbansen og herefter tegne en linje mellem datapunkterne (figur 1). Hvis koncentrationen af det samme stof i en ukendt koncentration, viser en absorbans på for eksempel 0,295, viser regressionslinjen at den tilsvarende koncentration er 5,6 mg/L. Denne proces med anvendelse af en standardkurve til forudsigelse værdien af en variabel ud fra en anden, er interpolation.

Figur 1:


Regressionslinje der fungerer som en standardkurve. Datapunkterne (pink) er plottet og derefter
tegnes regressionslinjen ind, så den passer bedst til alle datapunkter. Den stiplede linje viser
interpolationen af en koncentration på 5,6 mg/dL ved A = 0,295.

En anden vigtig anvendelse af regressionslinjer, er i sammenligning af to metoder eller instrumenter for samme analyt. Resultaterne for den ene metode plottes mod resultaterne af den anden metode og sammenhængen mellem resultaterne fra de to metoder evalueres (se figur 2).


Regressionslinje til sammenligning af to metoder til bestemmelse af
samme analyt. Datapunkterne (pink) er plottet, hvorefter
regressionslinjen tegnes, så den passer bedst til alle datapunkter.

I den simpleste form, er målet ved udarbejdelse af den bedst tilpassede linje, at finde den linje der er tættest på datapunkterne. Selvom man kan opnå dette ganske godt ved øjemål, er der etableret matematiske teknikker, der leverer ensartethed, nøjagtighed og præcision i resultaterne. Fordi en ret linjer er defineret som y = mx + b, finder lineær regression hældningen (m) og skæringspunktet med y-aksen (b), i den simpleste form. Målet ved at trække den tilnærmede linjer, er at finde den der er tættest på datapunkterne. Teoretisk er en sådan linje, en linje hvor afstanden mellem de faktiske datapunkter og linjen, er så lille som den kan være. Ligningerne herunder viser, hvordan man beregner hældningen og skæringspunktet med y-aksen:

hvor xi er den i’te værdi af x, yi er den i’te værdi af y,  er gennemsnittet af x-værdierne,  er gennemsnittet af y-værdierne og n er antallet af datapar. Heldigvis kan regneark beregne disse værdier i løbet af et øjeblik. Ved beregningen af skæringspunktet med y-aksen, kan vi desuden bruge en lettere formel, når vi kender værdien af hældningen. Fordi regressionslinjen går gennem midten af dataene, som er punktet (x, y), er formlen for skæringspunktet med y-aksen, simpelt hen en omlejring af formlen y = mx +b, hvor værdierne for x og y har deres respektive gennemsnit:


Forbehold

Der er to risici man skal være opmærksom på ved brug af regressionslinjer. Den første risiko er retningen af interpolation. Ligningerne herover til beregning af henholdsvis hældningen og skæringspunktet med y-aksen, beregner den tilnærmede kurve på en sådan måde, at den afhængige variabel kan interpoleres fra den uafhængige variabel som i figur 1. Det omvendte kan imidlertid være risikabelt. Alligevel, er det at interpolere den uafhængige variabel fra den afhængige variabel almindeligt gjort på standardkurver, når alle datapunkter er så tæt på linjen, at de to retninger af interpolation giver tilnærmelsesvis samme resultat.

Det andet forbehold, ligger i forskellen mellem interpolation og ekstrapolation. Interpolation laver en forudsigelse inden for det område af værdier for den uafhængige variabel, der blev brugt til frembringelse af standardkurven. I figur 1 er dette område 0,040 – 0,4200. Ekstrapolering laver forudsigelser uden for dette område. Derfor er ekstrapolation uacceptabelt, fordi forholdet mellem de to variable ikke nødvendigvis er lineært uden for området af de x-værdier der bruges til at finde den bedst tilpassede linje.


Ikke-lineær regression

Når en lineær model ikke passer til dataene, kan et af to handlingsforløb give en løsning:

  • Lineær transformation af dataene, men nogle gange kan transformationen ikke lykkes og andre gange er transformationen en uoverkommelig vanskelig procedure, eller…
  • Ikke-lineær regression, som er en teknik, der tilpasser en kurve i stedet for en linje til datapunkterne.

Før hurtige computere var let tilgængelige, var tilpasning af ikke-lineære data til en kurve, så svært at standardpraksis var at linearisere data, hvilket gør dem meget lettere at analysere. Blandt de mere almindelige lineære transformationer var Scatchard plotning af bindende data og Lineweaver-Burk plotning af enzymkinetik data. Selvom de stadig anvendes, er sådanne metoder næsten blevet forældede i betragtning af den lethed som moderne computere kan tilpasse lineære regressionsmodeller til forsøgsdata.

Svagheden ved lineære transformationer, ligger i deres tendens til at fordreje usikkerheden i data. Alligevel er lineære transformationer meget nyttige til visning af data, fordi visuel fortolkning af sådanne afbildninger, ofte er let og hurtig og fordi lige linjer kan eksponere træk ved data, som kurver gør uklare.

Som forklaret ovenfor, finder lineær regression de værdier for hældningen og skæringspunktet med y-aksen for den lige linje, der passer bedst med dataene. I modsætning til lineær regression, er ikke-lineær regression imidlertid iterativ; den starter med et skøn over hver variabel i ligningen for kurven og justerer derefter visse værdier, indtil kurven er så tæt som muligt på datapunkterne. Regneark har indlejret ikke-lineære regressionsalgoritmer, som udfører proceduren, tegner kurven og viser ligningen.

Der findes sofistikerede programmer, der tilpasser kurver til data uden indblanding fra brugeren. Sådanne programmer, tilpasser dataene til måske tusindvis af rimelige ligninger og præsenterer derefter til slut, de ligninger der passer bedst. Men computeren kan ikke gå videre herfra, fordi den ikke forstår den videnskabelige baggrund for dataene. Selv om en kurve måske passer bedre til dataene end en anden, kan den anden kurve være et mere passende valg, fordi den gør antagelser, der er i overensstemmelse med den underliggende videnskab.

De fleste regneark, starter med at spørge brugeren om hvilken algoritme man skal begynde med, ved at vælge kurven (og dens grundlæggende ligning), der er mest tilbøjelig til at passe til datapunkterne. Her er fem eksempler på forskellige kurver man kan støde på i laboratoriet:

Mængderne a, b, c og d er konstanter, hvis værdier algoritmen justerer for at tilpasse datapunkterne så tæt til kurven som det kan lade sig gøre. Her er et eksempel på den ovennævnte omvendte sigmoidale kurve (omvendte S-formere kurve), for hvilken et regneark har fundet værdier for konstanterne a, b og c:


Datavægtning

I ovenstående forklaringer af regression, blev det antaget at hvert punkt på linjen (eller kurven), har samme vægt, eller pålidelighed som alle andre punkter. Denne antagelse er acceptabel, hvis usikkerheden på et hvilken som helst punkt, er den samme som den er for et hvilket som helst andet punkt (det vil sige hvis usikkerheden er ensartet eller uniform).

Men ofte er usikkerheden ikke ensartet på tværs af datapunkter. Derfor påvirker punkterne med større usikkerhed i deres værdier regressionsberegningerne mere, end de punkter der har en mindre usikkerhed. Den resulterende regressionslinje, kan derfor være forkert.

En effektiv måde at omgå dette problem på, er at vægte dataene ligeligt. For at gøre dette, bliver en vægtningsfaktor indarbejdet i de mindste kvadraters beregninger – en faktor som har den virkning, at udligne usikkerheden på tværs af alle datapunkter. Selvom de computere der styrer laboratorieinstrumenter, normalt vægter data automatisk når det er nødvendigt, er der nogle teknikker og instrumenter der kræver, at brugeren vælger vægtningsfaktoren for data.

Back to Top