Bedømmelse af “goodness-of-fit”
At finde den bedst tilpassede lige linje gennem et sæt af datapunkter, betyder ikke nødvendigvis at linjen er anvendelig. Der for forskellige værktøjer videnskabsfolk kan anvende, for at teste egnetheden af linjen som model for de data den repræsenterer, at teste dens ”goodness-of-fit”. En linje kan trods alt trækkes igennem et hvilket som helst sæt af data, uanset hvor rimelige eller urimelige resultaterne er.
Visuel inspektion
Tag for eksempel de tre forsøg på linjetilpasning i figur 1. Pasformen er kun rimelig for datapunkterne i figur A, hvilket giver en linje, der er pålidelig i hele feltet af x-værdier. Datapunkterne i figur 1B og 1C, beskriver derimod klart kurver, for hvilke regressionslinjerne trukket gennem dem, næsten er ubrugelige i forhold til interpolation. Begge disse linjer, ville forudsige en y-værdi ud fra en x-værdi, som i næsten alle tilfælde, ligger for langt fra den faktiske y-værdi. Derfor bør den første test i ”goodness-of-fit” være en visuel inspektion: kig på de plottede data og vurdér om punkterne danner en lige linje. Hvis datapunkterne ikke ser lineære ud ved denne første test, bør du overveje en ikke-lineær model i stedet for.
Figur 1:
Korrekt og forkert linjetilpasning til datapunkter. A: Rimelig tilpasning, fordi datapunkterne ser lineære
ud. B: Forkert tilpasning, fordi datapunkterne ser buede ud. C: Forkert tilpasning, fordi datapunkterne
ser S-formede ud.
Standardafvigelsen på estimat
En anden test for ”goodness-of-fit” er kendt som standardafvigelsen på estimatet (SE), eller den resterende standardafvigelse:
hvor yi er den faktiske værdi af y ved x og er den forudsagte y ved x. Da standardafvigelsen af et datasæt er den gennemsnitlige afvigelse fra middelværdien, repræsenterer SE den gennemsnitlige afvigelse af y-værdierne fra linjen. Når regressionsmodellen passer godt til dataene, ligger datapunkterne tæt på linjen, og SE er lille. Selv om der ikke er noget fast kriterium for at acceptere eller afvise SE, bruger vi den sammen med andre statistikker til at vurdere en given regressionslinje.
Standardafvigelsen for hældningen
Den tredje test for ”goodness-og-fit” er standardafvigelsen for hældningen (Sm):
Ligningen herover siger, som området af variablen x udvides, stiger nævneren og SE får mindre indflydelse på fejl i hældningen. Hvad dette betyder er, at man kan trække en linje mere trygt gennem datapunkter der er fordelt længere fra hinanden, fordi det er lettere at se tendensen.
Konfidensintervaller
Den fjerde test for ”goodness-of-fit” er konfidensintervallet. Et konfidensinterval, er et interval der indeholder den sande værdi af nogle parametre en stor del af tiden. For eksempel, et 95% konfidensinterval for hældningen af en regressionslinje, omslutter den sande hældning 95 gange ud af 100 gange. Et konfidensinterval kan beregnes med en grænseværdi, som for eksempel 90% eller 99%, selv om grænsen på 95% er mest almindelig.
Forstå hvad ”95%” betyder og hvad det ikke betyder. Hvad det betyder er, at på grund af den måde hvorpå konfidensintervallet beregnes, er data hvis uafhængigt indsamlet 100 gange fra den samme population og et 95% konfidensinterval beregnes hver gang, så vil 95 af disse intervaller indeholde den sande hældning. Det betyder ikke, at ethvert af de beregnede 100 konfidensintervaller har en 95% sandsynlighed for at indeholde den sande hældning.
Et konfidensinterval for hældningen, beregnes ud fra denne formel:
hvor CI er konfidensintervallet, m er den beregnede hældning, t er t-scoren og Sm er standardafvigelsen for hældningen. Produktet af t og Sm kaldes fejlmargin. Således er hvad ligningen siger, at konfidensintervallet er hældningen af linjen plus/minus fejlmarginen.
På dette punkt i processen, er både m og Sm allerede blevet beregnet, så det kun er t der skal bestemmes. Igen, hvis hældningen beregnes for hver af de 100 prøveudtagninger og hvis et 95% konfidensinterval beregnes hver gang, vil 95 af disse intervaller bagefter indeholde den sande hældning. t-værdien er, i dette tilfælde antallet af standardafvigelser, hvor en beregnet hældning ligger væk fra gennemsnittet af alle 100 beregnede hældninger.
Den t-værdi der skal vælges, er udledt fra en tabel som blev etableret for mange år siden og er nu tilgængelig i mange trykte og elektroniske udgaver; en lille del af tabellen vises i tabel 1. Udvælgelsen af en t-værdi, afhænger af følgende to faktorer:
- Antallet af frihedsgrader: for hældningen af en linje, er det n – 2 (hvor n er antallet af datapunkter), fordi hældningen og skæringspunktet med y-aksen allerede er beregnet. Som nævnt ovenfor, er antallet af frihedsgrader i standardafvigelsen af et datasæt lig med n – 1.
- Sandsynligheden (p) for, at den sande hældning ligger uden for konfidensintervallet: for et 95% konfidensinterval, er p lig med 0,05, hvilket betyder, at den sande hældning har ikke mere end 5% sandsynlighed for at falde uden for konfidensintervallet.
Tabel 1 – t-værdier for konfidensintervaller
Betragt følgende eksempel. Antag, at der for en regressionslinje er beregnet en hældning på -23,6, standardafvigelsen er 0,93 og antallet af datapunkter er 10. For at finde den rette t-værdi, skal du finde rækken for 8 (n – 2) frihedsgrader og gå på tværs af søjlen for p = 0,05. t-værdien er 2,31. Ved at substituere disse tal i ligningen for CI giver dette:
Således strækker konfidensintervallet for hældningen sig fra -25,8 til -21,5.
Beregningen af 95% konfidensintervallet for skæringspunktet med y-aksen er den samme. Først beregnes standardafvigelsen for skæringspunktet med y-aksen (Sb):
Herefter, erstatter vi værdien af Sb i en ligning der er analog med ligningen for CI:
Beregningen af 95% konfidensintervallet forløber som den gør for hældningen, med en t-værdi der svarer til p = 0,05 ved n – 2 frihedsgrader.
Figur 2A viser, at for enhver regressionslinje er konfidensintervallet (uanset om niveauet er 95% eller et andet), som følge af de kombinerede usikkerheder i hældningen og skæringspunktet med y-aksen, konkav. De øvre og nedre grænser for konfidensintervallet er selv kurver, ikke fordi de omfatter mulige regressionskurver sammen med lige linjer, men fordi de vedlægger alle mulige regressionslinjer fra de kombinerede usikkerheder (figur 2B).
A: Et typisk konfidensinterval (pink stiplet linje) omkring en regressionslinje (sort).
B: Konkavitet af konfidensintervallet. Den beregnede regressionslinje (sort) er vist
med tre andre mulige regressionslinjer inden for konfidensintervallet (pink stiplede linjer)