Signifikanstest

Laboratoriearbejde indebærer til tider, at man skal afgøre om et observeret resultat fra en undersøgelse eller et eksperiment, skyldes en tilfældighed alene; det vil sige, nogle gange kan man afgøre, om en tilsyneladende forskel mellem to analysemetoder eller mellem en kontrolgruppe og en testgruppe, er en sand forskel. Signifikanstest er en systematisk tilgang, der når den anvendes korrekt, kan blive en del af bevismaterialet som hjælper os med at tage disse beslutninger. Men pas dog på, for selv om signifikanstests har været, er og bliver ved med at blive udført af de fleste forskere og laboratoriefagfolk, bliver den nogle gange anvendt forkert.

Lad os se på det grundlæggende i signifikanstests, især hvor det bliver brugt i den virkelige verden, før vi tackler disse farer nævnt ovenfor. Vi begynder med at kigge på de følgende eksempler på spørgsmål, som signifikanstests kan hjælpe med at løse.

  • Dit laboratorie, skal sammenligne en ny celletæller mod den der er i brug i dag. For 20 tilfældigt udvalgte patienter, giver det nye tælleapparat et rødt blodcelle tal på 4,28 • 106 celler pr/L, men det nuværende tælleapparat for de samme 20 patienter giver 4,13 • 106 celler pr/L. Er forskellen mellem de to tælleapparaters gennemsnit en tilfældighed, eller returnerer det nye tælleapparat virkelig en værdi der er højere?
  • Frivillige tager medicinen X og efter tre måneder havde de en gennemsnitligt serumkolesterolkoncentration på 180 mg/dL, mens andre frivillige der fik placebo, havde en gennemsnitlig koncentration på 184 mg/dL. Er forskellen mellem de to gruppers kolesterolkoncentrationer en tilfældighed eller skyldes det medicinen.
  • Dit laboratorie, sammenligner en manuel metode til kvantificering af østriol i serum med en automatiseret metode. For 10 gentagne målinger på en standard østriolopløsning, gav den manuelle metode en gennemsnitlig koncentration på 9,9 ±1,1 ng/mL, mens den automatiserede metode gav et gennemsnit på 11,4 ±1,4 ng/mL. Er forskellen mellem de to standardafvigelser en statistisk anomali, eller er den manuelle metode virkelig mere præcis?

Der er tre trin til hver signifikanstest, der behandles under dette afsnit:

  • Definér nulhypotesen (H0), der fastslår at der ikke er forskel mellem resultaterne der sammenlignes.
  • Opsummér data, udfør eventuelle indledende beregninger og beregn derefter teststørrelsen.
  • Antages nulhypotesen at være sand, bruges teststørrelsen fra trin 2 til at bestemme sandsynligheden (ρ) for at de observerede resultater, rent faktisk blev opnået.

F-testen

Der er tidspunkter, hvor laboratorier får behov for at sammenligne præcisionen af to forskellige instrumenter, teknikker eller metoder. Et meget udbredt værktøj til at udføre en sådan sammenligningstest, er F-testen opkaldt efter Sir Ronald Fisher, der opfandt metoden i 1920’erne.

Strategien er ligetil. Hvis metode A er mere præcis end metode B, så er variansen af A (kvadratet af standardafvigelsen) lavere end variansen af B.

Trin 1: Vi udtrykker ved nulhypotesen (H0), at der ikke er nogen forskel mellem de to varianser:

Trin 2: Vi beregner vores teststatistik, F-værdien. For at gøre dette sager vi forholdet mellem den største s2 og den mindste s2:

Hvis de to metoder har den samme præcision, så er deres varianser ens og værdien af F er 1. Bemærk, at når de to varianser er forskellige, bliver værdien af F større end 1, fordi vi tager forholdet mellem den største s2 og den mindste s2. Derfor, hvis en af metoderne er mere præcis end den anden, afviger deres varianser og værdien af F bliver mere end en. Men hvor meget større end 1, skal forholdet være før det får os til at konkludere, at varianserne virkelig er forskellige og dermed, at en af metoderne er mere præcis end den anden?

Trin 3: For at besvare dette spørgsmål, udvælger vi en p-værdi og sammenligner den med den beregnede værdi af F med en forudbestemt F-værdi, der kaldes den kritiske værdi. Denne p-værdi, repræsenterer sandsynligheden for at vi har observeret denne forskel mellem varianserne hvis de to metoder er lige præcise. Hvis større end den kritiske værdi, er vore beregnede F-værdi høj nok til, at vi kan afvise nulhypotesen og konkludere, at den ene metode sandsynligvis er mere præcis end den anden – ved det niveau af sikkerhed som vi valgte i p-værdien. Hvis mindre eller lig med den kritiske værdi, er vores beregnede F-værdi ikke høj nok til at, at vi kan forkaste nulhypotesen (H0); derfor behandler vi de to varianser som statisk lige. Tag for eksempel følgende hypotetiske data.

Den beregnede værdi af F er:

I nedenstående tabel, finder vi den kritiske værdi af F, som gælder for vores data. Tælleren har 7 frihedsgrader (n – 1) og nævneren har 5. Den tilsvarende boks i tabellen indeholder to tal: 4,8759 og 10,455, det sidstnævnte i kursiv. De er de kritiske værdier på to niveauer af sikkerhed og disse niveauer af sikkerhed, afspejles i p-værdien.

Hvis nulhypotesen er sand og de to varianser er ens, så er p sandsynligheden for at en beregnet F-værdi større end den kritiske værdi ville fremkomme. En F-værdi større end den kritiske værdi, kan stadig forekomme, selv om de to metoder er lige præcise, selv om det er usandsynligt. I tilfældet med vores data kan vi sige, at hvis vores to varianser er statistisk ens, så er der kun en 5% sandsynlighed for at observere en F-værdi på mindst 4,8759. Hvad dette betyder er, at hvis vores to metoder har samme præcision og hvis vi udfører sammenligningseksperimentet 100 gange og hver gang beregner F-værdien, da vil kun 5 af de F-værdier vi beregner være mindst 4,8759.

Hvis vore beregnede F-værdi, er højere end 4,8759, så er sandsynligheden lille for, at det skete uden der er en forskel i præcisionen. Hvis denne sandsynlighed er lille nok, kan vi afvise nulhypotesen og konkludere at forholdet afspejler en ægte forskel mellem de to varianser. Vi siger, at forskellen er statistisk signifikant. Men vi skal altid angive det niveau af sikkerhed, der bestemte den kritiske værdi; i dette tilfælde er det p = 0,05.

Tallet i kursiv, 10,455 er den kritiske værdi, når p er 1%. Det er logisk, at det at opnå denne større sikkerhed indebærer, at den beregnede F-værdi, skal være endnu højere end for p = 5%. For at vi kan være endnu mere sikker på konklusionen, skal forskellen mellem de to varianser være større.

For en p på 0,05, er vores beregnede F værdi mindre end den kritiske værdi på 4,8759, hvilket forhindrer os i at forkaste nulhypotesen. Derfor siger vi, at den observerede forskel mellem metoderne, ikke er statistisk væsentlig og at vi ikke kan konkludere ud fra denne information alene, at metoderne A og B har forskellig præcision.


Students t-test

William S. Gosset, der udgav under pseudonymet ”the Student”, udviklede dette værktøj i begyndelsen af 1900-tallet, for at hjælpe med at løse problemer i sit arbejde som statistiker for et bryggeri. Vi bruger the Students t-test for at sammenligne gennemsnittet af to grupper, når en variabel er kategorisk (ikke-numerisk) og den anden er numerisk. Et eksempel på dette, er behandlingstider for den samme test, i to forskellige laboratorier; i dette tilfælde er den kategoriske variabel laboratoriet og den numeriske variabel er ekspeditionstiden.

Trin 1: Opstil nulhypotesen, der er at der ikke eksisterer nogen reel forskel mellem de to gennemsnit (det vil sige ingen forskel mellem ekspeditionstiderne).

Trin 2: Beregn t-værdien, der sammenligner forskelle der rent faktisk blev observeret mellem gennemsnittene, med den forskal man kunne forvente for tilfældigt udvalgte prøver. Ligningen er allerede programmeret ind i regnemaskiner og regneark:

LIGNING 1A:

hvor i refererer til den i’ende værdi af datasæt #1 og j til den j’ende værdi i datasæt #2.

Denne ligning, forudsætter at variansen for de to grupper er ens. For at afgøre om et givent datasæt opfylder dette kriterium, bruges F testen. Sammenlign den beregnede F-værdi med den kritiske værdi. Hvis F-værdien er mindre end den kritiske værdi, betragt varianserne som ens. Hvis F-værdien er større end den kritiske værdi, betragt de to varianser som forskellige og brug t-testen for forskellige varianser (også kendt som Welch testen):

LIGNING 1B:

hvor

og

Som forskellen på de to gennemsnit øges, øges sandsynligheden for, at de er signifikant forskellige (figur 1A). Derudover øger en mindre varians sandsynligheden for, at forskellen er signifikant (figur 1B), mens en større variabilitet næsten kan overvælde en forskel mellem gennemsnittene og fjerne vores tillid til, at den tilsyneladende forskel er reel (se figur 1C). Så når forskellen mellem to gennemsnit er reel, er den observerede forskel mellem gennemsnittene større end den forventede forskel. Dette gør tælleren større end nævneren og skubber forholdet, der er t-værdien, op.

Figur 1:


Grafisk fremstilling af t-værdien i ligning 6.8.2A. (A) Tælleren er
forskellig mellem de to gennemsnit. Nævneren indeholder variabiliteten
i de to grupper. (B) Mindre variabilitet øger sandsynligheden for, at
den observerede forskel mellem gennemsnittene er reel. (C) Større
variabilitet mindsker sandsynligheden for, at den observerede forskel
mellem gennemsnittene er reel.

Trin 3: Vælg et p niveau og sammenlign den beregnede t-værdi med den kritiske værdi. Hvis den beregnede t-værdi er mere ekstrem end den kritiske værdi, så er forskellen mellem gennemsnittene statistisk signifikant. Hvis ikke, så er forskellen ikke statistisk væsentlig.

Hvis the Students t-test (ligning 1B) blev anvendt, så er antallet af frihedsgrader det samlede antal dataposter minus to:

Men hvis t-testen til forskellige varianser blev anvendt, så er antallet af frihedsgrader ret kompliceret at beregne. Dette er en anden grund til, at lade en computer udføre t-tests:

Afrund resultatet ned til nærmeste hele tal, før anvendelse af en t tabel.

Lad os kigge på ovennævnte eksempel: en sammenligning af ekspeditionstider for den samme test udført af to forskellige laboratorier.

For vores data i tabellen ovenfor, er t statistikken 2,781 ved brug af ligningen i 6.8.1A (indbygget i et regneark) og der er 11 frihedsgrader (7 + 6 – 2). De tilsvarende kritiske værdier er 3,106 ved p = 0,01 og 2,201 ved p = 0,05. Derfor er forskelle mellem gennemsnittene i vores data statistisk signifikante ved p = 0,05, men ikke statistisk væsentlig ved p = 0,01.

Kritiske værdiger for t-værdien (tosidet)

Vi tolker signifikansen ved p = 0,05 på denne måde: den forskel vi har observeret mellem de to gennemsnitlige ekspeditionstider, vil have fundet sted fem uf af hundrede gange vi kører eksperimentet, selv om de to laboratorier, i gennemsnit, leverede resultaterne på samme mængde tid. Signifikansen omfattede dog ikke p = 0,01; derfor kan vi ikke konkludere, at forskellen kun ville være opstået en ud af hundrede gange.

Teknisk set, er den t test der er repræsenteret her tosidet, fordi den tester for en forskel, uden at antage hvilket gennemsnit der er størst. Selv om oversigten over de kritiske værdier for de tosidede t-værdier kun lister positive tal, repræsenterer hver værdi både den positive og negative afskygning for statistisk signifikans. Derfor afvises nulhypotesen når t-værdien er mere ekstrem end hver afskygning, altså når t er større end den positive kritiske værdi eller mindre (mere negativ) end den negative kritiske værdi.


Den parrede t-test

En af de vigtigste opgaver for det kliniske laboratorie, er sammenligningen af to instrumenter eller metoder til en given analyt. I en sådan sammenligning, bliver hver af prøverne testet, først på det ene instrument og herefter på det andet. Denne prøveparring, skaber en en-til-en korrespondance mellem de to instrumenter for hver enkelt prøve.

Trin 1: Opstil nulhypotesen, der er at der ikke eksisterer nogen forskel mellem de to gennemsnit (det vil sige ingen forskel mellem de to instrumenter):

Trin 2: Udfør de nødvendige indledende beregninger og beregn herefter t statistikken:

LIGNING 1C:

hvor  er gennemsnitte af forskellene, s2 er variansen af forskellene og n er antallet af forskelle.

Trin 3: Sammenlign den beregnede t-værdi med den kritiske værdi.

For eksempel, hvis vi antager at vi sammenligner to instrumenter til kvantificering af stoffet M i blod og vi ønsker at vide, om resultaterne fra de to instrumenter afviger statistisk:

Antallet af frihedsgrader for denne test er n – 1. Ligning 1C giver en værdi på -4,904 eller 4,904, afhængig af om B trækkes fra A eller A trækkes fra B. Ved 9 frihedsgrader og en p-værdi på 0,01, er værdien af -4,904 mere negativ end den kritiske værdi på -3,250. Derfor kan vi forkaste nulhypotesen der siger at der ikke er nogen forskel mellem instrument A og B og kan konkludere, at de observerede forskel mellem de to gennemsnit er statistisk signifikant. Med andre ord, adskiller de resultater der kommer fra instrument A sig sandsynligvis virkeligt fra dem, der kommer fra instrument B.


Chi i anden testen

Chi i anden (χ2) testen, bruges på kvalitative eller kategoriske data, der som anført ovenfor i the Students t test, er af ikke-numerisk karakter. Lad os for eksempel antage, at der er bekymring for, at et nyt lægemiddel, Q, kan interferere med metoden vores laboratorie anvender, til at detektere tilstedeværelsen af antistoffer mod hepatitis C i serum. For at besvare dette spørgsmål, indsamler vi de relevante data om 97 patienter og sammenfatter dem i en begivenhedstabel (tabel 1), der generelt er en skematisk oversigt over kategoriske data.

Tabel 1 – Lægemidlet Q‘s effekt på kvalitativ test til antistoffer mod hepatitis C

Trin 1: Opstil nulhypotesen:

H0: De observerede værdier er ikke forskellige fra de forventede værdier.

Trin 2: Beregn den forventede hyppighed i hver celle, ud fra den antagelse, at nulhypotesen er sand og beregn herefter  statistikken. Hvis der ikke er nogen sammenhæng mellem lægemidlet og hepatitis C testresultaterne, så er det uden betydning om en given prøve er fra en patient der tager lægemidlet, eller fra en patient der ikke tager lægemidlet: alle ”20”positive prøver ville have testet positiv, hvad enten de kom fra en patient der tog lægemidlet eller ikke tog det. Der kunne lige så godt have været 10 fra gruppen der tog det og 10 fra gruppen der ikke tog det. Så hvis nulhypotesen er sand, er den forventede hyppighed af ”positive” resultater 0,206.

Det betyder, at hvis lægemidlet ikke har nogen effekt på vores hepatitis C test, så skal omkring 21% (rundet op fra 20,6%) af alle testresultaterne være ”positive”, uanset om patienterne tager medicinen eller ej.

Derfor, hvis nulhypotesen er sand, forventer vi at antallet af patienter der testes ”positive” og samtidigt indtager lægemidlet Q ligger på omkring 10 patienter:

Ligeledes, er det forventede antal patienter, der testes ”positive” men som ikke tager lægemidlet også omkring 10 (0,206 x 50 = 10,3). De andre forventede tal i tabellen, er beregnet på en lignende måde.

Herefter beregnes χ2 statistikken:

LIGNING 1D:

Hvad denne ligning fortæller os er, at når lægemidlet ikke påvirker hepatitis C testen, det vil sige når der ikke er nogen sammenhæng mellem de forklarende og respons-variablerne, (a) er hvert observeret resultat det samme som det forventede resultat, (b) at hver forskel i tælleren er nul, (c) at χ2 er nul og (d) vi kan ikke forkaste H0. Men hvis lægemidlet påvirker hepatitis C testen, så øges forskellen mellem de observerede og de forventede resultater og værdien af χ2 stiger, indtil den overstiger den kritiske værdi, på hvilket punkt vi kan forkaste H0.

Ved brug af ligning 1D, er værdien af χ2 for vores hypotetiske data i tabel 1:

Trin 3: For enhver begivenhedstabel, er antallet af frihedsgrader:

Der findes mange forklaringer på denne ligning i trykte og elektroniske ressourcer. For tabel 1 er antallet af frihedsgrader lig med:

For at bestemme om vores observerede resultater afviger væsentligt fra de forventede resultater, sammenligner vi vores værdi på  med den kritiske værdi i følgende tabel. For en p-værdi på 0,05, hvilket er den sædvanlige tærskel for signifikans og med 2 frihedsgrader, er den kritiske værdi af  lig med 5,991. Fordi vores værdi på 2,674 er mindre end den kritiske værdi, kan vi ikke afvise nulhypotesen, der siger at der ikke er nogen sammenhæng mellem lægemidlet og vores resultater. I stedet lader vi nulhypotesen stå.

Kritiske værdier for χ2 statistikken

Når χ2 statistikken overstiger den kritiske værdi, ved vi kun, at der et sted i tabellen er en værdi der er betydelig højere end forventet. Visuel inspektion der derfor nødvendig, for at kunne identificere den.

χ2 testen, har flere implicitte, unikke krav; hvis nogen af dem ikke er opfyldt, er testen ugyldig.

  • Hvert emne, må kun bidrage date til én celle i begivenhedstabellen. Lad og betragte et eksperiment, sammenfattet i tabellen herunder, i hvilken hver af de 100 patienter testes for antistoffer mod hepatitis C efter 10 og 15 uger efter formodet eksponering.

Denne χ2 test er ugyldig, fordi hver patient er til stede i mere end én celle. Det samlede antal tællinger i tabellen er 200, selv om der kun er 100 patienter.  testen kan ikke bruges til korrelerede data (for eksempel før/efter behandling parrede tests).

  • Hver værdi i begivenhedstabellen, skal være et råt tal (ikke en procentdel).
  • Prøvestørrelsen skal være fyldestgørende. Der er intet alment accepteret minimum, men mange forskere insisterer på mindst 20.
  • Cellestørrelsen skal være fyldestgørende. Et fælles minimum er 5 prøver i hver eneste celle i en 2 x 2 cellet tabel. I større tabeller, bør 80% af cellerne mindst indeholde mindst 5 prøver.
  • Det samlede antal observerede tællinger, skal svare til det samlede antal forventede tællinger.

Forbehold

  • Signifikanstærskler er vilkårlige. Tvedelingen af resultaterne, i dem der er betydelige eller ikke er væsentlige er kunstig. Derfor bør værdien af p fortolkes i lyset af alle de andre beviser og bør aldrig betragtes som den endelige dom. Selv når p er 0,05 og de faktiske resultater kun har 5% sandsynlighed for at blive observeret når nulhypotesen er sand, vil de stadig fremkomme 1 ud af 20 gange (5 ud af 100 gange). Så hvis H0 er sand og vi vælger at afvise den når p = 0,02, så ville det være forkert omkring hver 20ende gang vi kørte eksperimentet. Det er klar, at en lavere p-værdi, som for eksempel 0,005 eller 0,001 er meget mere overbevisende. Afvisning af nulhypotesen er et sats: når p = 0,05, satser man på at man ikke falder over dette mere end 1 gang for hver 20ende gang, der repræsenterer en ren tilfældighed.
  • p-værdien er tvetydig. Som værdien af n går op (som prøvestørrelsen stiger), går værdien af p Omvendt, når n går ned, går p op. Det betyder, at næsten enhver forskel mellem to grupper, bliver statistisk signifikante, hvis prøvestørrelsen stiger nok. Derfor kan et signifikant resultat skyldes en reel effekt, eller det kan skyldes en stigning i styrken af testen, simpelthen fordi n er meget stor.
  • Statistisk signifikans er ikke klinisk signifikans. Det faktum, at forskellen mellem to resultater er statistisk signifikant, gør ikke forskellen klinisk relevant. For eksempel, kig på to laboratorieinstrumenter, som anvendes til kvantificering af et protein i plasma. Sammenligningsundersøgelser viser, at instrument #1 giver en koncentration på 881 ng/dL, mens instrument #2 giver 894 ng/dL, med p = 0,005. Forskellen kan betragtes som statistisk signifikant, men det er kun 13 ng/dL, eller 1,5% af gennemsnittet (887,5 ng/dL), Spørgsmålet om hvorvidt en sådan lille forskel, ville have nogen klinisk signifikans, skal tages med i betragtningen, hvis laboratoriet skulle vælge det ene instrument frem for det andet, i sær hvis omkostningerne, pladsbehovet, eller en andre faktorer er med i overvejelsen.
  • Accept af nulhypotesen, betyder ikke at den er sand. Husk, H0 fastslår at der ikke er nogen forskel mellem resultaterne. Strengt taget kan vi aldrig acceptere nulhypotesen eller bevise at den er sand; vi kan kun undlade at afvise den. Selv om sondringen kan synes smålig, minder det os om behovet for at holde signifikanstests i perspektiv. Selv om forskellen mellem to resultater viser sig at være statistisk ikke-signifikante, er det risikabelt at konkludere, at der ikke er nogen forskel mellem dem.

Back to Top