Metoder

Der er et stigende krav om målstyring, og offentlige institutioner og frivillige organisationer forlanges at levere solid, forskningsbaseret viden for, at deres indsatser har en målbar effekt. Derfor står flere og flere i situationer, hvor de enten er købere af evalueringsydelser eller brugere af viden fra effektevalueringer - og derfor har brug for at kunne vurdere kvaliteten af forskellige evalueringstilgange.

Med evidensstigen i hånden er du bedre rustet til at vælge den metode, som passer til dine behov. Øverst på stigen er de metoder, der benytter valide sammenligningsgrupper. Længere nede på stigen skal man være mere varsom.

Illustration: Dan R. Knudsen

 

 

Systematiske reviews kan skabe overblik på områder, hvor der allerede findes flere effektstudier af god kvalitet.

 

Lodtrækningsforsøg trækker lod om deltagelse i indsats- eller sammenligningsgruppe, og er den mest robuste metode til at måle, om indsatsen gør en forskel.

 

Naturlige eksperimenter og RD-design benytter eksogen variation i, hvem der modtager indsatsen, fx pga. minimumskrav, geografi eller politikændringer.

 

Kontroldesign drager sammenligninger med ”sammenlignelige personer” på observerbare karakteristika.

 

Før-eftermålinger sammenligner udfaldet efter indsatsen med personens egen udvikling inden indsatsen blev implementeret.

 

Brugerinterviews spørger ind til deltagernes oplevelser af indsatsen. Det giver større forståelse for, hvorfor indsatsen virker, men er i sig selv ikke et validt grundlag for at måle effekter.

Illustration: Dan R. Knudsen

 

 

Systematiske reviews kan skabe overblik på områder, hvor der allerede findes flere effektstudier af god kvalitet.

 

Lodtrækningsforsøg trækker lod om deltagelse i indsats- eller sammenligningsgruppe, og er den mest robuste metode til at måle, om indsatsen gør en forskel.

 

Naturlige eksperimenter og RD-design benytter eksogen variation i, hvem der modtager indsatsen, fx pga. minimumskrav, geografi eller politikændringer.

 

Kontroldesign drager sammenligninger med ”sammenlignelige personer” på observerbare karakteristika.

 

Før-eftermålinger sammenligner udfaldet efter indsatsen med personens egen udvikling inden indsatsen blev implementeret.

 

Brugerinterviews spørger ind til deltagernes oplevelser af indsatsen. Det giver større forståelse for, hvorfor indsatsen virker, men er i sig selv ikke et validt grundlag for at måle effekter.

I nedenstående præsenteres en række evalueringsmetoder:

Lodtrækningsforsøg Lodtrækningsforsøg er guldstandarden for effektevalueringer. Der trækkes lod om, hvem der modtager indsatsen, og hvem som indgår i kontrolgruppen.

I lodtrækningsforsøg trækkes der i målgruppen lod om, hvem der kommer i indsats- og kontrolgruppe. Dermed sikres det, at der ingen systematiske forskelle er imellem grupperne inden indsatsen igangsættes. Begge grupper ville derfor i gennemsnit have samme forventede udfald, hvis de modtog indsatsen. I forsøgsperioden modtager indsatsgruppen indsatsen, mens kontrolgruppen eksempelvis kun modtager allerede eksisterende indsatser (også kaldt status quo). Begge grupper observeres over tid, og forskellene mellem dem er et mål for indsatseffekten. 

Dette design giver det bedst mulige grundlag for at skabe generaliserbar viden. 

Kvaliteten af forsøgsdesignet og dets implementering har betydning for, hvilke konklusioner der kan drages fra effektevalueringen. Det er vigtigt, at lodtrækningsforsøget er designet og implementeret med omhu og tager højde for, at nok deltagere indgår i forsøget, at frafald er minimalt, og at der ikke er spillover effekter imellem indsats- og kontrolgrupperne.

Lodtrækningsforsøg på TrygFondens Børneforskningscenter

 

 

Naturlige eksperimenter og RD-design. Disse metoder benytter en eksogen variation i deltagelsen i en indsats, fx pga. minimumskrav, geografi eller politikændringer.

Naturlige eksperimenter er en betegnelse for effektstudier, der sammenligner (som oftest) personer, som enten har fået eller ikke fået en indsats, og hvor det, om de kom i den ene eller den anden gruppe, blev afgjort af faktorer, de ikke selv havde indflydelse på. Allokeringen af indsatsen må derfor ikke hænge sammen med, hvem den enkelte person er, hvor vedkommende bor, hvem vedkommende kender, eller hvor motiveret vedkommende er. Eksempler på sådanne faktorer (også kaldt eksogen variation) kan relateres til natur- eller vejrfænomener, politiske eller administrative beslutninger, eller systemfejl, som medfører, at nogle personer modtager en indsats, mens andre ikke gør, og hvor det er forholdsvis tilfældigt, om den enkelte person endte i den ene eller den anden gruppe. 

Forekomsten af sande naturlige eksperimenter er yderst sjældne. Derfor starter et forskningsprojekt, som bygger på naturlige eksperimenter også altid med at sammenligne personerne i de to grupper for at undersøge, om der er systematiske forskelle imellem dem. 

Regression Discontinuity (RD) design. Lidt oftere forekommer det, at indsatser øremærkes til en bestemt population ved at fastlægge et skæringspunkt (fx for et loft for personlig indkomst, faglige kundskaber eller lignende), som afgør, om en eventuel bruger tildeles en indsats eller ej. Eksempelvis gives et fattigdomsprogram kun til personer med en indkomst under en vis grænse, og specialundervisning gives kun til elever, som vurderes at være fagligt udfordret. Hvad skæringspunktet præcist er, er ofte en politisk beslutning. Der vil derfor være børn, som ligger lige over eller lige under skæringspunktet som i udgangspunktet er forholdsvis sammenlignelige. Den ekstra krone, man tjener for meget til at kvalificere sig til fattigdomsprogrammet, er ikke en systematisk forskel fra de personer, der tjener en krone mindre og får programmet. Kan man derfor i nærområdet af skæringspunktet finde nok personer, som ligger lige over eller lige under skæringspunktet, kan denne diskontinuitet benyttes til at skabe en sammenligningsgruppe. 

Fordelen ved et RD-design er, at evalueringen ikke trækker lod om, hvem der modtager indsatsen, men at man kan benytte en allerede eksisterende tildelingsnøgle. Svagheden ved et RD-design er, at man kun kan måle effekten for den population, som ligger lige omkring skæringspunktet. Evalueringen siger derfor ikke noget om de personer, der er meget fattige og befinder sig langt fra skæringsgrænsen. Ligeledes afhænger designet af, at der er nok individer, som kan observeres lige omkring skæringspunktet.

Opfyldes kravene om eksogen variation i naturlige eksperimenter og RD-designene, er disse evalueringsmetoder lige så valide som et lodtrækningsforsøg.

Projekter hos TrygFondens Børneforskningscenter, der anvender et Regression Discontinuity-design:

Andre kontroldesign baseret på observerbare karakteristika. Disse metoder inkluderer propensity-score matching, søskende- og tvillingedesign og regressionsanalyser.

Propensity-score matching design finder det bedste ”match” til individer, der modtager en indsats blandt andre individer, som ikke modtager indsatsen. Data om personerne kobles sammen ud fra tilgængelige personoplysninger inden indsatsen igangsættes. Denne metode har den fordel, at analysen kan foretages på historiske data, og der trækkes ikke lod om, hvem som skal modtage indsatsen. Samtidig har den den svaghed, at det kun er muligt at matche individer på tilgængelige oplysninger om personerne. Selvom der findes mange personoplysninger i de danske registerdata, mangler der oplysninger om fx persons motivation, som kan spille en afgørende rolle for, hvor godt en indsats virker. Med propensity-score-matching kan man derfor aldrig vide, hvor meget resultaterne skævvrides. 

Søskende- og tvillingestudier antager, at børn af samme biologiske mor (eller mor-far par) vokser op under sammenlignelige forhold og deler nogle arvelige karakteristika, som gør dem sammenlignelige på nogle uobserverbare karakteristika. Disse studier sammenligner derfor eksempelvis udfaldet for den ene bror med udfaldet for hans tvilling eller biologiske bror (og det samme for piger eller på tværs af køn). Validiteten af disse sammenligninger afhænger af, om der findes arvelige karakteristika, som gør søskende ekstra sammenlignelige. Fordelen ved disse analyser er, at man kan benytte historisk data og kan analysere udfald, som ikke afhænger af en indsats, fx teenagegraviditeter.

Regressionsanalyser undersøger, om der er en sammenhæng mellem eksempelvis det at have forældre, som ikke selv har en uddannelse udover folkeskolens afgangsprøve, og barnets resultater i folkeskolens afgangsprøve. Analysen laves på baggrund af registerdata og beregner, hvor meget den forklarende variabel (her: forældre baggrund) forklarer variationen i udfaldet (her: barnets folkeskoleresultat). Det antages ofte, at der er en lineær sammenhæng mellem de forskellige variable og dette benyttes til at ”kontrollere” for effekten af andre faktorer på udfaldet.

Andre kontrolstudier på TrygFondens Børneforskningscenter:

Før-efter målinger. Udviklingen sammenlignes før og efter indsatsen. Dermed udelades en egentlig sammenligningsgruppe.

Hvis alle personer i målgruppen (fx ved ny lovgivning) modtager indsatsen på samme tid, kan det være svært at finde en troværdig sammenligningsgruppe. Derfor kan man vælge at sammenligne udfaldet for alle, som modtog indsatsen med forventningen til, hvordan de ville klare sig uden indsatsen. I før-efter målinger sammenlignes, hvordan personen har udviklet sig siden indsatsen startede, med hvordan de havde det inden indsatsen startede. Dermed tages ikke højde for, om personen ville have fået det bedre (eller dårligere), hvis de ikke havde modtaget indsatsen. Der tages heller ikke højde for, om de involverede påvirkes af andre begivenheder eller indsatser i samme periode. I særlige tilfælde er der adgang til mange observationer om personens udfald inden indsatsen, som gør det muligt at sandsynliggøre en underliggende trend. Dermed kan analysen belyse et ”knæk” i denne trend, hvilket vil være med til at styrke analysens konklusion.

Rene før-eftermålinger ligger i bunden af evidensstigen.

Brugerinterviews med programdeltagere belyser brugerens oplevelse af indsatsen.

Interviews med programdeltagere kan give indblik i, hvordan deltagerne oplever indsatsen, og hvad der medvirker til deres udbytte af programmet. Ud fra et dybdegående billede af nogle enkeltstående men repræsentative oplevelser af indsatsen kan interviewene belyse konteksten, og hvorfor en indsats virker eller ej. I sig selv giver interviews ikke et effektmål, men de kan med fordel gennemføres i kombination med en af evidensstigens mere valide effektevalueringer. Fx viste interviews med lærere i Forsøg med Tolærerordning, at de interviewede lærere oplevede, at ordningen var mest effektiv, når det var en ekstra lærer, klassen fik, mens effektmålingen viste, at andre ressourcepersoner (ofte en pædagog) i gennemsnit havde en større positiv effekt på børnene.