Hur skiljer man på vetenskap och trams? Emma Frans’ med rätta prisbelönta bok Larmrapporten är en rolig, kunnig och ack så nödvändig uppgörelse med allehanda pseudo-vetenskapligt trams som sköljer över oss i media nuförtiden. Inte minst i sociala media sprids en massa ‘alternativa fakta’ och nonsens. Även om jag varmt rekommederat studenter, vänner och bekanta att läsa boken, kan jag dock inte låta bli att här påpeka att det finns en liten svaghet i boken. Det gäller behandlingen av evidens-baserad kunskap och då speciellt bilden av det som brukar kallas den vetenskapliga evidensens ‘gold standard’ — randomiserade kontrollerade studier (RCT). Frans skriver: RCT är den typ av studier som överlag anses ha högst bevisvärde. Detta beror på att slumpen
Topics:
Lars Pålsson Syll considers the following as important: Theory of Science & Methodology
This could be interesting, too:
Lars Pålsson Syll writes Randomization and causal claims
Lars Pålsson Syll writes Race and sex as causes
Lars Pålsson Syll writes Randomization — a philosophical device gone astray
Lars Pålsson Syll writes Keynes on the importance of ‘causal spread’
Hur skiljer man på vetenskap och trams?
Emma Frans’ med rätta prisbelönta bok Larmrapporten är en rolig, kunnig och ack så nödvändig uppgörelse med allehanda pseudo-vetenskapligt trams som sköljer över oss i media nuförtiden. Inte minst i sociala media sprids en massa ‘alternativa fakta’ och nonsens.
Även om jag varmt rekommederat studenter, vänner och bekanta att läsa boken, kan jag dock inte låta bli att här påpeka att det finns en liten svaghet i boken. Det gäller behandlingen av evidens-baserad kunskap och då speciellt bilden av det som brukar kallas den vetenskapliga evidensens ‘gold standard’ — randomiserade kontrollerade studier (RCT).
Frans skriver:
RCT är den typ av studier som överlag anses ha högst bevisvärde. Detta beror på att slumpen avgör vem som utsätts för interventionen och vem som får vara kontroll. Om studien är tillräckligt stor kommer slumpen se till att den enda betydelsefulla skillnaden mellan grupperna som jämförs är om de utsatts för interventionen eller inte. Om det senare går att se en skillnad mellan grupperna med avseende på utfallet så kan vi känna oss säkra på att detta beror på interventionen.
Detta är en rätt standardmässig presentation av vilka (påstådda) fördelar RCT har (bland dess förespråkare).
Problemet är bara att det ur strikt vetenskaplig synpunkt är fel!
Låt mig förklara varför med ett belysande exempel.
När vi i Sverige 1992 genomförde en friskolereform fick familjer därigenom över lag större möjlighet att själva välja var man ville sätta sina barn i. Friskolorna har som följd av denna friskolereform – inte minst på senare år – ökat sin andel av skolmarknaden markant.
Mot bland annat denna bakgrund har det bland forskare, utbildningsanordnare, politiker m.fl. blivit intressant att försöka undersöka vilka konsekvenser friskolereformen haft.
Nu är det självklart inte helt lätt att göra en sådan bedömning med tanke på hur mångfacetterade och vittomfattande de mål är som satts upp för skolverksamheten i Sverige.
Ett vanligt mål som man fokuserat på är elevernas prestationer i form av uppnående av olika kunskapsnivåer. När man genomförde friskolereformen var ett av de ofta framförda argumenten att friskolorna skulle höja elevernas kunskapsnivåer, både i friskolorna (”den direkta effekten”) och – via konkurrenstrycket – i de kommunala skolorna (”den indirekta effekten”). De kvantitativa mått man använt för att göra dessa värderingar är genomgående betyg och/eller resultat på nationella prov.
Vid en första anblick kan det kanske förefalla trivialt att göra sådana undersökningar. Det är väl bara att – kan det tyckas – plocka fram data och genomföra nödiga statistiska tester och regressioner. Riktigt så enkelt är det nu inte. I själva verket är det väldigt svårt att få fram entydiga kausala svar på den här typen av frågor.
Ska man entydigt kunna visa att det föreligger effekter och att dessa är ett resultat av just friskolornas införande – och inget annat – måste man identifiera och därefter kontrollera för påverkan från alla ”störande bakgrundsvariabler” av typen föräldrars utbildning, socioekonomisk status, etnicitet, geografisk hemhörighet, religion m.m. – så att vi kan vara säkra på att det inte är skillnader i dessa variabler som är de i fundamental mening verkliga kausalt bakomliggande förklaringarna till eventuella genomsnittliga effektskillnader.
Idealt sett skulle vi, för att verkligen vinnlägga oss om att kunna göra en sådan kausalanalys, vilja genomföra ett experiment där vi plockar ut en grupp elever och låter dem gå i friskolor och efter en viss tid utvärderar effekterna på deras kunskapsnivåer. Sedan skulle vi vrida tillbaka klockan och låta samma grupp av elever istället gå i kommunala skolor och efter en viss tid utvärdera effekterna på deras kunskapsnivåer. Genom att på detta experimentvis kunna isolera och manipulera undersökningsvariablerna så att vi verkligen kan säkerställa den unika effekten av friskolor – och inget annat – skulle vi kunna få ett exakt svar på vår fråga.
Eftersom tidens pil bara går i en riktning inser var och en att detta experiment aldrig går att genomföra i verkligheten.
Det nästbästa alternativet skulle istället vara att — vilket är den metod som Frans och andra förespråkare för RCT propagerar för — slumpmässigt dela in elever i grupper: en med elever som får gå i friskolor (”treatment”) och en med elever som får gå i kommunala skolor (”control”). Genom randomiseringen förutsätts bakgrundsvariablerna i genomsnitt vara identiskt likafördelade i de båda grupperna (så att eleverna i de båda grupperna i genomsnitt inte skiljer sig åt i vare sig observerbara eller icke-observerbara hänseenden) och därigenom möjliggöra en kausalanalys där eventuella genomsnittliga skillnader mellan grupperna kan återföras på (”förklaras av”) om man gått i friskola eller i kommunal skola.
Bland de forskare som förspråkar RCT framhålls ofta att införandet av en ny policy/åtgärdsprogram – betygssystem, skolpeng m.m. – ska vara väglett av bästa möjliga evidens och att RCT tillhandahåller just detta. En ideal RCT bevisar att detta åtgärdsprogram kausalt bidrog till ett visst utfall, i en viss grupp, i en viss population. Om villkoren för en ideal RCT är uppfyllda följer med deduktiv nödvändighet att åtgärdsprogrammet kausalt medverkade till utfallet hos åtminstone några av enheterna i studien. Själva undersökningens design borgar för att undersökningsresultaten är tillförlitliga utan att man behöver explicitgöra kausala bakgrunds- och stödfaktorer. Randomiseringen garanterar att dessa bakgrunds-och stödfaktorer är ”lika-fördelade” för både ”behandlingsgruppen” och ”kontrollgruppen”, vilket gör att man inte behöver känna till vilka dessa kausala bakgrunds- och stödfaktorer är. Man behöver inte ens känna till om de över huvud existerar.
Till grund för RCT ligger att man (givet ett antal förenklande antaganden som vi inte ska problematisera här) kan beskriva den underliggande kausala principen för implementering av policy/åtgärdsprogram av olika slag på följande vis:
Yi <= Ai + A2Y0i + A3BiXi + A4Zi,
där <= betecknar en kausal orsaksverkan från högerledskvantiteterna på vänsterledskvantiteten, Yi är utfallet, Xi är policyvariabeln, Ai är konstanter som anger hur stor den effekt de efterföljande variablerna har på Yi är, Yoi är utfallsvariabelns ”basnivå” för i, Bi är alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, Zi representerar alla andra faktorer som utöver Xi additivt bidrar till att påverka Yi.
Här föreligger som bekant många olika källor till felbedömningar när vi utifrån denna kausalmodell ska implementera en policy. Tron att man kan påverka Xi för att ändra utfallet Yi kan slå fel genom att implementeringen påverkar den föregivet stabila underliggande kausala strukturen (här främst representerade av Bi och Zi). Xi interagerar med andra variabler på ett sätt som kan innebära att policyimplementeringen de facto ger upphov till en ny struktur där de tidigare föreliggande relationerna helt enkelt inte längre (oförändrat) är för handen.
I normalfallet är de ansvariga för policyförändringar i första hand intresserade av vad förändringen i genomsnitt bidrar med i utfallet i den studerade populationen. Förutsättningarna för att kunna göra en sådan bedömning avhänger på ett kritiskt sätt möjligheterna av att på något vis hantera (kontrollera för) interaktionen mellan policyvariabeln och de kausala bakgrunds- och stödfaktorerna.
RCT löser (idealt) detta, som vi sett, genom att via randomisering dela in populationen i en behandlingsgrupp och en kontrollgrupp och därigenom mer eller mindre garantera att fördelningen av Yo, Bi och Zi är desamma i dessa båda grupper. Om det efter en (ideal) implementering av den nya policyn föreligger en skillnad i Yi mellan de två grupperna, måste det föreligga en genuin kausal orsak-verkan-relation hos åtminstone någon eller några av de individer som ingår i populationen. Poängen är här alltså att även om vi inte vet vad som ingår i Bi och Zi, så kan vi ändå uttala oss om policy-variabelns inverkan på utfallet i kausala termer.
Låt oss anta att vi har lyckats genomföra en ideal RCT och alltså kan vara säkra på att den enda kausala verkan som föreligger är begränsad till att vara den mellan policyvariabeln X och dess inverkan på utfallsvariabeln Y. Vad vi då har lyckats etablera är att i en specifik undersökt situation, i en viss population, så är den genomsnittliga behandlingseffekten lika med differensen mellan utfallen för behandlings- respektive kontrollgruppen (detta innebär att en behandling kan innebära att många får det mycket ”sämre” och att några få får det ”bättre”, men att det i genomsnitt blir ”bättre”). ”Behandlingseffekten” W kan då skrivas som
W = A3E[Bi](XT – XK),
där E[] är en förväntningsvärdesoperator (genomsnitt) och XT och XK är värdet på behandlingsvariabeln i behandlings-respektive kontrollgruppen.
För vem är detta relevant? Om vi implementerar X här för oss – kan vi verkligen vara säkra på att vi får samma genomsnittliga effekt? Nej. Eftersom E[Bi] är ett genomsnitt över alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, måste vi nämligen också veta hur dessa faktorer är fördelade i den nya populationen. Det föreligger inga som helst a priori skäl att anta att fördelningen av den typen av bakgrunds- och stödfaktorer skulle se likadan ut här hos oss som där för dem i den ursprungliga RCT-populationen.
Detta innebär att man kan ifrågasätta om RCT är evidentiellt relevanta när vi exporterar resultaten från ”experimentsituationen” till en ny målpopulation. Med andra konstellationer av bakgrunds- och stödfaktorer säger oss den genomsnittliga effekten av en behandlingsvariabel i en RCT troligen inte mycket, och kan därför inte heller i någon större utsträckning vägleda oss i frågan om vi ska genomföra en y policy/åtgärdsprogram eller ej.
RCT borgar helt enkelt inte för att en föreslagen policy är generellt tillämpar. Inte ens om man kan anföra goda skäl för att betrakta policyvariabeln som strukturellt stabil, eftersom stabilitetskravet främst måste gälla BiXi och inte Xi.
Förespråkare för RCT brukar åberopa ett antagande om att målpopulationen måste vara ”lik” den ursprungliga RCT-populationen för att berättiga ”exportlicensen”. Men ett sådant åberopande för oss inte speciellt långt eftersom det sällan specificeras i vilka dimensioner och i vilken utsträckning ”likheten” ska föreligga.
Så även om man lyckats genomföra en ideal RCT, så innebär detta dock inte att man därigenom har några som helst skäl att tro att undersökningsresultaten är externt valida i meningen att de förbehållslöst utgör en broslagning från att det fungerade i population A till att det också kommer att fungera i population B.
När man genomför en RCT ”laddar” man så att säga tärningarna. Men om man ska implementera ett åtgärdsprogram i en annan population än den i vilken RCT genomfördes (kastar andra tärningar) hjälper detta oss föga. Vi måste fråga oss hur och varför fungerar policyn/åtgärdsprogrammet. Att det fungerar i en kontext garanterar inte att det fungerar i en annan kontext, och då kan frågor om hur och varför hjälpa oss en bra bit på vägen att förstå varför ett åtgärdsprogram som fungerar i population A inte fungerar i population B. Inte minst när det gäller sociala och ekonomiska åtgärdsprogram spelar kausala bakgrunds- och stödfaktorer ofta en avgörande roll. Utan kunskap om dessa är det hart när omöjligt att förstå varför och hur ett åtgärdsprogram fungerar – och därför för oss RCT realiter inte så långt som dess förespråkar vill ge sken av.
Att i slutna system eller kliniska experiment anta att man befinner sig i nästintill ideala försöksvillkor låter sig kanske göras, men att i öppna system eller sociala sammanhang tro sig ha nästintill full kontroll över alla kausala alla bakgrunds- och stödvariabler är oftast just inget annat än en tro. När det då visar sig inte fungera, har vi ingen vägledning av RCT.
Det är som när diskmaskinen slutat fungera hemma i köket. I normalfallet fungerar den problemfritt. Och vi vet att miljontals andra har diskmaskiner som också fungerar. Men när de inte fungerar får vi kalla på en reparatör eller själva undersöka maskinen och se om vi kan hitta felet. Vi försöker lokalisera var i maskineriet det har hängt upp sig, vilka mekanismer som fallerar o s v. Kanske glömde vi bara slå på strömmen. Eller kanske motorn havererat på grund av dålig ventilation och underhåll. I vilket fall som helst hjälper det oss föga att veta att maskinen under ideala förhållanden fungerar. Här måste vi börja tänka själva och inte bara förlita oss på att maskinen brukar fungera när den lämnar produktionsbandet (som ju är konstruerat just för att maskinerna ska fungera). Att tillverkaren gör stickprov för att säkerställa statistiskt acceptabla felmarginaler hjälper inte mig när min maskin ”lagt av”.
När åtgärdsprogrammet inte visar sig fungera på det sätt RCT gett oss skäl tro, har förespråkarna inget mer att komma med än att kanske föreslå ännu fler RCT. Då är det nog mer framkomligt att tänka själv och fundera över vad som gått fel och inte förlita sig på att fler ideala randomiseringar på något magiskt sätt ska lösa problemet. För det gör de inte. Hur många gånger du än släpper kritan framme vid tavlan så faller den aldrig i golvet om det står ett bord i vägen. Då är det bättre att tänka själv kring varför och hur. Då kan vi flytta bordet och visa att gravitationskraften de facto får kritan att falla till golvet.
RCT kan aldrig utgöra annat än en möjlig startpunkt för att göra relevanta bedömningar av om policy/åtgärdsprogram som fungerat där för dem är effektiva här för oss. RCT är inget trumfkort. Det utgör — tvärtemot vad Frans och andra RCT-förespråkare hävdar — ingen ”gold standard” för att besvara kausala policy-frågor.
För att kunna ge goda argument för att vad som fungerar där för dem också ska fungera här för oss måste vi ha empiriska evidens och kunskaper om kausala variabler som bidrar till att generera det eftersökta utfallet. I annat fall kan vi inte på ett adekvat sätt bedöma om resultaten i RCT där för dem är relevanta här för oss
Så – denna typ av undersökningar är visserligen möjliga att genomföra, men de är i praktiken svåra att få till stånd och dessutom ofta kostsamma. I praktiken får man ofta nöja sig med att genomföra experiment där elever i en grupp ”matchas” mot elever i en annan grupp – på så sätt att varje individ i den första gruppen motsvaras av en individ i den andra gruppen, som är så ”identiskt lik” som möjligt den förra med avseende på alla kända bakgrundsvariabler, så att eventuella effektskillnader i så hög grad som möjligt kan återföras på variabeln friskola/kommunal skola.
Till detta kommer att även där det är möjligt att genomföra dessa typer av randomiserings- och matchningsexperiment är värdet av dem problematiskt eftersom undersökningspopulation genomgående är relativt små och den artificiella inramningen gör att möjligheterna att ”exportera” resultaten (”extern validitet”) till andra populationer än den undersökta ofta är förhållandevis små. Därtill kommer – när det mer specifikt handlar om utbildning – att utbildning är en mångdimensionell och heterogen verksamhet som är svår att mäta och värdera med enkla operationaliserbara kriterier och mätinstrument, vilket ytterligare försvårar möjligheterna att på säkra grunder hävda att man har på fötterna för att exportera forskningsresultat från en kontext till en annan. De svårfångade kvalitetsaspekterna på denna typ av verksamhet gör också att det hela tiden föreligger incitament för aktörer att ta vägen om kvalitetsförsämringar och allehanda former av manipulationer på vissa områden för att eventuellt satsa tid och resurser för nå mål på andra mer lättmätta områden.
Så — när det gäller värdet och räckvidden av RCT har Frans fel. I övrigt kan jag bara varmt rekommendera var och en att läsa hennes underhållande och viktiga bok.