På DN:s debattsida kunde man för några år sedan, apropå en Pisarapport, läsa följande: Bara för att det finns ett statistiskt samband behöver det inte finnas ett orsakssamband … Ett exempel på hur fel det kan bli gäller skolvalets och konkurrensens effekter. I Pisarapporten läser vi att det inte finns någon relation mellan länders resultat och andelen elever i fristående skolor. Samma slutsats dras av Andreas Schleicher … Svenska pedagoger och debattörer på vänsterkanten har tagit ett steg längre och hävdat att skolvalet ligger bakom kunskapsfallet i internationella undersökningar … Samtidigt motsägs båda dessa påståenden av den nationalekonomiska skolforskningen … Forskningsmetoderna som används är inte helt invändningsfria, men de är långt mycket bättre än de som används
Topics:
Lars Pålsson Syll considers the following as important: Education & School
This could be interesting, too:
Lars Pålsson Syll writes Svensk universitetsutbildning — ett skämt!
Lars Pålsson Syll writes Evidensmonstret i svensk skola
Lars Pålsson Syll writes Lärarutbildningarnas haveri
Lars Pålsson Syll writes Mervärdesmått i skolan
På DN:s debattsida kunde man för några år sedan, apropå en Pisarapport, läsa följande:
Bara för att det finns ett statistiskt samband behöver det inte finnas ett orsakssamband … Ett exempel på hur fel det kan bli gäller skolvalets och konkurrensens effekter. I Pisarapporten läser vi att det inte finns någon relation mellan länders resultat och andelen elever i fristående skolor. Samma slutsats dras av Andreas Schleicher … Svenska pedagoger och debattörer på vänsterkanten har tagit ett steg längre och hävdat att skolvalet ligger bakom kunskapsfallet i internationella undersökningar …
Samtidigt motsägs båda dessa påståenden av den nationalekonomiska skolforskningen … Forskningsmetoderna som används är inte helt invändningsfria, men de är långt mycket bättre än de som används i OECD:s egna analyser.
Låt mig börja med att slå fast att jag helt delar debattörernas uppfattning vad avser våra begränsade möjligheter att dra kausala slutsatser utifrån rena korrelationer.
Så långt är jag med dem.
Men — återigen får vi i grund och botten höra den gamla vanliga självgratulerande visan — nationalekonomisk skolforskning “visar” (garderat med en till intet förpliktigande utsaga om att forskningsmetoderna som används sägs vara inte “helt invändningsfria”) att fler friskolor leder till bättre resultat. Problemet kvarstår, för i grund är det man säger — trots åberopade “rigorösa studier” — lika ifrågasättbart som de “vänstersidans” tolkningar av Pisa-resultaten som man kritiserar!
Låt mig förklara varför jag anser att det den åberopade nationalekonomiska skolforskningen säger om skolkonkurrens och friskolor är dåligt underbyggt, och samtidigt försöka reda ut vad forskning och data verkligen säger om skolkonkurrens och friskolors effekter på skolors och elevers resultat.
När vi i Sverige 1992 genomförde en friskolereform fick familjer därigenom över lag större möjlighet att själva välja var man ville sätta sina barn i skola. I linje med det av Milton Friedman redan på 1950-talet förespråkade införandet av skolpeng (voucher) underlättades etablerandet av friskolor väsentligt.
Friskolorna har som följd av denna friskolereform – inte minst på senare år – ökat sin andel av skolmarknaden markant. Idag utbildas mer än var sjätte av landets grundskoleelever vid en friskola och mer än var fjärde gymnasieelev får sin utbildning vid friskolor.
Friskoleexpansionen har dock rent geografiskt sett väldigt olika ut. Idag saknar lite mer än en tredjedel av kommunerna friskolor på grundskolenivå och två tredjedelar av kommunerna saknar friskolor på gymnasienivå. Och i genomsnitt har elever vid friskolor föräldrar med högre utbildningsnivå och inkomster än eleverna vid kommunala skolor.
Mot bland annat denna bakgrund har det bland forskare, utbildningsanordnare, politiker m.fl. blivit intressant att försöka undersöka vilka konsekvenser friskolereformen haft.
Nu är det självklart inte helt lätt att göra en sådan bedömning med tanke på hur mångfacetterade och vittomfattande de mål är som satts upp för skolverksamheten i Sverige.
Ett vanligt mål som man fokuserat på är elevernas prestationer i form av uppnående av olika kunskapsnivåer. När man genomförde friskolereformen var ett av de ofta framförda argumenten att friskolorna skulle höja elevernas kunskapsnivåer, både i friskolorna (”den direkta effekten”) och – via konkurrenstrycket – i de kommunala skolorna (”den indirekta effekten”). De kvantitativa mått man använt för att göra dessa värderingar är genomgående betyg och/eller resultat på nationella prov.
Vid en första anblick kan det kanske förefalla trivialt att göra sådana undersökningar. Det är väl bara att – kan det tyckas – plocka fram data och genomföra nödiga statistiska tester och regressioner. Riktigt så enkelt är det nu inte. I själva verket är det väldigt svårt att få fram entydiga kausala svar på den här typen av frågor.
Ska man entydigt kunna visa att det föreligger effekter och att dessa är ett resultat av just friskolornas införande – och inget annat – måste man identifiera och därefter kontrollera för påverkan från alla ”störande bakgrundsvariabler” av typen föräldrars utbildning, socioekonomisk status, etnicitet, geografisk hemhörighet, religion m.m. – så att vi kan vara säkra på att det inte är skillnader i dessa variabler som är de i fundamental mening verkliga kausalt bakomliggande förklaringarna till eventuella genomsnittliga effektskillnader.
Idealt sett skulle vi, för att verkligen vinnlägga oss om att kunna göra en sådan kausalanalys, vilja genomföra ett experiment där vi plockar ut en grupp elever och låter dem gå i friskolor och efter en viss tid utvärderar effekterna på deras kunskapsnivåer. Sedan skulle vi vrida tillbaka klockan och låta samma grupp av elever istället gå i kommunala skolor och efter en viss tid utvärdera effekterna på deras kunskapsnivåer. Genom att på detta experimentvis kunna isolera och manipulera undersökningsvariablerna så att vi verkligen kan säkerställa den unika effekten av friskolor skulle vi kunna få ett exakt svar på vår fråga.
Eftersom tidens pil bara går i en riktning inser var och en att detta experiment aldrig går att genomföra i verkligheten.
Det nästbästa alternativet skulle istället vara att slumpmässigt dela in elever i grupper: en med elever som får gå i friskolor (”treatment”) och en med elever som får gå i kommunala skolor (”control”). Genom randomiseringen förutsätts bakgrundsvariablerna i genomsnitt vara identiskt likafördelade i de båda grupperna (så att eleverna i de båda grupperna i genomsnitt inte skiljer sig åt i vare sig observerbara eller icke-observerbara hänseenden) och därigenom möjliggöra en kausalanalys där eventuella genomsnittliga skillnader mellan grupperna kan återföras på (”förklaras av”) om man gått i friskola eller i kommunal skola.
En ny trend inom nationalekonomin sedan ett par decennier är att man i allt större utsträckning kommit att intressera sig för experiment och — inte minst — hur dessa ska designas för att om möjligt ge svar på frågor om orsakssammanhang och policyeffekter. En vanlig utgångspunkt är den av främst Neyman och Rubin utarbetade ‘kontrafaktiska ansatsen’, som här presenteras och diskuteras med utgångspunkt i exempel på randomiserade kontrollstudier, naturliga experiment, ‘difference in difference’, matchning, ‘regression discontinuity’, m m.
En påtaglig begränsning med kontrafaktiska randomiseringsdesigner är att de bara ger oss svar på hur ‘behandlingsgrupper’ i genomsnitt skiljer sig från ‘kontrollgrupper’. Låt mig ta ett exempel för att belysa hur begränsande detta faktum kan vara:
Ibland hävdas det bland skoldebattörer och politiker att friskolor skulle vara bättre än kommunala skolor. De sägs leda till bättre resultat. För att ta reda på om det verkligen förhåller sig så väljs slumpmässigt ett antal högstadieelever ut som får skriva ett prov. Resultatet skulle då kunna bli: Provresultat = 20 + 5*T, där T=1 om eleven går i friskola, och T=0 om eleven går i kommunal skola. Detta skulle innebära att man får bekräftat antagandet — friskoleelever har i genomsnitt 5 poäng högre resultat än elever på kommunala skolor. Nu är ju politiker (förhoppningsvis) inte dummare än att de är medvetna om att detta statistiska resultat inte kan tolkas i kausala termer eftersom elever som går på friskolor typiskt inte har samma bakgrund (socio-ekonomiskt, utbildningsmässigt, kulturellt etc) som de som går på kommunala skolor (relationen skolform-resultat är ‘confounded’ via ‘selection bias’). För att om möjligt få ett bättre mått på skolformens kausala effekter väljer politiker föreslå att man via lottning — ett klassikt exempel på randomiseringsdesign vid ‘naturliga experiment’ — gör det möjligt för 1000 högstadieelever att bli antagna till en friskola. ‘Vinstchansen’ är 10%, så 100 elever får denna möjlighet. Av dessa antar 20 erbjudandet att gå i friskola. Av de 900 lotterideltagare som inte ‘vinner’ väljer 100 att gå i friskola. Lotteriet uppfattas ofta av skolforskare som en ’instrumentalvariabel’ och när man så genomför analysen visar sig resultatet bli: Provresultat = 20 + 2*T. Detta tolkas standardmässigt som att man nu har fått ett kausalt mått på hur mycket bättre provresultat högstadieelever i genomsnitt skulle få om de istället för att gå på kommunala skolor skulle välja att gå på friskolor. Men stämmer det? Nej! Om inte alla skolelever har exakt samma provresultat (vilket väl får anses vara ett väl långsökt ‘homogenitetsantagande’) så gäller den angivna genomsnittliga kausala effekten bara de elever som väljer att gå på friskola om de ’vinner’ i lotteriet, men som annars inte skulle välja att gå på en friskola (på statistikjargong kallar vi dessa ’compliers’). Att denna grupp elever skulle vara speciellt intressant i det här exemplet är svårt att se med tanke på att den genomsnittliga kausala effekten skattad med hjälp av instrumentalvariabeln inte säger någonting alls om effekten för majoriteten (de 100 av 120 som väljer en friskola utan att ha ‘vunnit’ i lotteriet) av de som väljer att gå på en friskola.
Slutsats: forskare måste vara mycket mer försiktiga med att tolka ‘genomsnittsskattningar’ som kausala. Verkligheten uppvisar en hög grad av heterogenitet. Och då säger oss ‘genomsnittsparametrar’ i regel nästintill inget alls!
Att randomisera betyder idealt att vi uppnår ortogonalitet (oberoende) i våra modeller. Men det innebär inte att vi i verkliga experiment när vi randomiserar uppnår detta ideal. Den ‘balans’ som randomiseringen idealt ska resultera i går inte att ta för given när idealet omsättas i verklighet. Här måste man argumentera och kontrollera att ’tilldelningsmekanismen’ verkligen är stokastisk och att ‘balans’ verkligen uppnåtts!
Även om vi accepterar begränsningen i att bara kunna säga något om genomsnittliga kausala effekter (‘average treatment effects’) föreligger ett annat teoretiskt problem. Ett idealt randomiserat experiment förutsätter att man först väljer (‘selection’) ett antal personer från en slumpmässigt vald population och sedan delar in (‘assignment’) dessa peersoner slumpmässigt i en ‘behandlingsgrupp’ respektive ‘kontrollgrupp’. Givet att man lyckas genomföra både ‘selection’ och ‘assignment’ slumpmässigt kan man visa tt förväntningsvärdet av utfallsskillnaderna mellan de båda grupperna är den genomsnittliga kausala effekten i populationen. Kruxet är bara att de experiment som genomförs nästan aldrig bygger på att deltagare i experiment är valda ur en slumpmässig population! I de flesta fall startas experiment för att det i en given population (exemplevis skolelever eller arbetssökande i landet X) föreligger ett problem av något slag som man vill åtgärda. Ett idealt randomiserat experiment förutsätter att både ‘selection’ och ‘ assignment’ är randomiserade — detta innebär att i princip inga av de empiriska resultat som randomiseringsföreträdare idag så ivrigt prisar håller i strikt matematisk-statistisk mening. Att det bara talas om randomisering i ‘assignment’fasen är knappast någon tillfällighet. När det gäller ‘som om’ randomisering i ‘naturliga experiment’ tillkommer dessutom det trista — men ofrånkomliga — faktum att det alltid kan föreligga beroende mellan de undersökta variablerna och icke-observerbara faktorer i feltermen, vilket aldrig går att testa!
Ett annat påtagligt och stort problem är att forskare som använder sig av de här på randomisering grundade forskningsstrategierna genomgående för att nå ‘exakta’ och ‘precisa’ resultat ställer upp problemformuleringar som inte alls är de vi verkligen skulle vilja få svar på. Designen blir huvudsaken och bara man får mer eller mindre snillrika experiment på plats tror man sig kunna dra långtgående slutsatser om både kausalitet och att kunna generalisera experimentutfallen till större populationer. Tyvärr inebär detta oftast att den här typen av forskning får en negativ förskjutning bort från intressanta och viktiga problem till att istället prioritera metodval. Design och forskningsplanering är viktigt, men forskningens trovärdighet handlar ändå i grund och botten om kunna ge svar på relevanta frågor vi som både medborgare och forskare vill få svar på.
Bland de forskare som förspråkar randomiserade studier (”randomized controlled trials”) – RCT – framhålls ofta att införandet av en ny policy/åtgärdsprogram – betygssystem, skolpeng m.m. – ska vara väglett av bästa möjliga evidens och att RCT tillhandahåller just detta. En ideal RCT bevisar att detta åtgärdsprogram kausalt bidrog till ett visst utfall, i en viss grupp, i en viss population. Om villkoren för en ideal RCT är uppfyllda följer med deduktiv nödvändighet att åtgärdsprogrammet kausalt medverkade till utfallet hos åtminstone några av enheterna i studien. Själva undersökningens design borgar för att undersökningsresultaten är tillförlitliga utan att man behöver explicitgöra kausala bakgrunds- och stödfaktorer. Randomiseringen garanterar att dessa bakgrunds-och stödfaktorer är ”lika-fördelade” för både ”behandlingsgruppen” och ”kontrollgruppen”, vilket gör att man inte behöver känna till vilka dessa kausala bakgrunds- och stödfaktorer är. Man behöver inte ens känna till om de över huvud existerar.
Till grund för RCT ligger att man (givet ett antal förenklande antaganden som vi inte ska problematisera här) kan beskriva den underliggande kausala principen för implementering av policy/åtgärdsprogram av olika slag på följande vis:
Yi <= Ai + A2Y0i + A3BiXi + A4Zi,
där <= betecknar en kausal orsaksverkan från högerledskvantiteterna på vänsterledskvantiteten, Yi är utfallet, Xi är policyvariabeln, Ai är konstanter som anger hur stor den effekt de efterföljande variablerna har på Yi är, Yoi är utfallsvariabelns ”basnivå” för i, Bi är alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, Zi representerar alla andra faktorer som utöver Xi additivt bidrar till att påverka Yi.
Här föreligger som berörts många olika källor till felbedömningar när vi utifrån denna kausalmodell ska implementera en policy. Tron att man kan påverka Xi för att ändra utfallet Yi kan slå fel genom att implementeringen påverkar den föregivet stabila underliggande kausala strukturen (här främst representerade av Bi och Zi). Xi interagerar med andra variabler på ett sätt som kan innebära att policyimplementeringen de facto ger upphov till en ny struktur där de tidigare föreliggande relationerna helt enkelt inte längre (oförändrat) är för handen.
I normalfallet är de ansvariga för policyförändringar i första hand intresserade av vad förändringen i genomsnitt bidrar med i utfallet i den studerade populationen. Förutsättningarna för att kunna göra en sådan bedömning avhänger på ett kritiskt sätt möjligheterna av att på något vis hantera (kontrollera för) interaktionen mellan policyvariabeln och de kausala bakgrunds- och stödfaktorerna.
RCT löser (idealt) detta, som vi sett, genom att via randomisering dela in populationen i en behandlingsgrupp och en kontrollgrupp och därigenom mer eller mindre garantera att fördelningen av Yo, Bi och Zi är desamma i dessa båda grupper. Om det efter en (ideal) implementering av den nya policyn föreligger en skillnad i Yi mellan de två grupperna, måste det föreligga en genuin kausal orsak-verkan-relation hos åtminstone någon eller några av de individer som ingår i populationen. Poängen är här alltså att även om vi inte vet vad som ingår i Bi och Zi, så kan vi ändå uttala oss om policy-variabelns inverkan på utfallet i kausala termer.
Låt oss anta att vi har lyckats genomföra en ideal RCT och alltså kan vara säkra på att den enda kausala verkan som föreligger är begränsad till att vara den mellan policyvariabeln X och dess inverkan på utfallsvariabeln Y. Vad vi då har lyckats etablera är att i en specifik undersökt situation, i en viss population, så är den genomsnittliga behandlingseffekten lika med differensen mellan utfallen för behandlings- respektive kontrollgruppen (detta innebär att en behandling kan innebära att många får det mycket ”sämre” och att några få får det ”bättre”, men att det i genomsnitt blir ”bättre”). ”Behandlingseffekten” W kan då skrivas som
W = A3E[Bi](XT – XK),
där E[] är en förväntningsvärdesoperator (genomsnitt) och XT och XK är värdet på behandlingsvariabeln i behandlings-respektive kontrollgruppen.
För vem är detta relevant? Om vi implementerar X här för oss – kan vi verkligen vara säkra på att vi får samma genomsnittliga effekt? Nej. Eftersom E[Bi] är ett genomsnitt över alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, måste vi nämligen också veta hur dessa faktorer är fördelade i den nya populationen. Det föreligger inga som helst a priori skäl att anta att fördelningen av den typen av bakgrunds- och stödfaktorer skulle se likadan ut här hos oss som där för dem i den ursprungliga RCT-populationen.
Detta innebär att man kan ifrågasätta om RCT är evidentiellt relevanta när vi exporterar resultaten från ”experimentsituationen” till en ny målpopulation. Med andra konstellationer av bakgrunds- och stödfaktorer säger oss den genomsnittliga effekten av en behandlingsvariabel i en RCT troligen inte mycket, och kan därför inte heller i någon större utsträckning vägleda oss i frågan om vi ska genomföra en y policy/åtgärdsprogram eller ej.
RCT borgar helt enkelt inte för att en föreslagen policy är generellt tillämpar. Inte ens om man kan anföra goda skäl för att betrakta policyvariabeln som strukturellt stabil, eftersom stabilitetskravet främst måste gälla BiXi och inte Xi.
Förespråkare för RCT brukar åberopa ett antagande om att målpopulationen måste vara ”lik” den ursprungliga RCT-populationen för att berättiga ”exportlicensen”. Men ett sådant åberopande för oss inte speciellt långt eftersom det sällan specificeras i vilka dimensioner och i vilken utsträckning ”likheten” ska föreligga.
Så även om man lyckats genomföra en ideal RCT, så innebär detta dock inte att man därigenom har några som helst skäl att tro att undersökningsresultaten är externt valida i meningen att de förbehållslöst utgör en broslagning från att det fungerade i population A till att det också kommer att fungera i population B.
När man genomför en RCT ”laddar” man så att säga tärningarna. Men om man ska implementera ett åtgärdsprogram i en annan population än den i vilken RCT genomfördes (kastar andra tärningar) hjälper detta oss föga. Vi måste fråga oss hur och varför fungerar policyn/åtgärdsprogrammet. Att det fungerar i en kontext garanterar inte att det fungerar i en annan kontext, och då kan frågor om hur och varför hjälpa oss en bra bit på vägen att förstå varför ett åtgärdsprogram som fungerar i population A inte fungerar i population B. Inte minst när det gäller sociala och ekonomiska åtgärdsprogram spelar kausala bakgrunds- och stödfaktorer ofta en avgörande roll. Utan kunskap om dessa är det hart när omöjligt att förstå varför och hur ett åtgärdsprogram fungerar – och därför för oss RCT realiter inte så långt som dess förespråkar vill ge sken av.
Att i slutna system eller kliniska experiment anta att man befinner sig i nästintill ideala försöksvillkor låter sig kanske göras, men att i öppna system eller sociala sammanhang tro sig ha nästintill full kontroll över alla kausala alla bakgrunds- och stödvariabler är oftast just inget annat än en tro. När det då visar sig inte fungera, har vi ingen vägledning av RCT.
Det är som när diskmaskinen slutat fungera hemma i köket. I normalfallet fungerar den problemfritt. Och vi vet att miljontals andra har diskmaskiner som också fungerar. Men när de inte fungerar får vi kalla på en reparatör eller själva undersöka maskinen och se om vi kan hitta felet. Vi försöker lokalisera var i maskineriet det har hängt upp sig, vilka mekanismer som fallerar o s v. Kanske glömde vi bara slå på strömmen. Eller kanske motorn havererat på grund av dålig ventilation och underhåll. I vilket fall som helst hjälper det oss föga att veta att maskinen under ideala förhållanden fungerar. Här måste vi börja tänka själva och inte bara förlita oss på att maskinen brukar fungera när den lämnar produktionsbandet (som ju är konstruerat just för att maskinerna ska fungera). Att tillverkaren gör stickprov för att säkerställa statistiskt acceptabla felmarginaler hjälper inte mig när min maskin ”lagt av”.
När åtgärdsprogrammet inte visar sig fungera på det sätt RCT gett oss skäl tro, har förespråkarna inget mer att komma med än att kanske föreslå ännu fler RCT. Då är det nog mer framkomligt att tänka själv och fundera över vad som gått fel och inte förlita sig på att fler ideala randomiseringar på något magiskt sätt ska lösa problemet. För det gör de inte. Hur många gånger du än släpper kritan framme vid tavlan så faller den aldrig i golvet om det står ett bord i vägen. Då är det bättre att tänka själv kring varför och hur. Då kan vi flytta bordet och visa att gravitationskraften de facto får kritan att falla till golvet.
RCT kan aldrig utgöra annat än en möjlig startpunkt för att göra relevanta bedömningar av om policy/åtgärdsprogram som fungerat där för dem är effektiva här för oss. RCT är inget trumfkort. Det utgör ingen ”gold standard” för att besvara kausala policy-frågor.
För att kunna ge goda argument för att vad som fungerar där för dem också ska fungera här för oss måste vi ha empiriska evidens och kunskaper om kausala variabler som bidrar till att generera det eftersökta utfallet. I annat fall kan vi inte på ett adekvat sätt bedöma om resultaten i RCT där för dem är relevanta här för oss
Så – denna typ av undersökningar är visserligen möjliga att genomföra, men de är i praktiken svåra att få till stånd och dessutom ofta kostsamma. I praktiken får man ofta nöja sig med att genomföra experiment där elever i en grupp ”matchas” mot elever i en annan grupp – på så sätt att varje individ i den första gruppen motsvaras av en individ i den andra gruppen, som är så ”identiskt lik” som möjligt den förra med avseende på alla kända bakgrundsvariabler, så att eventuella effektskillnader i så hög grad som möjligt kan återföras på variabeln friskola/kommunal skola.
Till detta kommer att även där det är möjligt att genomföra dessa typer av randomiserings- och matchningsexperiment är värdet av dem problematiskt eftersom undersökningspopulation genomgående är relativt små och den artificiella inramningen gör att möjligheterna att ”exportera” resultaten (”extern validitet”) till andra populationer än den undersökta ofta är förhållandevis små. Därtill kommer – när det mer specifikt handlar om utbildning – att utbildning är en mångdimensionell och heterogen verksamhet som är svår att mäta och värdera med enkla operationaliserbara kriterier och mätinstrument, vilket ytterligare försvårar möjligheterna att på säkra grunder hävda att man har på fötterna för att exportera forskningsresultat från en kontext till en annan (som exempelvis Cartwright & Hardie (2012), som understryker denna problematik med några väl valda exempel från just utbildningsområdet). De svårfångade kvalitetsaspekterna på denna typ av verksamhet gör också att det hela tiden föreligger incitament för aktörer att ta vägen om kvalitetsförsämringar och allehanda former av manipulationer på vissa områden för att eventuellt satsa tid och resurser för nå mål på andra mer lättmätta områden.
Det i särklass vanligaste undersökningsförfarandet är – som debattörrna lyfter fram – att man genomför en traditionell multipel regressionsanalys baserad på så kallade minstakvadrat (OLS) eller maximum likelihood (ML) skattningar av observationsdata, där man försöker ”konstanthålla” ett antal specificerade bakgrundsvariabler för att om möjligt kunna tolka regressionskoefficienterna i kausala termer. Vi vet att det föreligger risk för ett ”selektionsproblem” eftersom de elever som går på friskolor ofta skiljer sig från de som går på kommunala skolor vad avser flera viktiga bakgrundsvariabler, kan vi inte bara rakt av jämföra de två skolformerna kunskapsnivåer för att därur dra några säkra kausala slutsatser. Risken är överhängande att de eventuella skillnader vi finner och tror kan förklaras av skolformen, i själva verket helt eller delvis beror på skillnader i de bakomliggande variablerna (t.ex. bostadsområde, etnicitet, föräldrars utbildning, m.m.)
Ska man försöka sig på att sammanfatta de regressionsanalyser som genomförts är resultatet att de kausala effekter på elevers prestationer man tyckt sig kunna identifiera av friskolor genomgående är små (och ofta inte ens statistiskt signifikanta på gängse signifikansnivåer). Till detta kommer också att osäkerhet råder om man verkligen kunnat konstanthålla alla relevanta bakgrundsvariabler och att därför de skattningar som gjorts ofta i praktiken är behäftade med otestade antaganden och en icke-försumbar osäkerhet och ”bias” som gör det svårt att ge en någorlunda entydig värdering av forskningsresultatens vikt och relevans. Enkelt uttryckt skulle man kunna säga att många – kanske de flesta – av de effektstudier av detta slag som genomförts, inte lyckats skapa tillräckligt jämföra grupper, och att – eftersom detta strikt sett är absolut nödvändigt för att de statistiska analyser man de facto genomför ska kunna tolkas på det sätt man gör – värdet av analyserna därför är svårt att fastställa. Det innebär också – och här ska man även väga in möjligheten av att det kan föreligga bättre alternativa modellspecifikationer (speciellt vad gäller ”gruppkonstruktionerna” i de använda urvalen) – att de ”känslighetsanalyser” forskare på området regelmässigt genomför, inte heller ger någon säker vägledning om hur pass ”robusta” de gjorda regressionsskattningarna egentligen är. Vidare är det stor risk för att de latenta, bakomliggande, ej specificerade variabler som representerar karakteristika som ej är uppmätta (intelligens, attityd, motivation m.m.) är korrelerade med de oberoende variabler som ingår i regressionsekvationerna och därigenom leder till ett problem med endogenitet.
I en studie av Anders Böhlmark och Mikael Lindahl (2012)) – Har den växande friskolesektorn varit bra för elevernas utbildningsresultat på kort och lång sikt? – har man med utgångspunkt i främst multipla regressionsanalyser av det ovan angivna slaget, menat sig bl.a. kunna visa att friskolereformen inneburit – först och främst beroende på ”spridnings- och konkurrenseffekter” – att genomsnittsresultateten över tiden för alla elever – alltså inte bara för de som går i friskolor – har ökat mest i de kommuner där andelen elever som går i friskolor har ökat mycket i förhållande till kommuner där andelen elever som går i friskolor har ökat mindre eller kanske inte alls.
Kort sagt – ökningen av andelen friskole-elever i en kommun ger i genomsnitt positiva effekter på elevernas utbildnings-resultat. Av resultaten fram-kommer dock att effekten för den enskilde individen av att gå i en friskola, istället för i en kommunal skola, bara står för en liten del den totala effekten. Lejonparten bedöms vara en positiv externalitetseffekt i form av en ökad konkurrens som gynnar alla elever. Regressionsanalysen möjliggör dock inte ett uteslutande av att det också kan föreligga en segregations- och sorteringseffekt i form av att friskolereformen gjort elevgrupperna på de olika skolorna mer ”homogena” och detta på olika sätt kan ha påverkat elevprestationerna i positiv riktning.
Resultaten har både av forskarna själva och av andra tolkats som belägg för att friskolereformen och den ökade konkurrensen är bra för det svenska skolsystemet i sin helhet. Tidigare svensk “nationalekonomisk skolforskning” har visat på liknande resultat.
Två framstående amerikanska forskare som under flera decennier forskat om friskolor skriver i en utvärdering (L. Barrow & C. E. Rouse (2008), ”School vouchers: Recent findings and unanswered questions.” Economic Perspectives No. 3.) av vad den amerikanska forskningen visar på området att det inte är uppenbart att ”friskoleforskarna” med sina undersökningsmetoder på ett adekvat sätt har kunnat väga in eller neutralisera betydelsen av skillnader som faktiskt föreligger mellan elever i friskolor respektive kommunala skolor. Ja, man går t.o.m. så långt att man menar att de flesta fall av de små effekter som man i forskningen funnit ”inte är statistiskt signifikant skilda från noll och därför i själva verket kan vara ett rent slumpmässigt resultat.”
USA:s kanske främste utvärderare på området konkluderar på liknande sätt i en amerikansk utvärdering av friskolor (P. Wolf et al. (2010). “Evaluation of the DC Opportunity Scholarship Program: Final Report,” U.S. Department of Education) att ”effekterna varit små och osäkra.”
Sammantaget verkar den enda rimliga slutsatsen vara att forskningen inte generellt kunnat belägga att införandet av friskolor och ökad skolkonkurrens lett till några större effektivitetsvinster eller påtagligt ökade kunskapsnivåer hos eleverna i stort. De uppmätta effekterna är små och beror till stor del på hur de använda modellerna specificeras och hur de ingående variablerna mäts och vilka av dem som ”konstanthålls”. Det går således inte heller att säkerställa att de effekter man tyckt sig kunna detektera vad gäller resultatförbättringar i friskolor skulle bero på friskolorna som sådana. Metodologiskt har det visat sig vara svårt att konstruera robusta och bra kvalitetsmått och mätinstrument som möjliggör en adekvat hantering av alla de olika faktorer – observerbara och icke-observerbara – som påverkar konkurrensen mellan skolformerna och ger upphov till eventuella skillnader i elevprestationer mellan skolformerna. Följden blir att de små effekter man (i vissa undersökningar) kunnat konstatera föreligga sällan är behäftade med någon högre grad av evidentiell ”warrant”. Mycket av forskningsresultaten baseras på både otestade och i grunden otestbara modellantaganden (t.ex. vad avser linearitet, homogenitet, additivitet, icke-förekomst av interaktionsrelationer, oberoende, bakgrundskontextuell neutralitet m.m.) Resultaten är genomgående av en tentativ karaktär och de slutsatser forskare, politiker och opinionsbildare kan dra av dem bör därför återspeglas i en ”degree of belief” som står i paritet med denna deras epistemologiska status.
Alltså: beläggen för att den konkurrens som friskolereformen ledde till skulle bidragit till att höja kvaliteten i skolan verkar vara ytterst osäkra och med avseende på effektstorlek nästintill obefintliga, i varje fall om man med kvalitet menar vad eleverna lär sig. Detta förefaller också vara i linje med vad stora delar av den internationella forskningslitteraturen finner. Till detta kan man väl också foga att de undersökningar som gjorts bara kan uttala sig om vad som gäller i genomsnitt. Bakom ett högt genomsnitt kan – som tidigare konstaterat – dölja sig flera svagpresterande enskilda skolor som vägs upp av några få högpresterande.