Tuesday , April 30 2024
Home / Lars P. Syll / Trösklar och statistisk signifikans

Trösklar och statistisk signifikans

Summary:
Trösklar och statistisk signifikans I en artikel på Ekonomistas argumenterar nationalekonomen Robert Östling för att lösningen på den uppmärksammade ‘replikationskrisen’ är att ändra på tröskeln för vad som ska betraktas som ‘statistiskt signifikant’ från 5% till 0,5%. Även om detta i sig är vällovligt är det dock ingen lösning. Det räcker inte med att ändra godtyckliga nivåer för vad som ska anses vara ‘statistiskt signifikant’ eller ej. Det är inte där det grundläggande problemet ligger: We recommend dropping the NHST [null hypothesis significance testing] paradigm — and the p-value thresholds associated with it — as the default statistical paradigm for research, publication, and discovery in the biomedical and social sciences. Specifically, rather

Topics:
Lars Pålsson Syll considers the following as important:

This could be interesting, too:

Lars Pålsson Syll writes The importance of ‘causal spread’

Lars Pålsson Syll writes Applied econometrics — a messy business

Lars Pålsson Syll writes Feynman’s trick (student stuff)

Lars Pålsson Syll writes Difference in Differences (student stuff)

Trösklar och statistisk signifikans

I en artikelEkonomistas argumenterar nationalekonomen Robert Östling för att lösningen på den uppmärksammade ‘replikationskrisen’ är att ändra på tröskeln för vad som ska betraktas som ‘statistiskt signifikant’ från 5% till 0,5%.

Även om detta i sig är vällovligt är det dock ingen lösning. Det räcker inte med att ändra godtyckliga nivåer för vad som ska anses vara ‘statistiskt signifikant’ eller ej. Det är inte där det grundläggande problemet ligger:

Trösklar och statistisk signifikansWe recommend dropping the NHST [null hypothesis significance testing] paradigm — and the p-value thresholds associated with it — as the default statistical paradigm for research, publication, and discovery in the biomedical and social sciences. Specifically, rather than allowing statistical signicance as determined by p < 0.05 (or some other statistical threshold) to serve as a lexicographic decision rule in scientic publication and statistical decision making more broadly as per the status quo, we propose that the p-value be demoted from its threshold screening role and instead, treated continuously, be considered along with the neglected factors [such factors as prior and related evidence, plausibility of mechanism, study design and data quality, real world costs and benefits, novelty of finding, and other factors that vary by research domain] as just one among many pieces of evidence.

We make this recommendation for three broad reasons. First, in the biomedical and social sciences, the sharp point null hypothesis of zero effect and zero systematic error used in the overwhelming majority of applications is generally not of interest because it is generally implausible. Second, the standard use of NHST — to take the rejection of this straw man sharp point null hypothesis as positive or even definitive evidence in favor of some preferredalternative hypothesis — is a logical fallacy that routinely results in erroneous scientic reasoning even by experienced scientists and statisticians. Third, p-value and other statistical thresholds encourage researchers to study and report single comparisons rather than focusing on the totality of their data and results.

Andrew Gelman et al.

Vi får aldrig glömma att de underliggande parametrar vi använder när vi gör våra signifikanstestningar är modellkonstruktioner. Oberoende av vlka p-värden vi än får så säger de oss ingenting om modellen är fel. Och framför allt — oberoende av hur många signifikanstester och vilka tösklar vi sätter så validerar de aldrig modeller!

Trösklar och statistisk signifikansIn journal articles a typical regression equation will have an intercept and several explanatory variables. The regression output will usually include an F-test, with p – 1 degrees of freedom in the numerator and n – p in the denominator. The null hypothesis will not be stated. The missing null hypothesis is that all the coefficients vanish, except the intercept.

If F is significant, that is often thought to validate the model. Mistake. The F-test takes the model as given. Significance only means this: if the model is right and the coefficients are 0, it is very unlikely to get such a big F-statistic. Logically, there are three possibilities on the table:
i) An unlikely event occurred.
ii) Or the model is right and some of the coefficients differ from 0.
iii) Or the model is wrong.
So?

Lars Pålsson Syll
Professor at Malmö University. Primary research interest - the philosophy, history and methodology of economics.

Leave a Reply

Your email address will not be published. Required fields are marked *