Benachrichtigung aktivieren Dürfen wir Sie in Ihrem Browser über die wichtigsten Nachrichten des Handelsblatts informieren? Sie erhalten 2-5 Meldungen pro Tag.
Fast geschafft Erlauben Sie handelsblatt.com Ihnen Benachrichtigungen zu schicken. Dies können Sie in der Meldung Ihres Browsers bestätigen.
Benachrichtigungen erfolgreich aktiviert Wir halten Sie ab sofort über die wichtigsten Nachrichten des Handelsblatts auf dem Laufenden. Sie erhalten 2-5 Meldungen pro Tag.
Jetzt Aktivieren
Nein, danke

Wirtschaftswissenschaften Statistiker verschärfen ihre Kritik an der empirischen Ökonomie

Die wichtigste Statistikervereinigung ASA fordert, den Ausdruck „signifikant“ zu streichen. Erste ökonomische Top-Journals haben bereits reagiert.
Kommentieren
Die Bewertung einer Studie wird häufig anhand des sogenannten p-Wertes vorgenommen. Quelle: imago/Ikon Images
Datengetriebene Forschung

Die Bewertung einer Studie wird häufig anhand des sogenannten p-Wertes vorgenommen.

(Foto: imago/Ikon Images)

FrankfurtKeine statistische Kennzahl hat solchen Einfluss darauf, ob eine datengetriebene wissenschaftliche Untersuchung veröffentlicht wird, wie der „p-Wert“ und das davon abgeleitete Kriterium der statistischen Signifikanz.

Angenommen, ein Wissenschaftler vergleicht die Entwicklung der Arbeitslosenquote in zwei Regionen, von denen in einer der Mindestlohn erhöht wird. Um die Entwicklung der Arbeitslosenquote zu deuten, ermittelt er dabei den sogenannten p-Wert. Dieser soll anzeigen, wie wahrscheinlich es ist, dass die Entwicklung der Arbeitslosigkeit tatsächlich mit dem Mindestlohn zu tun hat, und nicht rein zufällig ist.

Genauer gesagt: Der p-Wert gibt an, wie oft ein Ereignis rein zufällig eintreten würde, wenn man sehr viele Fälle beobachten könnte. Je geringer diese Wahrscheinlichkeit ist, desto eher geht man davon aus, dass es tatsächlich einen Zusammenhang gibt.

Ist der p-Wert kleiner als fünf Prozent, geschrieben als 0,05, hat sich eingebürgert, von einem „signifikanten“ Wert zu sprechen. Wer in seiner Studie keine signifikanten Zusammenhänge zeigen kann, hat kaum Chancen, in die wichtigen Fachzeitschriften zu kommen.

Signifikanz als Qualitätsmerkmal zu verwenden leuchtet intuitiv ein – aber die Intuition trügt. Denn das Konzept hat einen sehr speziellen Aussagegehalt, der schwer korrekt zu vermitteln und intuitiv kaum richtig zu erfassen ist. So heißt ein p-Wert von fünf Prozent nicht, dass die Wahrscheinlichkeit, dass es sich doch nur um einen Zufallsfund handelt, bei fünf Prozent liegt.

Trotzdem sprechen viele Wissenschaftler irreführend von „Irrtumswahrscheinlichkeit“. Signifikanz sagt auch entgegen der landläufigen Bedeutung des Wortes nichts über Größe oder Wichtigkeit eines Effekts aus.

„Das Label statistisch signifikant bedeutet nicht und legt auch nicht nahe, dass eine Beziehung oder ein Effekt sehr wahrscheinlich, real, echt oder wichtig ist“, heißt es in einer aktuellen Veröffentlichung der American Statistical Association (ASA), dem größten Fachverband der Statistiker.

In einer Sonderausgabe der Zeitschrift „The American Statistician“ mit dem Titel: „A World Beyond p < 0.05“ fordert die ASA Wissenschaftler und Zeitschriften auf, das Wort „signifikant“ nicht mehr zu verwenden.

Auch die übliche Praxis, „signifikante“ Werte hervorzuheben, soll aufgegeben werden. „Egal, ob sie irgendwann nützlich war, ist die Feststellung statistischer Signifikanz heute bedeutungslos geworden“, erklärt die ASA. Schon 2016 hatte sie gemahnt, vorsichtiger und sachgerechter mit p-Werten umzugehen.

Eine Welt jenseits der p-Werte

Die von der ASA kritisierten Praktiken sind bei Ökonomen sehr verbreitet. Erste Zeitschriften haben bereits auf die Debatte reagiert. Die „American Economic Review“ und „Econometrica“, zwei der fünf Topzeitschriften, weisen Autoren an, in Ergebnistabellen statistisch signifikante Werte nicht mehr hervorzuheben und möglichst statt p-Werten sogenannte Signifikanzintervalle anzugeben.

Die ASA ist nicht allein mit ihrer Kampagne. Kurz nach ihr haben über 850 Wissenschaftler, überwiegend aus den Bereichen Naturwissenschaften und Medizin, eine Erklärung mit der Forderung unterzeichnet, das Konzept der Signifikanz aufzugeben.

„Es muss Schluss sein mit übermäßig gehypten Schlussfolgerungen und der Nichtbeachtung potenziell sehr wichtiger Ergebnisse“, beschreiben sie einen Missstand, den sie dem Signifikanzkonzept zuschreiben. Die ASA verheißt „weniger falsche Alarme, weniger übersehene Entdeckungen und die Entwicklung von mehr maßgeschneiderten statistischen Strategien“.

Besonders kritisiert wird die Praxis, Studienergebnisse, die eine relevante Wirkung ausweisen, die aber nicht statistisch signifikant ist, als Nicht-Ergebnis zu betrachten, oder gar als Beweis für eine Nichtwirkung. Denn das ist völlig falsch.

Die Feststellung statistischer Signifikanz ist heute bedeutungslos geworden. American Statistical Association

Wenn etwa eine Studie einen signifikanten Einfluss des Mindestlohns auf die Beschäftigung findet und eine zweite einen nichtsignifikanten in die gleiche Richtung, dann widerspricht die zweite Studie nicht etwa der ersten, sondern sie bestätigt sie. Selbst wenn beide Ergebnisse nichtsignifikant sein sollten, können sie gemeinsam geeignet sein, einen entsprechenden Einfluss nahezulegen.

Im Aufruf der Wissenschaftler gegen die Signifikanz wird auf Untersuchungen verwiesen, wonach in der Hälfte der Studien solche nichtsignifikanten Ergebnisse falsch interpretiert werden. Die ASA weist deshalb nachdrücklich darauf hin, dass der wissenschaftliche Kenntnisstand verzerrt wird, wenn nichtsignifikante Ergebnisse von den Zeitschriften gar nicht publiziert und somit auch nicht bekannt werden.

Die ASA kritisiert auch, dass oft p-Werte angegeben werden, wenn man diese eigentlich gar nicht berechnen kann, weil die Voraussetzungen fehlen. Zulässig sei das nur, wenn man entweder eine repräsentative und zufällig ausgewählte Stichprobe hat, von der man auf eine Grundgesamtheit schließen will, oder wenn man in einem kontrollierten Experiment eine behandelte und eine vergleichbare nichtbehandelte Gruppe gegenüberstellt.

Viele reagieren nicht

Bei den Ökonomen hält sich der kritisierte Gebrauch von p-Werten und Signifikanz trotz neuer Richtlinien wichtiger Zeitschriften recht hartnäckig. Ein Blick in einen aktuellen Newsletter, in dem das renommierte National Bureau of Economic Research (NBER) neue Arbeitspapiere vorstellt (Vol. 20, No. 36: Mar 25, 2019) zeigt: Von den enthaltenen sechs empirischen Studien arbeiten fünf mit Regressionen und alle fünf verwenden in den Ergebnistabellen Sternchen, um signifikante Werte hervorzuheben.

Eine schnelle Analyse, die der Haller Ökonomieprofessor Norbert Hirschauer auf Anfrage durchführte, ergab, dass in fast allen Fällen die Voraussetzungen für die sinnvolle Interpretation von p-Werten fehlten oder zumindest fragwürdig waren.

Die Koautorin einer dieser Aufsätze, Katheryn Russ von der University of California in Davis, ließ auf Anfrage durchblicken, dass ihr Autorenteam mit p-Werten und Signifikanz-Markierungen vor allem der vermuteten Erwartungshaltung von Gutachtern und Publikum folgt.

„Wenn wir unsere Ergebnisse mit früheren Studien vergleichen wollen, ist es schwer, andere zu überzeugen, wenn wir zur Darstellung einen anderen Ansatz wählen, auch wenn dieser aussagekräftiger ist“, schreibt sie. Wo dieses Vergleichsproblem nicht auftrete, verwende sie Konfidenzintervalle statt p-Werte.

Norbert Hirschauer hat mit den Ökonomen Sven Grüner und Oliver Mußhoff sowie der Statistik-Professorin Claudia Becker in der aktuellen Ausgabe der „Jahrbücher für Nationalökonomie und Statistik“ 20 Empfehlungen zur richtigen Präsentation und Interpretation von p-Werten in der empirischen Wirtschaftsforschung veröffentlicht.

In der erwähnten Sonderausgabe von „The American Statistician“ machen 43 Statistik-Experten zudem Vorschläge, wie man die Validität und Bedeutung der Ergebnisse einer statistischen Analyse auch ohne Rückgriff auf p-Werte und Signifikanz darlegen kann. So wird unter anderem ein Ansatz vorgestellt, wie man anhand der praktischen Vorteile einer Maßnahme zum Beispiel im Krankenhaus oder Schulwesen deren Effektivität besser beurteilen kann als anhand eines Signifikanztests.

Eines stellt Wasserstein allerdings klar: Eine stets funktionierende Ersatzlösung für die p-Werte und die statistische Signifikanz gibt es nicht. Es gehe ja gerade darum, die Methoden besser auf die Fragen zuzuschneiden.

Brexit 2019
Startseite

Mehr zu: Wirtschaftswissenschaften - Statistiker verschärfen ihre Kritik an der empirischen Ökonomie

0 Kommentare zu "Wirtschaftswissenschaften: Statistiker verschärfen ihre Kritik an der empirischen Ökonomie"

Das Kommentieren dieses Artikels wurde deaktiviert.