Rehabilitation (Stuttg) 2004; 43(3): 174-178
DOI: 10.1055/s-2003-814934
Methoden in der Rehabilitationsforschung
© Georg Thieme Verlag KG Stuttgart · New York

Signifikanz, Effektstärke und Konfidenzintervall

Significance, Effect Size, and Confidence IntervalH.  Faller1
  • 1Stiftungsprofessur Rehabilitationswissenschaften, Universität Würzburg
Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de
Further Information

Prof. Dr. med. Dr. phil. Hermann Faller

Institut für Psychotherapie und Medizinische Psychologie

Klinikstraße 3

97070 Würzburg

Email: h.faller@mail.uni-wuerzburg.de

Publication History

Publication Date:
17 June 2004 (online)

Table of Contents #

Zusammenfassung

Über die Bedeutung von „statistischer Signifikanz” sind viele Missverständnisse im Umlauf. Oft wird ein Studienergebnis als „hoch signifikant” bezeichnet, als würde man damit implizieren, dass es auch „hoch bedeutsam” sei. Statistisch signifikant heißt aber lediglich, dass ein Studienergebnis mit einer definierten Wahrscheinlichkeit (meist auf 5 % festgelegt) auch dann auftreten kann, wenn in der erforschten Population die Nullhypothese gilt, der in der Stichprobe gefundene Effekt also gar nicht vorhanden ist. Ob ein Ergebnis signifikant wird oder nicht, hängt in hohem Maße auch von der Größe der untersuchten Stichprobe ab. So können bei einer großen Stichprobe auch minimale, inhaltlich unbedeutende Effekte signifikant werden, während bei einer kleinen Stichprobe auch große, inhaltlich bedeutsame Effekte die Signifikanz verfehlen können. Deshalb sollten bei der Darstellung von Studienergebnissen immer auch die Größe eines Effekts (Effektstärke) und die wahrscheinliche Bandbreite des Effekts in der Population (Konfidenzintervall) berichtet werden.

#

Abstract

The term „statistical significance” is often misunderstood. The result of a study may be labelled to be „highly significant” as if implying „highly important”. Statistically significant, however, does only mean that a study result might have been found with a predefined probability (conventionally set at 5 %) even when the null hypothesis is true in the population, i. e. the effect found in the study sample does not exist in reality. Whether a result proves to be significant or not largely depends on sample size. Thus, in a large sample minimal effects of no practical relevance may turn out significant whereas in a small sample even large, important effects may fail to reach the significance level. As a consequence, when presenting the results of a study the effect size should be reported together with a confidence interval indicating the probable range that contains the population effect.

In jüngster Zeit wird von den maßgeblichen Leitlinien für die Publikation von Studienergebnissen in medizinischen [1] [2] [3] [4] und psychologischen [5] [6] Zeitschriften gefordert, das Ergebnis einer statistischen Hypothesenprüfung, oft kurz Signifikanztest genannt, durch die Angabe der Effektstärke sowie der Präzision, mit der diese geschätzt werden konnte (Konfidenzintervall), zu ergänzen. Welche Überlegungen haben zu dieser Forderung geführt? Warum erscheinen die Resultate von Hypothesenprüfungen, also die bloße Angabe, ob ein Ergebnis statistisch signifikant ist oder nicht, heute als nicht mehr ausreichend, um die Aussage einer Studie beurteilen zu können? Oder kurz gefragt: „What's wrong with significance tests?” [7].

Über die Bedeutung des Ausdrucks „statistisch signifikant” sind viele Missverständnisse im Umlauf.[1] Deshalb soll zuerst noch einmal kurz und mit einfachen Worten erklärt werden, was es bedeutet, wenn das Ergebnis unserer Studie „statistisch signifikant” ist. Entgegen verbreiteten Missverständnissen heißt „Das Ergebnis ist signifikant, p < 0,05” nicht, dass die Nullhypothese (es existiert kein Effekt, also kein Unterschied, kein Zusammenhang etc.) nur noch eine Wahrscheinlichkeit von 5 % hat; der p-Wert (p = probability), den ein Signifikanztest erbringt, sagt nichts darüber aus, wie wahrscheinlich die geprüfte Nullhypothese ist; er ist weder eine Eigenschaft der Nullhypothese noch der Alternativhypothese, sondern eine Eigenschaft der Daten (genauer: ein Resultat aus dem in der Stichprobe gemessenen Effekt, der Stichprobengröße und der Verteilungsannahmen) unserer Stichprobe, unter der Bedingung der Gültigkeit der Nullhypothese: Er gibt die Wahrscheinlichkeit an, mit welcher die gefundenen (oder extremere) Stichprobenergebnisse auftreten können, wenn die Nullhypothese gilt (also der untersuchte Effekt in der Population nicht existiert) [9] [10]. Der p-Wert wird a posteriori auf der Basis der Daten berechnet, das Alpha-Fehlerrisiko (Signifikanzniveau), d. h. die Wahrscheinlichkeit, fälschlicherweise einen Effekt anzunehmen, wo tatsächlich keiner existiert, hingegen a priori, also vor Beginn der Studie festgelegt.

Am Beispiel des Mittelwerts soll dieser Sachverhalt kurz erläutert werden: Aus dem zentralen Grenzwerttheorem lässt sich ableiten, wie die Mittelwerte von Stichproben eines bestimmten Umfangs (n) ausfallen, die aus einer Population mit einem bestimmten Mittelwert gezogen werden. Die Mittelwerte dieser Stichproben verteilen sich nämlich, ausreichende Stichprobengröße vorausgesetzt, glockenförmig um den Populationsmittelwert (Normalverteilung, Gaußsche Glockenkurve). Wir wissen also im Vorhinein, mit welcher Wahrscheinlichkeit bestimmte Stichprobenmittelwerte auftreten werden: Stichproben mit Mittelwerten, die in der Nähe des Populationsmittelwerts liegen, kommen häufiger vor, weiter abweichende Mittelwerte seltener. Ein p-Wert von 0,05 oder 5 % sagt aus, dass der Mittelwert unserer Stichprobe so weit vom Populationsmittelwert abweicht, dass er (oder ein extremerer Wert) per Zufall in 5 % aller Stichproben vorkommen würde, die aus dieser Population gezogen werden. Es hat sich nun im Laufe der Zeit eingebürgert, diese Wahrscheinlichkeit von 5 % für selten genug zu erachten, um den Schluss zu ziehen, dass unsere Stichprobe wohl nicht aus einer Population stammt, von der sie so weit abweicht, dass dies nur in 5 % der Fälle auch zufälligerweise zustande kommen kann. Analog kann beim Vergleich zweier Untersuchungsgruppen der Unterschied zwischen den beiden Mittelwerten behandelt werden. Dies leuchtet unmittelbar ein, wenn man den Kontrollgruppenmittelwert als 0 ansetzt; der Experimentalgruppenmittelwert entspricht dann der Differenz beider Mittelwerte.

Wir treffen also vor dem Hintergrund unseres Stichprobenwerts die Entscheidung, dass die Nullhypothese nicht gilt. Dies ist jedoch eine willkürliche Entscheidung auf der Basis einer Konvention, die sich im Lauf vieler Jahre herausgebildet hat [11]. Ob eine Wahrscheinlichkeit von 5 % wirklich so selten ist, dass man sie vernachlässigen kann, hängt von der Tragweite der Entscheidung ab, um die es geht: Wenn die Wettervorhersage die Wahrscheinlichkeit dafür, dass es morgen regnen wird, mit 5 % beziffert, werde ich wohl den Regenschirm zu Hause lassen. Wenn mein Chirurg dieselbe Wahrscheinlichkeit von 5 % dafür angibt, dass die geplante Operation tödlich ausgeht, werde ich mir sehr gut überlegen, ob es nicht auch andere, weniger riskante Behandlungsmöglichkeiten gibt.

Die Entscheidung, dass ein Ergebnis statistisch signifikant ist, schließt nicht mit Sicherheit aus, dass die Nullhypothese doch zutrifft. Bei 5 von 100 Testungen kann ein signifikantes Ergebnis allein durch Zufall zustande kommen: Die Festsetzung des Signifikanzniveaus (Irrtumswahrscheinlichkeit, Alpha-Fehlerrisiko) auf 5 % impliziert ja, dass ich bereit bin, mich auf lange Frist in 5 % der Fälle zu irren. Ich kann also nie sicher wissen, ob nicht gerade mein signifikantes Ergebnis eines von diesen 5 von 100 zufällig signifikanten Ergebnissen ist. Eine Replikation des Befunds macht ihn verlässlicher. Viel problematischer wird dieser Umstand dann, wenn ich in meiner Studie nicht nur eine, sondern eine ganze Reihe von Hypothesen teste oder gar ohne spezifische Hypothese alle möglichen Subgruppenunterschiede oder Merkmalszusammenhänge prüfe. Die Logik des Signifikanztestens wird durch diese Praxis ad absurdum geführt, Zufallsbefunde sind nahezu garantiert. Deshalb muss streng zwischen hypothesenprüfenden und explorativen Auswertungen unterschieden werden.

Die Attraktivität des Signifikanztests rührt daher, dass er ein quasi deterministisches, mechanisches und objektives Schema liefert, das zu klaren und eindeutigen Ja-Nein-Entscheidungen führt: Ein Ergebnis ist signifikant (p < 0,05) oder nicht (p ≥ 0,05). Was ist nun „falsch” am Signifikanztesten? Die Signifikanzprüfung hat mehrere erhebliche Nachteile: 1. Sie setzt ein willkürliches, dichotomes Kriterium; 2. ob dieses Kriterium erfüllt wird oder nicht, hängt aber sehr wesentlich von der Stichprobengröße ab; 3. sie gibt uns keine Information über die Größe und 4. über die klinische Bedeutsamkeit eines Effekts [9] [10]. Im Gegenteil: Ein und derselbe Effekt kann in der einen Studie signifikant sein, in einer anderen, bis auf die Stichprobengröße identischen Studie hingegen nicht. Ein Beispiel: Eine Patientenschulung bringt hinsichtlich eines Ergebniskriteriums (z. B. Summenwert auf einem Wissensfragebogen) in der Behandlungsgruppe einen um 0,70 Standardabweichungen besseren Mittelwert als in der Kontrollgruppe. (Einen Unterschied dieser Größe findet man häufig, wenn man eine wirksame Intervention mit keiner Behandlung vergleicht.) In einer Studie mit n = 10 Teilnehmern in der Behandlungsgruppe und n = 10 Teilnehmern in der Kontrollgruppe wäre dieser Unterschied nicht signifikant. Derselbe Unterschied würde jedoch signifikant werden, wenn Experimental- und Kontrollgruppe aus jeweils 30 Teilnehmern bestehen würden. Kazdin meint dazu: „This is chaos and not how we want our science to proceed” ([12], S. 376). Dass es so sehr auch von der Stichprobengröße statt von der eigentlich interessierenden Größe eines Effekts abhängt, ob ein Ergebnis signifikant wird oder nicht, behindert den systematischen Aufbau von Wissen: Wir können oft nicht unterscheiden, ob nicht signifikante Ergebnisse bedeuten, dass tatsächlich kein Effekt vorhanden ist, oder vielmehr, dass ein tatsächlich vorhandener Effekt wegen Schwächen im Design, wie z. B. eine zu kleine oder zu inhomogene Stichprobe, lediglich nicht entdeckt wurde. (Diese Schwächen des Designs sind natürlich nicht dem Nullhypothesentest anzurechnen, sondern dem Forscher, der z. B. nicht vorab den erforderlichen Stichprobenumfang berechnet hat.)

Gleichwohl werden Erfolg oder Misserfolg einer Behandlung meist mechanisch daran festgemacht, ob p unter oder über 5 % liegt. Dass es sich bei dem inzwischen nahezu sakrosankten 5 %-Kriterium für die Entscheidung, ob ein Effekt statistisch bedeutsam ist oder nicht, um eine durchaus willkürliche Festlegung handelt, haben Rosnow u. Rosenthal ([13], S. 1277) in ihrem klassischen Zitat spöttisch folgendermaßen kommentiert: „Surely, God loves the .06 nearly as much as the .05.” Für den Signifikanztest wird die empirische Welt aber anhand dieses Kriteriums in „existent/nicht existent” eingeteilt: Ein Effekt (ein Unterschied, ein Zusammenhang) ist vorhanden oder nicht. Dass sich Wissenszuwachs entlang derartiger Ja-oder-Nein-Entscheidungen vollzieht, ist wenig plausibel; viel interessanter ist dagegen die Frage, wie groß ein Unterschied zwischen zwei Gruppen oder wie stark ein Zusammenhang zwischen zwei Merkmalen ist. Darüber enthält der p-Wert jedoch keinerlei Information. Er besagt lediglich, dass der Effekt nicht Null ist, nicht aber, wie groß er ist. „Sehr signifikant” heißt nicht „sehr wichtig”. Vielmehr hängt es wesentlich von der Größe der untersuchten Stichproben ab, ob ein Unterschied signifikant wird oder nicht. Dies liegt daran, dass die Mittelwerte größerer Stichproben sehr viel enger um den Populationsmittelwert schwanken als diejenigen kleiner Stichproben. Ein abweichender Mittelwert kommt bei größeren Stichproben mit entsprechend geringerer Wahrscheinlichkeit (p-Wert) vor, deshalb genügt bei größeren Stichproben umgekehrt schon eine geringere Abweichung vom Populationsmittelwert, ein Ergebnis signifikant werden zu lassen. Bei sehr kleinen Stichproben muss hingegen ein Effekt schon sehr groß sein, um signifikant zu werden. Diese unterschiedliche „Fähigkeit”, signifikante Ergebnisse zu erzielen, wird „Power” (Teststärke) genannt [14] [15].

Die Abhängigkeit der Signifikanzprüfung von der Stichprobengröße kann also in zwei Richtungen in die Irre führen. Einerseits werden bei genügend großen Stichproben auch minimale Unterschiede signifikant, sodass mit Recht gesagt wurde, dass die Nullhypothese eigentlich nie gelte - nur sind diese Unterschiede trotz der „hohen Signifikanz” möglicherweise sehr klein und inhaltlich völlig bedeutungslos. Hierzu ein Beispiel: 1986 erschien in der New York Times die Nachricht, dass eine Studie mit nahezu 14 000 Schulkindern bewiesen habe, dass ein signifikanter Zusammenhang zwischen Körpergröße und Intelligenz bestehe, und zwar bei Kontrolle von Alter, Geschlecht, körperlicher Reife, soziodemografischen Merkmalen und vielen anderen Variablen. Cohen [9], der diesen Artikel las, vermisste darin allerdings eine Angabe über die Stärke dieses Zusammenhangs. Auf der Basis einer Poweranalyse berechnete er, dass ein Korrelationskoeffizient bei n = 14 000 und α = 0,001 mindestens r = 0,0278 betragen muss, um signifikant zu werden. Um, entsprechend der impliziten Kausalhypothese des Journalisten, die Intelligenz eines Kindes von 100 auf 130 Punkte zu erhöhen, müsste man seine Körpergröße demnach um 4,20 m steigern; oder, falls die Kausalität in die andere Richtung liefe und man Basketballspieler heranbilden wollte, so würde eine Größenzunahme um 10 cm einen Intelligenzzuwachs um 900 Punkte erfordern. (Später recherchierte Cohen den tatsächlichen Korrelationskoeffizienten; dieser betrug immerhin 0,11, was bedeutet, dass man einen Intelligenzgewinn von 30 Punkten schon mit einem Größenzuwachs um 1,05 m bzw. einen 10-cm-Wachstumsschub schon mit einer Intelligenzsteigerung um 233 Punkte erzielen würde.) Hoch signifikant heißt also mitnichten hoch bedeutsam. Die Korrelation im genannten Beispiel ist zwar hoch signifikant, aber sehr niedrig und in keiner Weise relevant.

Signifikanz sagt also noch nichts über die klinische Bedeutsamkeit oder Relevanz eines Effekts. Unter der klinischen Bedeutsamkeit versteht man die Auswirkung auf das Alltagsleben der Patienten [16]. Dies ist ein breiteres Konzept, das sich nicht so einfach operationalisieren lässt - zumal nicht anhand einer einfachen kriterienbezogenen Entscheidung - wie die statistische Signifikanz, wenngleich es auch statistische Ansätze zur Definition klinischer Bedeutung gibt [17]. Deshalb erscheint es angemessen, den Begriff „Signifikanz” für die statistische Signifikanz zu reservieren und statt von „klinischer Signifikanz” besser von „klinischer Bedeutsamkeit” oder „Relevanz” zu sprechen. Obwohl sich die Größe eines Effekts und seine klinische Bedeutung nicht eins zu eins ineinander überführen lassen, stehen doch beide in einem Zusammenhang miteinander, insofern große Effekte auch eher klinisch bedeutsam sind als kleine Effekte.

Die zweite Richtung, in die das bloße Signifikanztesten irreführen kann, ist folgende: Bei kleinen Stichproben haben große, inhaltlich möglicherweise durchaus bedeutsame Effekte nur eine geringe Chance, signifikant zu werden, mit der Folge, dass realiter durchaus vorhandene Befunde nicht entdeckt, wissenschaftlich anerkannt und therapeutisch genutzt werden [18]. Schmidt [19] gibt ein Beispiel eines Forschungsfelds, in welchem viele einzelne Studien jeweils positive Korrelationen zwischen zwei Merkmalen in substanzieller Höhe gezeigt haben, die aber fast alle wegen zu kleiner Stichproben nicht signifikant wurden. Die (hybride) Logik des Signifikanztestens käme in diesem Fall zu dem Schluss, dass der geprüfte Zusammenhang nicht existiert. Viel plausibler wäre jedoch die Vermutung, dass an dem Zusammenhang durchaus etwas dran sein könnte und es lediglich ein Resultat der kleinen Stichprobe ist, dass die Signifikanz „ausbleibt”. Hätte man die Studien ausreichend dimensioniert und dadurch für die nötige Power gesorgt, wären die substanziellen Korrelationen möglicherweise signifikant geworden. Die Kombination der einzelnen Studien in einer Metaanalyse kann schließlich das zutreffende Bild eines tatsächlich vorhandenen und starken Zusammenhangs aufdecken, das auf der Ebene der einzelnen nicht signifikanten Ergebnisse verborgen geblieben wäre. Metaanalysen können deshalb die Fehler zu kleiner Studien manchmal heilen.

Alle genannten Nachteile können aber auch auf der Ebene der einzelnen Studie gemildert werden, wenn man die Signifikanzprüfung durch die Angabe der Größe eines Effekts (Unterschieds, Zusammenhangs) und der Präzision seiner Schätzung (Konfidenzintervall) ergänzt [20]. Die Größe eines Effekts wird als Effektstärke bezeichnet. In einem Kontrollgruppendesign ist dies z. B. der Unterschied zwischen Interventionsgruppe und Kontrollgruppe auf einem Ergebniskriterium (Outcome). Ein Beispiel: Die Evaluation eines Selbstmanagementprogramms für Patienten mit hohem Blutdruck habe in der Interventionsgruppe einen mittleren diastolischen Blutdruck von 90 mm Hg und in der Kontrollgruppe von 95 mm Hg gezeigt. Die Effektstärke beträgt in diesem Fall 5 mm Hg. Wenn die Skala, auf der der Effekt dargestellt wird, nicht so unmittelbar verständlich ist wie die Blutdruckskala, ist es sinnvoll, die Größe des Effekts in Einheiten der Standardabweichung auszudrücken und dadurch unterschiedliche Skalierungen miteinander vergleichbar zu machen. So ist Cohens d, ein gebräuchliches Maß der Effektstärke, definiert als Mittelwertsunterschied dividiert durch die (gepoolte) Standardabweichung [14] [15]. (Gepoolt heißt, dass aus den Standardabweichungen von Interventions- und Kontrollgruppe unter Berücksichtigung der Größe der beiden Gruppen ein gemeinsamer Wert berechnet wird, zur Formel siehe [14].) Für einen auf diese Weise standardisierten Mittelwertsunterschied hat Cohen [14] [15] folgende Bewertung vorgeschlagen, die inzwischen allgemein akzeptiert wird: d = 0,2 kleiner Effekt, d = 0,5 mittlerer Effekt, d = 0,8 großer Effekt. Das gebräuchlichste Maß der Effektstärke für einen Zusammenhang zwischen zwei intervallskalierten Variablen ist der Produkt-Moment-Korrelationskoeffizient. Hierfür schlägt Cohen [14] [15] folgende Bewertung vor: r = 0,1 kleiner Effekt, r = 0,3 mittlerer Effekt, r = 0,5 großer Effekt.

Angenommen, ein Schulungsprogramm hat zu einem signifikanten Unterschied zwischen Interventionsgruppe und Kontrollgruppe in der Rate von Rehospitalisierungen geführt. Dies allein sagt mir, wie erwähnt, noch nichts darüber, wie groß dieser Unterschied ist. Als geeignetes Maß für die Größe des Unterschieds, die Effektstärke, könnte in diesem Fall ein Häufigkeitsunterschied angegeben werden, der 20 % betragen sollte. Ein Unterschied von dieser Größe erscheint durchaus relevant. Der in der Studienstichprobe erzielte Effekt stellt aber nur einen ungefähren Schätzwert für den Effekt in der Population dar, aus der die Stichprobe stammt und für die auf der Basis der Studie eine Aussage getroffen werden soll. Die Präzision dieser Schätzung lässt sich jedoch bestimmen, und zwar durch das 95 %-Konfidenzintervall. Dieses gibt, kurz gesagt, den Bereich an, in dem der Effekt in der Population mit 95 %iger Sicherheit liegt. (Genauer gesagt: Berechnet man eine Serie von Konfidenzintervallen in unterschiedlichen Stichproben aus derselben Population, dann überdecken 95 % dieser Konfidenzintervalle den Effekt in der Population.) Angenommen, in der erwähnten Studie liegt das 95 %-Konfidenzintervall zwischen 6 und 34 %. Dies bedeutet, dass der wahre Effekt mit 95 %iger Sicherheit zwischen 6 und 34 % liegt. (Werte darunter oder darüber sind allerdings nicht völlig ausgeschlossen.) Eine Reduktion um 34 % wäre natürlich klinisch noch bedeutsamer als eine Reduktion um 20 %. Ob dagegen 6 % noch relevant sind, müsste diskutiert werden. Werte am Rande des Konfidenzintervalls sind jedoch weniger wahrscheinlich, und die beste Schätzung des Populationseffekts ist 20 %, der Stichprobenwert. Ein anderes Beispiel: Eine Selbstmanagementprogramm für Patienten mit Hypertonie habe zwischen Behandlungs- und Kontrollgruppe einen mittleren Unterschied von 5 mm Hg im diastolischen Blutdruck gebracht, mit einem 95 %-Konfidenzintervall von 1 - 9 mm Hg. Das Ergebnis der Studie ist also konsistent mit einem relativ breiten Bereich, der klinisch bedeutsame Werte bis hin zu beträchtlichen 9 mm Hg, aber auch eine sehr geringe Verminderung des Blutdrucks um nur 1 mm Hg umschließt.

Wichtig ist, dass das Konfidenzintervall bei einem Kontrollgruppendesign für den Unterschied zwischen Experimental- und Kontrollgruppe berechnet werden muss, nicht für jede Gruppe getrennt. 95 %-Konfidenzintervalle geben nun nicht nur einen Hinweis für die Größe des Effekts und die Bandbreite, in welcher der Populationseffekt mit einer bestimmten Wahrscheinlichkeit liegt, sondern sie beantworten nebenbei auch noch die Frage nach der statistischen Signifikanz: Wenn der Wert Null außerhalb des 95 %-Konfidenzintervalls liegt, so ist das Ergebnis auf dem 5 %-Niveau signifikant; wenn er innerhalb des Intervalls liegt, nicht. Wenn in einer kleinen Studie (kleines n) das 95 %-Konfidenzintervall sowohl große Effekte als auch den Wert Null einschließt („nicht signifikant”), so heißt dies, dass das Ergebnis sowohl mit dem Vorhandensein klinisch bedeutsamer Effekte als auch mit der Gültigkeit der Nullhypothese konsistent ist [7]. Welche von beiden Möglichkeiten letztlich zutrifft, muss die Replikation in weiteren Studien und deren Synthese in einer Metaanalyse entscheiden. Zusätzlich zum Konfidenzintervall sollte immer der genaue p-Wert angegeben werden, nicht nur, ob p oberhalb oder unterhalb einer willkürlichen Schwelle liegt. Die Präsentation von Konfidenzintervallen, d. h. der Bandbreite der Effektstärke, mit der das Studienergebnis kompatibel ist, gehört inzwischen zum Standard der Präsentation quantitativer Ergebnisse.[2]

#

Dank

Für wertvolle Hinweise und Anregungen sei Dr. Christian Zwingmann, Frankfurt/Main, Prof. Dr. Thomas Kohlmann, Greifswald, sowie einem anonymen Gutachter herzlich gedankt.

#

Literatur

  • 1 Moher D, Schulz K F, Altman D G. for the CONSORT Group . The CONSORT statement: revised recommendations for improving the quality of reports of parallel-group randomised trials.  Lancet. 2001;  357 1191-1194
  • 2 Altman D G, Schulz K F, Moher D, Egger M, Davidoff F, Elbourne D, Gotzsche P C, Lang T. for the CONSORT Group . The revised CONSORT statement for reporting randomized trials: explanation and elaboration.  Ann Intern Med. 2001;  134 663-694
  • 3 Sackett D L, Straus S E, Richardson W S, Rosenberg W, Haynes R B. Evidence-based medicine. 2. Aufl. Edinburgh; Churchill Livingstone 2000
  • 4 Altman D G, Gore S M, Gardner M J, Pocock S J. Statistical guidelines for contributors to medical journals. In: Altman DG, Machin D, Bryant TN, Gardner MJ (eds) Statistics with confidence. London; BMJ Books 2000: 171-190
  • 5 Thompson B. AERA editorial policies regarding statistical significance testing: Three suggested reforms.  Educational Researcher. 1996;  25 26-30
  • 6 Wilkinson L. and the Task Force on Statistical Inference, APA Board of Scientific Affairs . Statistical methods in psychology journals.  American Psychologist. 1999;  54 594-604
  • 7 Sterne J AC, Davey Smith G. Sifting the evidence - what's wrong with significance tests?.  BMJ. 2001;  322 226-231
  • 8 Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Krueger L. The empire of chance: how probability changed science and everyday life. Cambridge; Cambridge University Press 1989
  • 9 Cohen J. Things I have learned (so far).  American Psychologist. 1990;  45 1304-1312
  • 10 Cohen J. The earth is round (p < .05).  American Psychologist. 1994;  49 997-1003
  • 11 Cowles M, Davis C. On the origins of the .05 level of statistical significance. American Psychologist 1982; 37: 553 - 558, wiederabgedruckt. In: Kazdin AE (ed) Methodological issues and strategies in clinical research. 2. Aufl. Washington, DC; American Psychological Association 1998: 291-300
  • 12 Kazdin A E. Research design in clinical psychology. 3. Aufl. Needham Heights, MA; Allyn and Bacon 1998
  • 13 Rosnow R L, Rosenthal R. Statistical procedures and the justification of knowledge in psychological science.  American Psychologist. 1989;  44 1276-1284
  • 14 Cohen J. Statistical power analysis for the behavioral sciences. 2. Aufl. Hillsdale, NJ; Lawrence Erlbaum 1988
  • 15 Cohen J. A power primer.  Psychological Bulletin. 1992;  112 155-159
  • 16 Kazdin A E. The meanings and measurement of clinical significance.   J Consult Clin Psychol. 1999;  67 332-339
  • 17 Jacobson N S, Truax P. Clinical significance: A statistical approach to defining meaningful change in psychotherapy research.  J Consult Clin Psychol. 1991;  59 12-19
  • 18 Collins R, MacMahon S. Reliable assessment of the effects of treatment on mortality and major morbidity, I: clinical trials.  Lancet. 2001;  357 373-380
  • 19 Schmidt F L. Statistical significance testing and cumulative knowledge in psychology: Implications for training of researchers.  Psychological Methods. 1996;  1 115-129
  • 20 Altman D G, Machin D, Bryant T N, Gardner M J. Statistics with confidence. London; BMJ Books 2000

1 Dazu mag beigetragen haben, dass es streng genommen nicht nur ein, sondern drei Konzepte der Signifikanztestung gibt: ein frühes und ein spätes von R. A. Fisher sowie eines von J. Neyman und E. Pearson. Die beiden Konzepte von Fisher beinhalten lediglich die Nullhypothese, die anhand eines vorab definierten Signifikanzkriteriums (frühes Konzept) oder unter Angabe eines datenabhängigen p-Werts (spätes Konzept) falsifiziert werden soll. Neyman und Pearson erweiterten dieses Modell um die Alternativhypothese, die einen Effekt von einer bestimmten Größe postuliert. Zum Fehler erster Art, die Nullhypothese fälschlich abzulehnen, dessen Wahrscheinlichkeit durch das Alpha-Fehlerrisiko bestimmt wird, kommt nun ein Fehler zweiter Art, nämlich die Alternativhypothese fälschlich abzulehnen, hinzu, dessen Wahrscheinlichkeit durch das Beta-Fehlerrisiko bestimmt wird. Aus didaktischen Gründen wird diese Differenzierung in der vorliegenden Arbeit jedoch nicht durchgeführt, sondern es wird die Praxis des Signifikanztestens so dargestellt, wie sie derzeit allgemein üblich ist: als eine Mischung aus den drei Konzepten [8].

2 Eine einfache Anleitung zur Berechnung von Konfidenzintervallen für alle gängigen Kennwerte (Mittelwertsunterschiede, Häufigkeitsunterschiede, Korrelationen etc.) sowie ein entsprechendes, leicht zu bedienendes Computerprogramm bieten Altman et al. [20].

Prof. Dr. med. Dr. phil. Hermann Faller

Institut für Psychotherapie und Medizinische Psychologie

Klinikstraße 3

97070 Würzburg

Email: h.faller@mail.uni-wuerzburg.de

#

Literatur

  • 1 Moher D, Schulz K F, Altman D G. for the CONSORT Group . The CONSORT statement: revised recommendations for improving the quality of reports of parallel-group randomised trials.  Lancet. 2001;  357 1191-1194
  • 2 Altman D G, Schulz K F, Moher D, Egger M, Davidoff F, Elbourne D, Gotzsche P C, Lang T. for the CONSORT Group . The revised CONSORT statement for reporting randomized trials: explanation and elaboration.  Ann Intern Med. 2001;  134 663-694
  • 3 Sackett D L, Straus S E, Richardson W S, Rosenberg W, Haynes R B. Evidence-based medicine. 2. Aufl. Edinburgh; Churchill Livingstone 2000
  • 4 Altman D G, Gore S M, Gardner M J, Pocock S J. Statistical guidelines for contributors to medical journals. In: Altman DG, Machin D, Bryant TN, Gardner MJ (eds) Statistics with confidence. London; BMJ Books 2000: 171-190
  • 5 Thompson B. AERA editorial policies regarding statistical significance testing: Three suggested reforms.  Educational Researcher. 1996;  25 26-30
  • 6 Wilkinson L. and the Task Force on Statistical Inference, APA Board of Scientific Affairs . Statistical methods in psychology journals.  American Psychologist. 1999;  54 594-604
  • 7 Sterne J AC, Davey Smith G. Sifting the evidence - what's wrong with significance tests?.  BMJ. 2001;  322 226-231
  • 8 Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Krueger L. The empire of chance: how probability changed science and everyday life. Cambridge; Cambridge University Press 1989
  • 9 Cohen J. Things I have learned (so far).  American Psychologist. 1990;  45 1304-1312
  • 10 Cohen J. The earth is round (p < .05).  American Psychologist. 1994;  49 997-1003
  • 11 Cowles M, Davis C. On the origins of the .05 level of statistical significance. American Psychologist 1982; 37: 553 - 558, wiederabgedruckt. In: Kazdin AE (ed) Methodological issues and strategies in clinical research. 2. Aufl. Washington, DC; American Psychological Association 1998: 291-300
  • 12 Kazdin A E. Research design in clinical psychology. 3. Aufl. Needham Heights, MA; Allyn and Bacon 1998
  • 13 Rosnow R L, Rosenthal R. Statistical procedures and the justification of knowledge in psychological science.  American Psychologist. 1989;  44 1276-1284
  • 14 Cohen J. Statistical power analysis for the behavioral sciences. 2. Aufl. Hillsdale, NJ; Lawrence Erlbaum 1988
  • 15 Cohen J. A power primer.  Psychological Bulletin. 1992;  112 155-159
  • 16 Kazdin A E. The meanings and measurement of clinical significance.   J Consult Clin Psychol. 1999;  67 332-339
  • 17 Jacobson N S, Truax P. Clinical significance: A statistical approach to defining meaningful change in psychotherapy research.  J Consult Clin Psychol. 1991;  59 12-19
  • 18 Collins R, MacMahon S. Reliable assessment of the effects of treatment on mortality and major morbidity, I: clinical trials.  Lancet. 2001;  357 373-380
  • 19 Schmidt F L. Statistical significance testing and cumulative knowledge in psychology: Implications for training of researchers.  Psychological Methods. 1996;  1 115-129
  • 20 Altman D G, Machin D, Bryant T N, Gardner M J. Statistics with confidence. London; BMJ Books 2000

1 Dazu mag beigetragen haben, dass es streng genommen nicht nur ein, sondern drei Konzepte der Signifikanztestung gibt: ein frühes und ein spätes von R. A. Fisher sowie eines von J. Neyman und E. Pearson. Die beiden Konzepte von Fisher beinhalten lediglich die Nullhypothese, die anhand eines vorab definierten Signifikanzkriteriums (frühes Konzept) oder unter Angabe eines datenabhängigen p-Werts (spätes Konzept) falsifiziert werden soll. Neyman und Pearson erweiterten dieses Modell um die Alternativhypothese, die einen Effekt von einer bestimmten Größe postuliert. Zum Fehler erster Art, die Nullhypothese fälschlich abzulehnen, dessen Wahrscheinlichkeit durch das Alpha-Fehlerrisiko bestimmt wird, kommt nun ein Fehler zweiter Art, nämlich die Alternativhypothese fälschlich abzulehnen, hinzu, dessen Wahrscheinlichkeit durch das Beta-Fehlerrisiko bestimmt wird. Aus didaktischen Gründen wird diese Differenzierung in der vorliegenden Arbeit jedoch nicht durchgeführt, sondern es wird die Praxis des Signifikanztestens so dargestellt, wie sie derzeit allgemein üblich ist: als eine Mischung aus den drei Konzepten [8].

2 Eine einfache Anleitung zur Berechnung von Konfidenzintervallen für alle gängigen Kennwerte (Mittelwertsunterschiede, Häufigkeitsunterschiede, Korrelationen etc.) sowie ein entsprechendes, leicht zu bedienendes Computerprogramm bieten Altman et al. [20].

Prof. Dr. med. Dr. phil. Hermann Faller

Institut für Psychotherapie und Medizinische Psychologie

Klinikstraße 3

97070 Würzburg

Email: h.faller@mail.uni-wuerzburg.de