Rehabilitation (Stuttg) 2004; 43(3): 174-178
DOI: 10.1055/s-2003-814934
Methoden in der Rehabilitationsforschung
© Georg Thieme Verlag KG Stuttgart · New York

Signifikanz, Effektstärke und Konfidenzintervall

Significance, Effect Size, and Confidence IntervalH.  Faller1
  • 1Stiftungsprofessur Rehabilitationswissenschaften, Universität Würzburg
Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de
Weitere Informationen

Publikationsverlauf

Publikationsdatum:
17. Juni 2004 (online)

Zusammenfassung

Über die Bedeutung von „statistischer Signifikanz” sind viele Missverständnisse im Umlauf. Oft wird ein Studienergebnis als „hoch signifikant” bezeichnet, als würde man damit implizieren, dass es auch „hoch bedeutsam” sei. Statistisch signifikant heißt aber lediglich, dass ein Studienergebnis mit einer definierten Wahrscheinlichkeit (meist auf 5 % festgelegt) auch dann auftreten kann, wenn in der erforschten Population die Nullhypothese gilt, der in der Stichprobe gefundene Effekt also gar nicht vorhanden ist. Ob ein Ergebnis signifikant wird oder nicht, hängt in hohem Maße auch von der Größe der untersuchten Stichprobe ab. So können bei einer großen Stichprobe auch minimale, inhaltlich unbedeutende Effekte signifikant werden, während bei einer kleinen Stichprobe auch große, inhaltlich bedeutsame Effekte die Signifikanz verfehlen können. Deshalb sollten bei der Darstellung von Studienergebnissen immer auch die Größe eines Effekts (Effektstärke) und die wahrscheinliche Bandbreite des Effekts in der Population (Konfidenzintervall) berichtet werden.

Abstract

The term „statistical significance” is often misunderstood. The result of a study may be labelled to be „highly significant” as if implying „highly important”. Statistically significant, however, does only mean that a study result might have been found with a predefined probability (conventionally set at 5 %) even when the null hypothesis is true in the population, i. e. the effect found in the study sample does not exist in reality. Whether a result proves to be significant or not largely depends on sample size. Thus, in a large sample minimal effects of no practical relevance may turn out significant whereas in a small sample even large, important effects may fail to reach the significance level. As a consequence, when presenting the results of a study the effect size should be reported together with a confidence interval indicating the probable range that contains the population effect.

Literatur

  • 1 Moher D, Schulz K F, Altman D G. for the CONSORT Group . The CONSORT statement: revised recommendations for improving the quality of reports of parallel-group randomised trials.  Lancet. 2001;  357 1191-1194
  • 2 Altman D G, Schulz K F, Moher D, Egger M, Davidoff F, Elbourne D, Gotzsche P C, Lang T. for the CONSORT Group . The revised CONSORT statement for reporting randomized trials: explanation and elaboration.  Ann Intern Med. 2001;  134 663-694
  • 3 Sackett D L, Straus S E, Richardson W S, Rosenberg W, Haynes R B. Evidence-based medicine. 2. Aufl. Edinburgh; Churchill Livingstone 2000
  • 4 Altman D G, Gore S M, Gardner M J, Pocock S J. Statistical guidelines for contributors to medical journals. In: Altman DG, Machin D, Bryant TN, Gardner MJ (eds) Statistics with confidence. London; BMJ Books 2000: 171-190
  • 5 Thompson B. AERA editorial policies regarding statistical significance testing: Three suggested reforms.  Educational Researcher. 1996;  25 26-30
  • 6 Wilkinson L. and the Task Force on Statistical Inference, APA Board of Scientific Affairs . Statistical methods in psychology journals.  American Psychologist. 1999;  54 594-604
  • 7 Sterne J AC, Davey Smith G. Sifting the evidence - what's wrong with significance tests?.  BMJ. 2001;  322 226-231
  • 8 Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Krueger L. The empire of chance: how probability changed science and everyday life. Cambridge; Cambridge University Press 1989
  • 9 Cohen J. Things I have learned (so far).  American Psychologist. 1990;  45 1304-1312
  • 10 Cohen J. The earth is round (p < .05).  American Psychologist. 1994;  49 997-1003
  • 11 Cowles M, Davis C. On the origins of the .05 level of statistical significance. American Psychologist 1982; 37: 553 - 558, wiederabgedruckt. In: Kazdin AE (ed) Methodological issues and strategies in clinical research. 2. Aufl. Washington, DC; American Psychological Association 1998: 291-300
  • 12 Kazdin A E. Research design in clinical psychology. 3. Aufl. Needham Heights, MA; Allyn and Bacon 1998
  • 13 Rosnow R L, Rosenthal R. Statistical procedures and the justification of knowledge in psychological science.  American Psychologist. 1989;  44 1276-1284
  • 14 Cohen J. Statistical power analysis for the behavioral sciences. 2. Aufl. Hillsdale, NJ; Lawrence Erlbaum 1988
  • 15 Cohen J. A power primer.  Psychological Bulletin. 1992;  112 155-159
  • 16 Kazdin A E. The meanings and measurement of clinical significance.   J Consult Clin Psychol. 1999;  67 332-339
  • 17 Jacobson N S, Truax P. Clinical significance: A statistical approach to defining meaningful change in psychotherapy research.  J Consult Clin Psychol. 1991;  59 12-19
  • 18 Collins R, MacMahon S. Reliable assessment of the effects of treatment on mortality and major morbidity, I: clinical trials.  Lancet. 2001;  357 373-380
  • 19 Schmidt F L. Statistical significance testing and cumulative knowledge in psychology: Implications for training of researchers.  Psychological Methods. 1996;  1 115-129
  • 20 Altman D G, Machin D, Bryant T N, Gardner M J. Statistics with confidence. London; BMJ Books 2000

1 Dazu mag beigetragen haben, dass es streng genommen nicht nur ein, sondern drei Konzepte der Signifikanztestung gibt: ein frühes und ein spätes von R. A. Fisher sowie eines von J. Neyman und E. Pearson. Die beiden Konzepte von Fisher beinhalten lediglich die Nullhypothese, die anhand eines vorab definierten Signifikanzkriteriums (frühes Konzept) oder unter Angabe eines datenabhängigen p-Werts (spätes Konzept) falsifiziert werden soll. Neyman und Pearson erweiterten dieses Modell um die Alternativhypothese, die einen Effekt von einer bestimmten Größe postuliert. Zum Fehler erster Art, die Nullhypothese fälschlich abzulehnen, dessen Wahrscheinlichkeit durch das Alpha-Fehlerrisiko bestimmt wird, kommt nun ein Fehler zweiter Art, nämlich die Alternativhypothese fälschlich abzulehnen, hinzu, dessen Wahrscheinlichkeit durch das Beta-Fehlerrisiko bestimmt wird. Aus didaktischen Gründen wird diese Differenzierung in der vorliegenden Arbeit jedoch nicht durchgeführt, sondern es wird die Praxis des Signifikanztestens so dargestellt, wie sie derzeit allgemein üblich ist: als eine Mischung aus den drei Konzepten [8].

2 Eine einfache Anleitung zur Berechnung von Konfidenzintervallen für alle gängigen Kennwerte (Mittelwertsunterschiede, Häufigkeitsunterschiede, Korrelationen etc.) sowie ein entsprechendes, leicht zu bedienendes Computerprogramm bieten Altman et al. [20].

Prof. Dr. med. Dr. phil. Hermann Faller

Institut für Psychotherapie und Medizinische Psychologie

Klinikstraße 3

97070 Würzburg

eMail: h.faller@mail.uni-wuerzburg.de