Rehabilitation (Stuttg) 2008; 47(4): 243-250
DOI: 10.1055/s-2008-1077068
Methoden in der Rehabilitationsforschung

© Georg Thieme Verlag KG Stuttgart · New York

Validierung von Regressionsmodellen: Notwendigkeit und Beschreibung der wichtigsten Methoden

The Necessity of Validating Regression Models – Characterization of the Most Important MethodsR. Muche 1
  • 1Institut für Biometrie, Universität Ulm
Further Information

Publication History

Publication Date:
14 August 2008 (online)

Zusammenfassung

In der rehabilitationswissenschaftlichen Literatur werden Jahr für Jahr Studienergebnisse beschrieben, die auf Ergebnissen aus Regressionsanalysen beruhen. Der Einsatz dieser Regressionsmodelle erfolgt aber selten für die Diagnose oder Prognose des Patienten-Outcomes. Dies liegt in vielen Fällen daran, dass die sinnvolle Anwendung im rehabilitationsmedizinischen Alltag oft nicht untersucht wurde. Eine gute Modellierung des zu untersuchenden Zusammenhanges kann nicht immer auf weitere Patienten übertragen werden, da sich diese hinsichtlich wichtiger Variablen unterscheiden können. Deshalb ist es notwendig, Untersuchungen in Bezug auf diese Übertragbarkeit durchzuführen. Dies wird als Modellvalidierung bezeichnet. Wesentlicher Aspekt der Modellvalidierung ist die Untersuchung des Vorhersagefehlers, der durch eine zu optimistische Schätzung der Regressionseigenschaften erzeugt wird. Dieser Effekt entsteht durch die zweifache Nutzung des Datensatzes, einmal zur Modellentwicklung und dann zur Beurteilung der Eigenschaften. Dieser systematische Fehler (Bias) wird im Beitrag genauer beschrieben. Darüber hinaus wird eine Übersicht über mögliche Validierungsmethoden wie Kreuz- und Bootstrap-Validierung gegeben. Ein Vergleich der Verfahren und ein Beispiel schließen die Beschreibung ab.

Abstract

In rehabilitation research regression models are often used in analysing the effects of several independent factors on important outcomes in rehabilitation. But the results of such models are rarely used in rehabilitation practice for diagnosis or prognosis of patient outcomes. The main reason for this is the fact that the applicability of such models for new patient data is often unknown. A good fit of the model with respect to the data used in modeling does not guarantee a well-fitting model in the future. Thus, it is necessary to examine the performance of the model for new patient data. This examination is called model validation. The main aspect in model validation is the investigation of the prediction error caused by a too optimistic estimation of the model parameters. This prediction error is due to the twofold use of the data set: for estimating the regression coefficients and for examining the model fit. In this paper this error is discussed and the main methods for regression model validation are presented. Finally an example illustrates the effects of model validation for prognostic purposes in a logistic regression model estimating the risk of early retirement after in-patient rehabilitation.

Literatur

  • 1 Wirtz M, Morfeld M, Igl W, Kutschmann M, Leonhart R, Muche R, Schön G. Organisation methodischer Beratung und projektübergreifender Forschungsaktivitäten in multizentrischen Forschungsprogrammen – Erfahrungen der Methodenzentren im Verbundforschungsprogramm Rehabilitationswissenschaften.  Rehabilitation. 2007;  46 145-154
  • 2 Wyatt JC, Altman DG. Commentary: Prognostic models: clinically useful or quickly forgotten?.  Brit Med J. 1995;  311 1539-1541
  • 3 Deutsche Gesellschaft für Transfusionsmedizin und Immunhämatologie – DGTI . Computer-Validierung. Ein Leitfaden für die Validierung computergestützter Systeme bei Blutbanken. 3. Aufl.. 2003;  , – verfügbar unter: http://www.dgti.de/downloads/downloads/Val_Leitfaden_Auflage3_TeilA.doc , (aufgerufen 8.2.2008)
  • 4 Altman DG, Royston P. What do we mean by validating a prognostic model?.  Statist Med. 2000;  19 453-473
  • 5 Harrell Jr FE. Regression modeling strategies. New York: Springer 2001
  • 6 Efron B, Tibshirani RJ. An introduction to the bootstrap. New York: Chapman & Hall 1993
  • 7 Muche R. Die logistische Regression – ein vielseitiges Analyseinstrument rehabilitationswissenschaftlicher Forschung.  Rehabilitation. 2008;  47 56-62
  • 8 Faller H. Sensitivität, Spezifität, positiver und negativer Vorhersagewert.  Rehabilitation. 2005;  44 44-49
  • 9 Pepe MS. The statistical evaluation of medical tests for classification and prediction. Oxford: Oxford University Press 2004
  • 10 Schumacher M, Holländer N, Sauerbrei W. Resampling and cross-validation techniques: a tool to reduce bias caused by model building?.  Statist Med. 1997;  16 2813-2827
  • 11 Wagner DP, Knaus WA, Draper EA. Statistical validation of a severity of illness measure.  Am J Public Health. 1983;  73 878-884
  • 12 Davison AC, Hinkley DV. Bootstrap methods and their application. Cambridge: Cambridge University Press 1997
  • 13 Houwelingen H van, Le Cessie S. Predictive value of statistical models.  Statist Med. 1990;  9 1303-1325
  • 14 Sauerbrei W. The use of resampling methods to simplify regression models in medical statistics.  Appl Statist. 1999;  48 313-329
  • 15 Steyerberg EW, Harrell FE, Borsboom GJJM, Eijkemans MJC, Vergouwe Y, Habbema JDF. Internal validation of predictive models: efficiency of some procedures for logistic regression analysis.  J Clin Epidemiol. 2001;  54 774-781
  • 16 Harrell Jr FE. Comparison of strategies for validating binary logistic regression models. 1998;  , – verfügbar unter: http://biostat.mc.vanderbilt.edu/twiki/pub/Main/RmS/logistic.val.pdf , (aufgerufen am 8.2.2008)
  • 17 Muche R, Rösch M, Flierl S, Alt B, Jacobi E, Gaus W. Entwicklung und Validierung eines Prognosemodells zur Vorhersage der Arbeitsfähigkeit nach Rehabilitation anhand routinemäßig erhobener Parameter.  Rehabilitation. 2000;  39 262-267
  • 18 Muche R, Ring C, Ziegler C. Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression. Aachen: Shaker 2005

1 In diesem Artikel wird der Begriff Kreuzvalidierung als spezielle Methode für die interne Validierung (s. Abschnitt „Kreuzvalidierung” weiter unten) verwendet. Dieser Begriff wird in vielen Anwendungen aber auch allgemein für die Überprüfung eines Modells an neuen Daten verwendet, unabhängig von der konkreten Validierungsmethode.

Korrespondenzadresse

PD Dr. Rainer Muche

Universität Ulm

Institut für Biometrie

Schwabstr. 13

89075 Ulm

Email: rainer.muche@uni-ulm.de