Die logistische Regression - ein vielseitiges Analyseinstrument rehabilitationswissenschaftlicher Forschung

R. Muche

doi:10.1055/s-2007-992790

Subscribe to RSS

Please copy the URL and add it into your RSS Feed Reader.

https://www.thieme-connect.de/rss/thieme/en/10.1055-s-00000065.xml

Download PDF

Rehabilitation (Stuttg) 2008; 47(1): 56-62
DOI: 10.1055/s-2007-992790

Methoden in der Rehabilitationsforschung

Die logistische Regression - ein vielseitiges Analyseinstrument rehabilitationswissenschaftlicher Forschung

Logistic Regression - A Useful Tool in Rehabilitation Research[1] R. Muche¹

¹Institut für Biometrie, Universität Ulm

Further Information

Korrespondenzadresse

PD Dr. Rainer Muche

Universität Ulm

Institut für Biometrie

Schwabstr. 13

89075 Ulm

Email: rainer.muche@uni-ulm.de

Publication History

Publication Date:
04 February 2008 (online)

Also available at

PDF Download Permissions and Reprints

Table of Contents

Zusammenfassung

Häufig werden zur Klärung von Zusammenhängen zwischen Messgrößen Regressionsanalysen benutzt. Dabei bedeutet Regression die Untersuchung, inwiefern Ausprägungen einer abhängigen Variablen sich zurückführen lassen auf die Ausprägungen einer oder mehrerer unabhängiger Variablen. Somit können Modelle aufgestellt werden, um interessierende Zielgrößen anhand bekannter Messwerte schätzen zu können. In rehabilitationswissenschaftlichen Studien werden sehr häufig dichotome Zielgrößen, d. h. Merkmale mit nur zwei Ausprägungen (z. B. erwerbsfähig: ja oder nein), erhoben. Für die Modellierung einer solchen Zielgröße eignet sich das logistische Regressionsmodell. In diesem Beitrag wird dieses in der Praxis häufig angewendete Modell hergeleitet und beschrieben. Ein wichtiger Aspekt für die praktische Anwendung ist die Interpretierbarkeit der Regressionskoeffizienten. Deshalb folgt eine entsprechende Beschreibung, speziell die Schätzung des Risikos durch Vorliegen von Risikofaktoren. Anschließend wird auf Modellierungsaspekte und -probleme hingewiesen, bevor das Modell anhand eines Beispiels aus der rehabilitationswissenschaftlichen Forschung zur Prognose einer Erwerbsunfähigkeit nach stationärer Rehabilitation exemplarisch angewendet wird.

Abstract

Regression analysis is a frequently used tool to examine associations between a dependent (outcome) variable and one or more independent variables. The resulting model enables prediction of an unobserved outcome based on the observed independent variables. In rehabilitation research the dependent variable is quite often dichotomous, i. e. having just two parameter values (e. g. capable of work: yes/no). For such an outcome variable, the logistic regression model can be applied, having specific advantages in interpreting the model parameters with respect to risk factor analysis. In this paper the basics of the logistic regression model, interpretation of the model parameters and special aspects of modelling are presented. Subsequently the logistic regression model is applied to an example dataset for estimating the risk of early retirement after inpatient rehabilitation.

Schlüsselwörter

logistische Regression - dichotome Zielgröße - Odds Ratio

Key words

logistic regression - dichotomous outcome - odds ratio

Einleitung

Häufig werden zur statistischen Untersuchung von Zusammenhängen zwischen Variablen Regressionsanalysen benutzt. Dabei bedeutet Regression (engl.: regression=Zurückentwicklung, Rückbildung) die Untersuchung, inwiefern Ausprägungen einer abhängigen Variablen sich durch die Kenntnis der Ausprägungen einer oder mehrerer unabhängiger Variablen schätzen lassen.

Somit können statistische Modelle aufgestellt werden, um interessierende Zielgrößen anhand vorhandener Messwerte schätzen zu können. Das bekannteste und einfachste Modell für eine solche Beziehung ist das einfache lineare Regressionsmodell [1]. Dabei wird der statistische Zusammenhang einer erklärenden unabhängigen Variablen X auf eine stetige Zielvariable Y geschätzt mit der Geradengleichung:

β₀ und β sind dabei die Regressionskoeffizienten, die mit den vorhandenen Daten geschätzt werden. Nach Schätzung dieser Koeffizienten kann dann durch Einsetzen eines Messwertes für X in die Gleichung ein Schätzwert für den zugehörigen Wert für Y erzeugt werden. Im Falle mehrerer erklärender Variablen X ₁, X ₂, …, X _m liegt das multiple lineare Regressionsmodell vor, das durch die Gleichung

beschrieben wird. Die Bedeutung der multiplen Regressionsmodelle liegt zum einen darin, den gemeinsamen Zusammenhang mehrerer Variablen auf die Zielvariable untersuchen zu können, und zum anderen in der Möglichkeit, den interessierenden Effekt einer Variablen bezüglich anderer Variablen zu adjustieren, d. h. den Einfluss der anderen Variablen aus dem interessierenden Effekt herauszurechnen [2].

Die Ergebnisse eines solchen Regressionsmodells lassen sich vielfältig interpretieren und weiterverarbeiten. So gibt das Vorzeichen des Regressionskoeffizienten an, ob eine positive oder negative Beziehung vorliegt. Ein statistischer Test, ob die Hypothese, dass der Koeffizient gleich Null ist, mit hinreichender Sicherheit verworfen werden kann, kann die Frage klären, ob eine Einflussgröße signifikanten Einfluss auf Y hat. Mit dem linearen Bestimmtheitsmaß lässt sich die Güte der Modellanpassung überprüfen, und natürlich können grundlegend aus der Modellgleichung die Schätzwerte für Y bei Vorliegen von X bestimmt werden.

Ein Beispiel einer multiplen linearen Regression aus der Rehabilitationsforschung soll hier angeführt werden: In einer Untersuchung zur ärztlichen Beurteilung der stationären Rehabilitation im Rahmen der Qualitätssicherung wurde untersucht, ob dieses „Arzturteil” (gemessen als ein Wert auf einer visuellen Analogskala zwischen 0 und 100) durch eine Schätzung auf Basis von Routinevariablen aus dem stationären Rehabilitationsverlauf ersetzt werden kann [3]. Die stetige Zielgröße „Arzturteil” konnte dabei allerdings nur unzureichend durch 10 Routinevariablen erklärt werden (lineares Bestimmtheitsmaß um 10%), sodass gefolgert werden muss, dass die zusätzliche Erhebung des Arzturteils gerechtfertigt ist und eine zusätzliche inhaltliche Komponente bei der Beurteilung des Reha-Verlaufs darstellt.

Die hier einleitend kurz vorgestellte lineare Regression ist beschränkt auf stetige (normalverteilte) Zielgrößen. Aber nicht immer sind die Zielgrößen, die in der Forschung von Interesse sind, so verteilt. In rehabilitationswissenschaftlichen Studien werden auch sehr häufig dichotome Zielgrößen erhoben, d. h. Messgrößen mit zwei möglichen Ausprägungen - meist „ja” oder „nein” (Kodierung 1 vs. 0). Im klinischen Kontext sind damit in der Regel das Vorhandensein einer Krankheit, deren Heilung oder andere Ereignisse, wie z. B. unerwünschte Arzneimittelwirkungen, Rezidive, Arbeits- oder Erwerbsunfähigkeit gemeint.

Für die Modellierung einer solchen Zielgröße ist das lineare Regressionsmodell nicht geeignet. Das liegt unter anderem daran, dass die Schätzwerte eines linearen Regressionsmodells nicht genau 0 oder 1 annehmen, sondern bei Einsatz der Werte der Einflussgrößen theoretisch alle Werte annehmen können. Um zumindest diesen Wertebereich einzuschränken, wird hier auf ein Modell zurückgegriffen, welches nur Werte zwischen 0 und 1 annehmen kann - das logistische Regressionsmodell. Durch diese Einschränkung kommt man der Modellierung einer 0/1-Zielvariable wesentlich näher. Das logistische Regressionsmodell wird im Folgenden zuerst einmal vorgestellt, bevor auf Aspekte der Modellierung und Interpretation eingegangen wird.

Das logistische Regressionsmodell

In Studien werden sehr häufig dichotome Informationen mit zwei möglichen Ausprägungen beobachtet. Bei der Modellierung im Rahmen der Regressionsanalyse wird nun untersucht, ob und wie ein solches Ereignis (Zielgröße, Outcome) von anderen Parametern (Einfluss-, Prognosevariablen) wie z. B. dem Alter, dem Geschlecht, dem Rauchstatus des Patienten abhängt. Diese Informationen können durch Studien und/oder Register zur Verfügung stehen.

Die logistische Regression gestattet nun die Betrachtung dichotomer Zielgrößen ( Y ). Der „Trick” zur Beschreibung des Zusammenhangs von Einflussgrößen auf diese binäre Zielgröße durch ein Regressionsmodell besteht darin, dass anstelle von Y die Wahrscheinlichkeit für das Eintreten des Zielereignisses p=P( Y =1) modelliert wird. Im rehabilitationswissenschaftlichen Kontext ist die Wahrscheinlichkeit p meist ein Risiko für ein erwünschtes oder unerwünschtes Ereignis, z. B. die Erwerbsunfähigkeit, die im Beispiel in diesem Artikel weiter unten modelliert wird. Während Y nur die Werte 0 oder 1 annimmt, kann das Risiko p jede beliebige Zahl zwischen 0 und 1 annehmen.

Zur Herleitung eines Modells für diese Auswertungssituation kann man auf die Ausgangssituation eines linearen Regressionsmodells zurückgreifen, wie es in der Einleitung beschrieben wurde. Die dichotome Zielgröße wird so transformiert, dass man ein lineares Regressionsmodell anpassen kann. Folgendes Vorgehen führt dann zum logistischen Regressionsmodell: Die Chance (engl.: odds), definiert als p/(1-p), kann jede beliebige positive Zahl annehmen. Logarithmiert man die Chance log[p/(1-p)], so können alle reelle Zahlen von minus bis plus unendlich angenommen werden. Dieser Ausdruck wird logit genannt. Für diesen logit wird nun ein lineares Regressionsmodell (wie in Formel 2 für mehrere erklärende Variablen X ₁ , …, X _m ) angenommen als:

Dieser Ausdruck in Formel 3 ist mathematisch äquivalent mit folgender Formel 4 (nach Auflösung nach p). Dabei sind β ₀, …, β _m die Regressionskoeffizienten und x ₁, …, x _m die m Einflussvariablen, deren gleichzeitiger Einfluss auf die Zielgröße in einer Exponentialfunktion betrachtet wird.

Der rechte Term der Gleichung in Formel 4 stellt die sog. logistische Funktion dar. Daher erklärt sich die Bezeichnung „logistische Regression”. Somit wird die Wahrscheinlichkeit für das Auftreten des Ereignisses ( Y =1) in Abhängigkeit einer oder mehrere Einflussvariablen ( X ₁ , …, X _m ) modelliert. Diese Einflussvariablen können hier stetig, dichotom oder mehrstufig kategorial sein, wobei auf die unterschiedliche Modellierung solcher Einflussgrößen im Folgenden noch eingegangen wird. Das Modell erzeugt eine S-förmige Risikofunktion für das Auftreten des Ereignisses Y , welche beispielhaft in [Abb. 1] für eine Einflussgröße X zu sehen ist. Man erkennt, dass die Wahrscheinlichkeit für das Eintreten des Ereignisses auf der Y-Achse zunimmt bei Erhöhung der Werte von X . Dabei gibt es Bereiche, bei denen sich die Wahrscheinlichkeit kaum ändert und ein Wertebereich von X , in dem die Eintretenswahrscheinlichkeit von Y schnell von nahe 0 auf nahe 1 ansteigt.

*Abb. 1* Beispielhafter Verlauf der Wahrscheinlichkeit für das Eintreten eines Ereignisses in einer logistischen Regressionsfunktion zwischen 0 und 1 in Abhängigkeit von einer Variablen X.

Im Rahmen der Modellentwicklung wird das betrachtete Modell an die gegebenen Daten angepasst. Dabei werden die Regressionskoeffizienten mit Hilfe einer speziellen Schätzmethode, der Maximum-Likelihood(ML)-Methode, geschätzt [4]. Hat man nun die Regressionskoeffizienten geschätzt, kann man die individuellen Patientendaten X ₁ , …, X _m in die Gleichung der Formel 4 einsetzen und erhält so für jeden Patienten dessen individuelles Risiko für das interessierende Ereignis. Liegt dies nahe bei 0 oder 1, kann dies mit der Prognose des Ereignisses bzw. des Nicht-Ereignisses gleichgesetzt werden. Sollte das Risiko dazwischen liegen, kann ein Trennpunkt identifiziert werden, der die Prognose als 0 oder 1 zulässt. Das Vorgehen wird weiter unten noch genauer beschrieben.

Ziel dieses Abschnittes war es, das logistische Regressionsmodell kurz vorzustellen. An dieser Stelle sei angemerkt, dass sich die Beschreibung der logistischen Regression auf die wesentlichsten Eigenschaften beschränkt. Für weitere Informationen sei auf die umfangreiche Literatur verwiesen, z. B. auf gut lesbare Standardlehrbücher [4] [5] [6]. Darüber hinaus gibt es eine Vielzahl kurzer Einführungen, u. a. die tutoriellen Veröffentlichungen von Bender [2], Diaz-Bone [7], Erlinghagen [8], Hupfeld [9] und Koch [10].

Interpretation der Regressionskoeffizienten - das Odds Ratio

Die geschätzten Regressionskoeffizienten der logistischen Regression lassen sich in vielfacher Weise interpretieren [11] [12]:

Die jeweiligen Vorzeichen der signifikanten Einflussvariablen geben die Richtung des Einflusses an. Bei positiven Regressionskoeffizienten tendiert die Wahrscheinlichkeit mit zunehmendem Wert der Einflussgröße gegen 1, bei negativen gegen 0. Ist das Eintreten eines interessierenden negativen Outcomes mit 1 kodiert, ergibt z. B. das Vorhandensein einer Exposition mit zugehörigem positiven Regressionskoeffizienten eine Verschlechterung der Prognose.
Die Stärke des Zusammenhanges kann vorsichtig interpretiert zum Beispiel durch den p-Wert eines zugehörigen Tests (z. B. Wald-, Score-Test) beschrieben werden. Da die Signifikanz aber auch von der Fallzahl abhängt, sollten für eine genauere Beurteilung entsprechende Effektstärken und das Konfidenzintervall des Regressionskoeffizienten mit betrachtet werden [13].
Ein in der Epidemiologie und Risikoforschung bekanntes und weit verbreitetes Maß für den Zusammenhang zwischen einer Einfluss- und der Zielgröße ist das Odds Ratio (OR). Das Odds Ratio gibt den Faktor an, um den sich das Risiko für das Ereignis Y =1 bei Vorliegen von X im Vergleich zum Nicht-Vorhandensein von X erhöht. Ist das Odds Ratio beispielsweise als 2 geschätzt, so bedeutet dies eine doppelt so hohe Eintretenswahrscheinlichkeit für das Ereignis bei Vorliegen von X (x=1) gegenüber der Situation, dass X nicht vorliegt. Eine gute Einführung in das Odds Ratio findet sich in [14]. Bei mehrstufigen bzw. stetigen Einflussgrößen gibt das Odds Ratio diese Erhöhung bei Veränderung der Einflussgröße um eine Einheit an. Das Odds Ratio für die Erhöhung des Risikos bei Veränderung der betrachteten Variablen X um eine Einheit kann direkt aus der logistischen Regression bestimmt werden durch die Rechenvorschrift: OR=exp (ß), also durch Exponieren vom Regressionskoeffizienten. Dabei ist β der zu X gehörige Regressionskoeffizient [4]. Die Gleichung gilt in dieser Form bei Kodierung mit den Ausprägungen 0 und 1, andernfalls muss der numerische Abstand der kodierten Kategorien bzw. der Abstand der Ausprägungen bei stetigen Merkmalen berücksichtigt werden.
Bei der multiplen logistischen Regression sind dann analog zum multiplen linearen Regressionsmodell die aus dem Modell geschätzten Regressionskoeffizienten und nachfolgend auch die zugehörigen p-Werte und Odds Ratios jeweils adjustiert bezüglich der anderen im Modell befindlichen Variablen. Dies bedeutet, dass rechnerisch der Effekt der weiteren Variablen aus der einzelnen Risikobeziehung zwischen einer Einflussgröße und der Zielvariable herausgerechnet ist und so der direkte Effekt untersucht werden kann. Möchte man also die Risikoerhöhung durch ein Merkmal alters- und geschlechtsadjustiert durch ein Odds Ratio schätzen, so hat man die Variablen Alter und Geschlecht mit in das Modell aufzunehmen und kann dann das gewünschte Odds Ratio des interessierenden Merkmals entsprechend interpretieren.

Wichtige Aspekte bei der Modellentwicklung

Dieser Abschnitt gibt einen Überblick über wichtige Aspekte der Modellierung, welche die Auswertungsstrategie für die logistische Regression und damit die Anwendung wesentlich bestimmen. Ziel ist keine umfassende Beschreibung und Diskussion, sondern eine Sensibilisierung, die der Vorbereitung und dem Verständnis für Einschränkungen der Nutzung dieses Modells in der Praxis dient. Darüber hinausgehende Informationen und grundlegende Beiträge sind in den Lehrbüchern von Harrell [1] sowie von Hosmer und Lemeshow [4] zu finden.

Gleichzeitige Untersuchung mehrerer Einflussgrößen

Multiple Regressionsmodelle allgemein, also auch die multiple logistische Regression, ermöglichen es, den gleichzeitigen Einfluss mehrerer Variablen auf die Zielgröße zu modellieren. Dadurch wird der Einfluss der einzelnen Variable auf den Outcome um den Einfluss der übrigen im Modell befindlichen Variablen adjustiert.

Überprüfung der Bedeutung von Variablen im Modell

Aus den Eigenschaften der Regressionskoeffizienten lassen sich statistische Tests (z. B. Wald-, Score-Test) ableiten, die prüfen, ob die Variable einen statistischen Einfluss auf die Zielgröße zeigt. Die p-Werte dieser Tests werden deshalb z. B. zur Variablenselektion genutzt (siehe dort).

Modellierung nicht-monotoner Risikobeziehungen

Aus der Modellgleichung und den zur Berechnung des Odds Ratios abgeleiteten Gleichungen wird deutlich, dass die logistische Regression die Beziehung zwischen dem logit der modellierten Wahrscheinlichkeit und der Einflussvariable linear modelliert, was bei gleicher Veränderung der Einflussvariablen unabhängig vom Ausgangswert zur gleichen Risikoerhöhung führt. Demzufolge wäre z. B. das Risiko zu erkranken für einen 10 Jahre älteren Patienten dasselbe, egal, ob sich diese Veränderung von 30 auf 40 Jahre oder von 60 auf 70 Jahre bezieht. Diese Modellannahme ist zumindest empirisch zu überprüfen. Gilt die Linearität (oder wenigstens Monotonie) dieser Risikobeziehung für stetige Einflussvariablen nicht, besteht eine Möglichkeit darin, den tatsächlichen Zusammenhang durch Kategorisierung und damit verbundener Dummy-Kodierung (s. [Tab. 1]) adäquater abzubilden. Einer besseren Modellierung der Risikobeziehung steht dabei jedoch ein Informationsverlust durch die Kategorisierung entgegen.

*Tab. 1* Beispiel für Dummy-Kodierung
Dazu wird eine Einflussgröße X mit drei Kategorien gegeben: X =1: Nichtraucher, X =2: Exraucher, X =3: Raucher
Modelliert wird die Beziehung zu einer Krankheit Y durch das folgende logistische Regressionsmodell dann als:

Das Odds Ratio wird danach durch OR=exp(ß₁.ΔX) und demnach die Risikosteigerungen zwischen den Expositionsausprägungen geschätzt als:

Nicht immer ist eine Modellierung einer solchen monotonen, äquidistanten Risikosteigerung mit jeweils gleichem OR bei kategorialen Einflussgrößen inhaltlich sinnvoll. Abhilfe schaffen kann dann eine Dummy-Kodierung, indem die einzelnen Risikosprünge einzeln modelliert werden. In dem obigen Beispiel würde eine Dummy-Kodierung durch zwei Dummy-Variablen X₁ und X₂ folgendermaßen aussehen:
X ₁ =1: Exraucher, X₁ =0: sonstiges
X₂ =1: Raucher, X₂ =0: sonstiges
Nichtraucher sind so repräsentiert durch X₁ =0 und X₂ =0.
Das logistische Regressionsmodell wird nun folgendermaßen aufgestellt:

und man erhält somit einzelne individuelle Risikoabschätzungen zwischen den Kategorien, wobei durch die Definition der Dummy-Variablen die Kategorie Nichtrauchen als Referenzkategorie fungiert:

Ein weiteres Problem ist die Modellierung der Odds Ratios und der Koeffizienten für kategoriale Variablen. Wie eben ausgeführt, gehen bei direkter Nutzung der Variablen nur die Abstände zwischen den Kategorien in die Berechnung ein. Dies ist meist nicht sinnvoll, da die Risiken zwischen verschiedenen Kategorien nicht immer als gleich vorausgesetzt werden können. Hier kommt erschwerend hinzu, dass die Ausprägungen für die Kategorien meist frei gewählt werden können und demnach schon durch diese Wahl die Regressionskoeffizienten und somit das Odds Ratio verändert werden. Das Beispiel in [Tab. 1] soll die Problematik verdeutlichen.

Allerdings erhöht sich durch die Dummy-Kodierung die Anzahl der Koeffizienten, die zu schätzen sind. Die Anzahl Koeffizienten pro kategorialer Variable bei Dummy-Kodierung ergibt sich als die Anzahl der Ausprägungen minus 1. Das bedeutet, dass die Anzahl der Koeffizienten stark ansteigt, wenn viele kategoriale Variablen zu modellieren sind. Deshalb ist es sicher sinnvoll, an dieser Stelle durch Betrachtung der Anteile der Outcomevariablen für jede Merkmalsausprägung in der Häufigkeitstabelle nachzuschauen, ob nicht doch die Annahme einer monotonen, linearen Risikofunktion gerechtfertigt ist. In der Regel sollten die Variablen aber für eine inhaltlich sinnvolle Modellierung kategorialer Variablen durch entsprechende Dummy-Variablen ersetzt und in das Modell eingebracht werden.

Zur Überprüfung des Einflusses einer Einflussgröße ist jetzt allerdings nicht der p-Wert der einzelnen Dummy-Variable, sondern der p-Wert eines simultanen Tests mit der Hypothese, dass alle Regressionskoeffizienten der zusammengehörigen Dummy-Variablen gleich Null sind, zu berücksichtigen. Dieser wird üblicherweise in der Statistiksoftware mit ausgegeben.

Die logistische Regression als Prognosemodell - Die Güte der Modellanpassung

Mit der Funktionsgleichung aus der logistischen Regression wird eine Prognoseregel definiert. Dabei wird durch Eingabe der Werte der Einflussgrößen die Wahrscheinlichkeit für das Eintreten des Ereignisses geschätzt. Bei einer solchen Anwendung ist nun zu prüfen, wie gut diese Regel das Ereignis vorhersagen kann. Dazu werden verschiedenste statistische Kenngrößen (sog. Prognosegütemaße) herangezogen. Dazu ist eine Receiver-Operating-Characteristic(ROC)-Analyse durchzuführen [15], die u. a. anhand von Sensitivitäten und Spezifitäten die Güte des Modells untersuchen lässt [16].

Folgendermaßen wird dabei verfahren. Die Prognosegüte wird anhand einer Reklassifikation der zur Verfügung stehenden Daten bestimmt. Dazu werden die Daten der Einflussgrößen jeder Beobachtung in die Modellgleichung eingesetzt. Anhand der Funktionsgleichung kann auf diese Weise für jeden Patienten die Wahrscheinlichkeit für das Eintreten des Ereignisses geschätzt werden. Diese Wahrscheinlichkeit wird dem beobachteten Wert (entweder 0 oder 1) gegenübergestellt. Damit ist man in der Situation einer Klassifikation, bei der auf der Grundlage einer stetigen Variablen (hier die Wahrscheinlichkeit) die Zuordnung zu einer von zwei Gruppen (hier Y =0 oder Y =1) untersucht werden soll. Hierfür werden üblicherweise Kenngrößen wie Sensitivität und Spezifität bestimmt, die vor allem in der klinischen Diagnostik zur Untersuchung der Sicherheit diagnostischer Verfahren bevorzugt eingesetzt werden. Der Beitrag von Faller in dieser Reihe zeigt die Möglichkeiten dafür auf [16].

Um diese Klassifikation durchzuführen, muss die stetige Vorhersagewahrscheinlichkeit anhand eines Grenzwertes (GW) unterteilt werden, sodass Personen mit p > GW der Wert 1 und entsprechend den Personen mit p ≤ GW der Wert 0 zugeteilt wird. Anhand der so entstehenden Vier-Felder-Tafel können anschließend die Gütemaße bestimmt werden. Daneben sollten aber auch globale, vom Grenzwert unabhängige Maße angegeben werden. In der Literatur (z. B. [1]) werden einige Maße beschrieben. Das wohl bekannteste unter diesen Maßen ist die Fläche unter der ROC-Kurve [15], welche die Übereinstimmung zwischen dem aus dem logistischen Prognosemodell vorhergesagten und dem beobachteten Ereignis über alle möglichen Grenzwerte repräsentiert.

Die Güte der Modellanpassung wird daran bemessen, ob bzw. wie gut der modellvorhergesagte Wert (oberhalb bzw. unterhalb des GW) mit dem beobachteten Wert übereinstimmt. Die Güte wird in der Regel mit Hilfe spezieller statistischer Tests geprüft. Dabei wird von der (Null-)Hypothese ausgegangen, dass sich die beobachteten und die vorhergesagten Werte nicht unterscheiden. Demzufolge weist ein signifikanter Test auf größere Abweichungen des Modells von den Daten hin, während eine Nicht-Signifikanz im Gegensatz dazu nicht unbedingt als Nachweis der Güte gewertet werden kann. Nicht-signifikante Testergebnisse sollten deshalb nicht überbewertet werden. Hosmer und Lemeshow [4] empfehlen einen nach ihnen benannten Test, der auf einer Gruppierung der Beobachtungen auf der Basis der geschätzten Wahrscheinlichkeiten beruht.

Variablenselektion und Overfitting

Ziel der Modellierung ist es häufig, die inhaltlich und aus statistischer Sicht für Modellanpassung und Prognose einflussreichsten Variablen in das Modell einzubeziehen. Für die logistische Regression gibt es eine Vielzahl von Verfahren und Möglichkeiten der Variablenselektion (Übersicht z. B. in [17]). Die bekanntesten automatischen Selektionsverfahren sind die Backward-, Forward- und Stepwise-Selektion, die iterativ Variablen aus dem Modell entfernen bzw. in das Modell aufnehmen. Motivation für das Einbeziehen der einflussreichsten Variablen bzw. das Weglassen einflussloser Variablen ist u. a. das Problem des sog. „Overfittings”. Overfitting tritt auf, wenn das Modell im Vergleich zum Informationsgehalt der Daten zu viele zu schätzende Parameter besitzt [1]. Die Folge sind in der Regel instabile Schätzungen der Regressionskoeffizienten. Im Vergleich zu einem Modell, das sich auf weniger, aber wesentliche Einfluss-größen beschränkt, führt ein überdimensioniertes Modell bei Anwendung auf neue Daten durch eine eingeschränkte Verallgemeinerbarkeit/Allgemeingültigkeit zu schlechteren Prognosen.

Die Anzahl der Variablen, die in ein Modell aufgenommen werden können, ist nicht unbeschränkt. Dabei ist hier nicht die Gesamtfallzahl des Datensatzes entscheidend, sondern das Minimum der Anzahl der Ereignisse (Events, Y =1) bzw. Nicht-Ereignisse (Non-Events, Y =0) [1]. Das Verhältnis dieses Minimums zur Anzahl der Variablen wird mit EPV („events per variable”) bezeichnet und sollte bei der Entwicklung eines logistischen Prognosemodells möglichst hoch (etwa 50), jedenfalls nicht unter 10-20 liegen [18]. Da in den meisten Forschungsprojekten eine große Anzahl möglicher Einflussgrößen erhoben wird, ist vor der Modellentwicklung vielfach eine inhaltliche Beschränkung auf die wichtigsten Variablen notwendig.

Wechselwirkungen

Neben den einzelnen Einflussvariablen können im logistischen Modell auch Wechselwirkungen zwischen mehreren Variablen als weitere Einflussgrößen berücksichtigt werden. Das erhöht die Anzahl zu schätzender Modellparameter und hat Einfluss auf die Berechnung der Odds Ratios und die Modellinterpretation. Die Existenz einer Wechselwirkung führt im einfachsten Fall dazu, dass nicht einfach nur von einem Zusammenhang zwischen einer Einfluss- und einer Zielgröße gesprochen werden kann, sondern dass dieser Zusammenhang für die verschiedenen Ausprägungen der zweiten Wechselwirkungsvariablen unterschiedlich ausgeprägt ist, z. B. unterschiedliche Wahrscheinlichkeiten für ein Ereignis je nach Geschlecht der Patienten. Eine solche Modellierung ist häufig inhaltlich sinnvoll, aber je mehr Wechselwirkungen ein Modell enthält, umso schwieriger wird demzufolge die Interpretation.

Ein Beispiel aus der Rehabilitationsforschung

Zur Beurteilung der Effektivität von Rehabilitationsmaßnahmen spielt vor allem das Behandlungsergebnis eine wichtige Rolle. Ein wesentlicher Outcome ist dabei langfristig der Erhalt der Erwerbsfähigkeit. Für eine effektive Rehabilitation ist es deshalb wichtig, jene Patienten möglichst früh zu erkennen, denen aller Wahrscheinlichkeit nach eine spätere Erwerbsunfähigkeit droht, um z. B. unterstützende Maßnahmen bereits während der Rehabilitationsmaßnahme oder in einer entsprechenden Nachsorge durchführen zu können. Als Beispiel in dieser Arbeit dient die im Rehabilitationswissenschaftlichen Verbund Ulm durchgeführte Untersuchung, wie gut mit einem Prognosemodell mittelfristig (1-2 Jahre) nach einer stationären Rehabilitationsmaßnahme eine Erwerbsunfähigkeit prognostiziert werden kann [19]. Dabei sollen die Informationen zu den Patienten ausschließlich auf routinemäßig zu Beginn eines stationären Reha-Aufenthaltes erfassten Variablen basieren. Die Vorhersage einer drohenden späteren Erwerbsunfähigkeit kann dann möglicherweise einen Beitrag dazu leisten festzustellen, welche Patienten nicht von einer nur konventionellen Rehabilitationsbehandlung profitieren, sondern darüber hinaus einer unterstützenden Behandlung oder intensivierten Betreuung noch während der Rehabilitationsbehandlung oder einer entsprechenden Nachsorge im Anschluss bedürfen. Bei Patienten mit hoher Wahrscheinlichkeit einer drohenden Erwerbsunfähigkeit könnten also konsequentere Maßnahmen getroffen werden, die dies verhindern könnten.

Die statistische Auswertung schloss 841 behandelte Patienten ein, die ein stationäres Heilverfahren durchführten. Spezielle Ausschlusskriterien gab es nicht, um ein möglichst repräsentatives Kollektiv zu erhalten. Insgesamt wurden n=131 (15,6%) Erwerbsunfähigkeitsrentner und n=710 (84,4%) Erwerbstätige beobachtet.

Zur Untersuchung der Prognose der Erwerbsunfähigkeit nach der stationären Rehabilitation zum Zeitpunkt des Beginns der Rehabilitation wurden 17 potentielle Einflussvariablen identifiziert. Diese umfassen neben Daten zum Patienten selbst (z. B. Alter, Geschlecht, Beruf), zur Krankengeschichte (z. B. Diagnosen, Arbeitsfähigkeit) und zum Klinikaufenthalt (z. B. Kostenträger, Aufenthaltsdauer) auch die Daten aus dem standardisierten Reha-Entlassungsbericht. Bei der Variablenauswahl konnte sowohl auf die Gesamteinschätzung des Reha-Status durch den behandelnden Arzt als auch durch den Patienten selbst hinsichtlich aktuellem Wert bei Aufnahme und angestrebtem Zielwert zurückgegriffen werden. Ebenfalls standen aus einem Patientenfragebogen, den der Patient zu Beginn der Rehabilitation ausfüllte, folgende individuelle Patientenvariablen zur Verfügung: Sorgen um die Gesundheit, Beurteilung des Leistungsvermögens im Beruf und Sorgen, den Beruf aus gesundheitlichen Gründen aufgeben zu müssen. Bei der Modellentwicklung konnte somit auf sämtliche (theoretisch) zu Beginn vorhandene Routinedaten zurückgegriffen werden.

Das Ergebnis der Anwendung der verschiedenen Aspekte der Modellierung eines logistischen Regressionsmodells [20] nach einer Backward-Variablenselektion wird in [Tab. 2] dargestellt. Die Modellanpassung ist hier als gut zu bezeichnen (s. Anpassungsmaße in der Legende zu [Tab. 2]), sodass eine inhaltliche Interpretation der Ergebnisse erlaubt ist. Es zeigt sich, dass mehrere der 17 vorgegebenen Variablen bei der gewählten Konstellation aus dem Modell entfernt werden. Die p-Werte geben an, dass in diesem Modell die Variablen Alter (p < 0,0001), Arbeitsunfähigkeit (AU) (p=0,0007) und Leistung (p=0,0011) den größten prognostischen Zusammenhang zur Erwerbsunfähigkeitsrente zeigen. Alle anderen Variablen zeigen mit p-Werten zwischen 0,0267 und 0,1144 nur grenzwertigen Zusammenhang. Die Vorzeichen der Regressionskoeffizienten und Odds Ratios zeigen weiter, dass mit zunehmendem Alter, vermehrten Arbeitsunfähigkeitszeiten und geringerer Leistungsfähigkeit im Beruf vor der stationären Rehabilitation die Wahrscheinlichkeit für eine Erwerbsunfähigkeitsrente steigt. So zeigt z. B. das Odds Ratio von 1,11 für Rehabilitanden mit 3-6 Monaten AU-Zeit in den letzten 12 Monaten eine nur geringe Risikoerhöhung (11%) für eine Frühberentung gegenüber Personen mit weniger als 3 Monaten AU an. Ist die AU-Zeit allerdings länger als 6 Monate, so erhöht sich das Rentenrisiko auf mehr als das 3-fache (OR=3,32) gegenüber der Referenzkategorie. Nicht-Erwerbstätige haben ein etwa 2-faches Risiko für eine Frühberentung gegenüber erwerbstätigen Patienten mit weniger als 3 Monaten AU-Zeit. Entsprechend können die Odds Ratios bei den anderen Variablen interpretiert werden. Dabei zeigt sich, dass bei der Leistungsfähigkeit und bei der Sorge wegen Berufsaufgabe eine monotone Risikobeziehung besteht, da das Risiko für eine Frühberentung kontinuierlich steigt, wenn die Situation des Patienten sich in diesen Variablen von Kategorie zu Kategorie verschlechtert. Bei Variablen wie „Besorgnis wegen Gesundheit” und „Anzahl Reha-Maßnahmen” ist diese monotone Risikobeziehung allerdings nicht zu sehen, hier werden anders geartete Effekte zugrunde liegen. Eine Modellierung ohne Dummy-Kodierung (wie hier zu sehen) hätte diese Effekte an dieser Stelle nicht gezeigt. Ein negatives Vorzeichen des Regressionskoeffizienten zeigt ein geringeres Rentenrisiko gegenüber der Referenzkategorie an. So ist z. B. ein Diagnosezusatz auf dem Blatt 1a ein Marker für ein geringeres Risiko für eine Frühberentung. Patienten mit einem solchen Zusatz haben ein etwa nur halb so hohes Rentenrisiko gegenüber Patienten ohne diesen Zusatz (OR=0,48).

*Tab. 2* Das Prognosemodell nach der Modellentwicklung (aus: [20])
Variable	p-Wert	Ausprägung	β	OR (95 %KI)
Alter	<0,0001		0,1183	1,13 (1,08, 1,17)
Arbeitsunfähigkeit in den letzten 12 Monaten	0,0007	<3 Monate	•	•
		3-6 Monate	0,1054	1,11 (0,54, 2,27)
		> 6 Monate	1,2003	3,32 (1,79, 6,15)
		nicht erwerbstätig	0,6590	1,93 (0,32, 11,86)
Leistung bei letzter Tätigkeit	0,0011	Vollschicht	•	•
		Halb- bis <Vollschicht	1,4554	4,29 (1,19, 15,40)
		2 Std. bis Halbschicht	1,8613	6,43 (1,68, 24,56)
		<2 Std. bis Vollschicht	2,4383	11,45 (3,04, 43,16)
Geschlecht	0,0267	männlich	•	•
		weiblich	-0,7347	0,48 (0,25, 0,92)
Diagnosezusatz	0,0343	nein	•	•
		ja	-0,7323	0,48 (0,24, 0,95)
Besorgnis wegen Gesundheit	0,0453	2	•	•
		3	-2,0195	0,13 (0,02, 0,77)
		4	0,2253	1,25 (0,44, 3,58)
		5	0,1363	1,15 (0,39, 3,41)
Diagnose		0,0744	Arthropathien	•	•
		Dorsopathien	-0,6752	0,51 (0,28, 0,93)
		Sonstige	-0,0699	0,93 (0,37, 2,33)
Anzahl Reha-Maßnahmen	0,0788	1	•	•
		2	0,5444	1,72 (0,90, 3,29)
		3	1,0448	2,84 (1,35, 5,97)
		4	0,2819	1,33 (0,52, 3,38)
		5 und mehr	0,7124	2,04 (0,81, 5,15)
Sorge wegen Berufsaufgabe	0,0969	2	•	•
		3	0,4607	1,59 (0,40, 6,24)
		4	0,7851	2,19 (0,64, 7,46)
		5	1,2728	3,57 (1,04, 12,22)
Heilverfahrensart	0,1144	Heilverfahren	•	•
		Anschlussheilbehandlung	0,5958	1,82 (0,87, 3,80)
(Variablensortierung nach p-Wert, β: Regressionskoeffizient, OR: Odds Ratio, KI: Konfidenzintervall, •: Referenzkategorie, Intercept: -10,5544, Anpassungs-/Prognosegüte: R²=0,42, Hosmer-Lemeshow-Test: p=0,894, AUC=0,88)

Die Anwendung des Modells für eine individuelle Prognose der Erwerbsunfähigkeit kann folgendermaßen aufgezeigt werden. Als Beispielpatient wird ein 46 Jahre alter männlicher Patient mit Diagnose Arthropathie (ohne zusätzliche Angaben) betrachtet, der nach stationärem Aufenthalt als Anschlussheilbehandlung in die stationäre Rehabilitation aufgenommen wird. Es ist seine zweite Rehabilitationsmaßnahme wegen dieses Leidens. In den letzten 12 Monaten war er insgesamt 4 Monate arbeitsunfähig, am Schluss konnte er nur noch maximal 4 Stunden pro Tag arbeiten. Im Patientenfragebogen gibt er an, dass er sich große Sorgen in Bezug auf seine Gesundheit (4) und seine weitere berufliche Perspektive (Sorge wegen Berufsaufgabe: 4) macht. Die Wahrscheinlichkeit für eine Erwerbsunfähigkeitsrente in den nächsten 1-2 Jahren wird somit nach obigem logistischen Regressionsmodell (s. [Tab. 2]) geschätzt als:

Dabei sind die Merkmale jeweils mit den in der [Tab. 2] dokumentierten Regressionskoeffizienten multipliziert und in der entsprechenden Reihenfolge in die Formel eingesetzt worden. Die geschätzte Wahrscheinlichkeit für eine Erwerbsunfähigkeitsrente beträgt für den Beispielpatienten demnach etwa 27%, wobei hier auf eine Angabe der Sicherheit dieser individuellen Prognose über ein Konfidenzintervall verzichtet wird.

Fazit

Die logistische Regression ist nach den hier beschriebenen Ausführungen ein sehr nützliches Analyseinstrument, nicht nur in der Rehabilitationsforschung. Sehr häufig liegt eine dichotome Zielgröße vor, die in Bezug auf Risikofaktoren und deren quantitative Einflüsse auszuwerten ist. Die gute Interpretierbarkeit des Modells gerade im Hinblick auf die Risikofaktorstrukturen und deren Einflüsse hat dazu geführt, dass das logistische Regressionsmodell heute eines der am häufigsten genutzten Regressionsmodelle darstellt.

Was aber (hoffentlich) auch in diesem Beitrag klar wird, ist, dass es bei der Nutzung des Modells einiges zu bedenken gibt. Die Probleme reichen von der Anzahl der Variablen im Modell über die Dummy-Kodierung kategorialer Variablen und die Modellgüte bis hin zu weiteren, hier nicht explizit erwähnten allgemeinen Problemen der Modellierung multipler Regressionsmodelle.

Ein wichtiger Aspekt der Nutzung der logistischen Regression ist es, dass sie heutzutage in allen wichtigen Statistiksoftwarepaketen enthalten ist, so z. B. in SPSS, SAS [5], Stata, R bzw. S-Plus, JMP. Der Umfang an Möglichkeiten, die Modellierung festzulegen, ist dabei allerdings recht unterschiedlich. So sind nicht in allen Softwarepaketen die Möglichkeiten und Modellierungsprobleme der logistischen Regression steuerbar. Für die Modellierung logistischer Prognosemodelle mit SAS stellt der Autor ein umfangreiches SAS-Makro-Paket zur Verfügung, das unter: www.uni-ulm.de/biometrie/prognosemakros.html mit weiteren Hintergrundinformationen zu beziehen ist. Die Beschreibung und Eigenschaften der Makros finden sich in der zugehörigen Monographie [20].

Insgesamt betrachtet ist der Gebrauch des Modells in der Forschungssituation oft anzuraten, als Anwender sollte man sich aber über die Literatur weiter informieren und/oder die Hilfestellung entsprechend methodisch ausgebildeter Kolleginnen und Kollegen nutzen.

Literatur

1 Harrell Jr FE. Regression modeling strategies. New York: Springer 2001
2 Bender R, Ziegler A, Lange S. Logistische Regression. Deut Med Wochenschr. 2002; 127 T11-T13

Search in Google Scholar
Download RIS citation
3 Muche R, Kaluscha R, Jacobi E. Ist das ärztliche Urteil in der Qualitätssicherung stationärer Rehabilitation bei Patienten mit Erkrankungen des Bewegungsapparates durch Routineparameter zu ersetzen? Eine Untersuchung an 12.014 Beobachtungen. Z ärztl Fortbild Qual Sich. 2005; 99 51-56

Search in Google Scholar
Download RIS citation
4 Hosmer DW, Lemeshow S. Applied logistic regression. 2. Aufl. New York: John Wiley, 2000
5 Allison PD. Logistic regression using the SAS system. Cary, NC: SAS Institute Books by Users, 1999
6 Kleinbaum DG, Klein M. Logistic regression - A self-learning text. 2. Aufl. New York: Springer, 2002
7 Diaz-Bone R. Eine kurze Einführung in die logistische Regression und binäre Logit-Analyse. 2003; , - verfügbar unter: http://www.agis.uni-hannover.de/EQQS/modulijk/Logistische_Regression.pdf , (aufgerufen 7.8.2007)

Search in Google Scholar
Download RIS citation
8 Erlinghagen M. Die binäre Logistische Regression - ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung. 2003; , - verfügbar unter: http://www.iatge.de/aktuell/veroeff/2003/erling07.pdf , (aufgerufen am 7.8.2007)

Search in Google Scholar
Download RIS citation
9 Hupfeld J. Logistische Regression - Eine Einführung. 1999; , - verfügbar unter: http://www.psy.unibe.ch/soz/team/pdf/hupfeld/Hupfeld1999c.pdf , (aufgerufen am 7.8.2007)

Search in Google Scholar
Download RIS citation
10 Koch A. Logistische Regression zur Modellierung von Binärdaten. 1999; , - verfügbar unter: http://www.urz.uni-heidelberg.de/statistik/sas-ah/2.2.2/LogistischeRegression.html , (aufgerufen am 7.8.2007)

Search in Google Scholar
Download RIS citation
11 Abbott RD, Carroll RJ. Interpreting multiple logistic regression coefficients in prospective observational studies. Am J Epidemiol. 1984; 119 830-836

Search in Google Scholar
Download RIS citation
12 Greenland S. Limitations of the logistic analysis of epidemiologic data. Am J Epidemiol. 2002; 110 693-698

Search in Google Scholar
Download RIS citation
13 Faller H. Signifikanz, Effektstärke und Konfidenzintervall. Rehabilitation. 2004; 43 174-178

Thieme Connect Search in Google Scholar
Download RIS citation
14 Bland JM, Altman DG. The odds ratio. BMJ. 2000; 320 1468

Crossref Search in Google Scholar
Download RIS citation
15 Pepe MS. Receiver operating characteristic methodology. J Am Stat Assoc. 2000; 95 308-311

Crossref Search in Google Scholar
Download RIS citation
16 Faller H. Sensitivität, Spezifität, positiver und negativer Vorhersagewert. Rehabilitation. 2005; 44 44-49

Thieme Connect Search in Google Scholar
Download RIS citation
17 Muche R. Variablenselektion in Kohortenstudien. Dissertation. Ulm: Universität Ulm 1995

Search in Google Scholar
18 Peduzzi PN, Concato J, Kemper E, Holford TR, Feinstein A. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol. 1996; 99 1373-1379

Search in Google Scholar
Download RIS citation
19 Muche R, Rösch M, Flierl S, Alt B, Jacobi E, Gaus W. Entwicklung und Validierung eines Prognosemodells zur Vorhersage der Arbeitsfähigkeit nach Rehabilitation anhand routinemäßig erhobener Parameter. Rehabilitation. 2000; 39 262-267

Thieme Connect Search in Google Scholar
Download RIS citation
20 Muche R, Ring C, Ziegler C. Entwicklung und Validierung von Prognosemodellen auf der Basis der logistischen Regression. Aachen: Shaker, 2005

1 Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung ”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr.Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann,Siegburg Interessenten, die einen Beitrag zur Reihe beisteuernmöchten, werden gebeten, vorab Kontakt aufzunehmen,Email: E-Mail: christian.zwingmann@web.de

Korrespondenzadresse

PD Dr. Rainer Muche

Universität Ulm

Institut für Biometrie

Schwabstr. 13

89075 Ulm

Email: rainer.muche@uni-ulm.de

Literatur

1 Harrell Jr FE. Regression modeling strategies. New York: Springer 2001
2 Bender R, Ziegler A, Lange S. Logistische Regression. Deut Med Wochenschr. 2002; 127 T11-T13

Search in Google Scholar
Download RIS citation
3 Muche R, Kaluscha R, Jacobi E. Ist das ärztliche Urteil in der Qualitätssicherung stationärer Rehabilitation bei Patienten mit Erkrankungen des Bewegungsapparates durch Routineparameter zu ersetzen? Eine Untersuchung an 12.014 Beobachtungen. Z ärztl Fortbild Qual Sich. 2005; 99 51-56

Search in Google Scholar
Download RIS citation
4 Hosmer DW, Lemeshow S. Applied logistic regression. 2. Aufl. New York: John Wiley, 2000
5 Allison PD. Logistic regression using the SAS system. Cary, NC: SAS Institute Books by Users, 1999
6 Kleinbaum DG, Klein M. Logistic regression - A self-learning text. 2. Aufl. New York: Springer, 2002
7 Diaz-Bone R. Eine kurze Einführung in die logistische Regression und binäre Logit-Analyse. 2003; , - verfügbar unter: http://www.agis.uni-hannover.de/EQQS/modulijk/Logistische_Regression.pdf , (aufgerufen 7.8.2007)

Search in Google Scholar
Download RIS citation
8 Erlinghagen M. Die binäre Logistische Regression - ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung. 2003; , - verfügbar unter: http://www.iatge.de/aktuell/veroeff/2003/erling07.pdf , (aufgerufen am 7.8.2007)

Search in Google Scholar
Download RIS citation
9 Hupfeld J. Logistische Regression - Eine Einführung. 1999; , - verfügbar unter: http://www.psy.unibe.ch/soz/team/pdf/hupfeld/Hupfeld1999c.pdf , (aufgerufen am 7.8.2007)

Search in Google Scholar
Download RIS citation
10 Koch A. Logistische Regression zur Modellierung von Binärdaten. 1999; , - verfügbar unter: http://www.urz.uni-heidelberg.de/statistik/sas-ah/2.2.2/LogistischeRegression.html , (aufgerufen am 7.8.2007)

Search in Google Scholar
Download RIS citation
11 Abbott RD, Carroll RJ. Interpreting multiple logistic regression coefficients in prospective observational studies. Am J Epidemiol. 1984; 119 830-836

Search in Google Scholar
Download RIS citation
12 Greenland S. Limitations of the logistic analysis of epidemiologic data. Am J Epidemiol. 2002; 110 693-698

Search in Google Scholar
Download RIS citation
13 Faller H. Signifikanz, Effektstärke und Konfidenzintervall. Rehabilitation. 2004; 43 174-178

Thieme Connect Search in Google Scholar
Download RIS citation
14 Bland JM, Altman DG. The odds ratio. BMJ. 2000; 320 1468

Crossref Search in Google Scholar
Download RIS citation
15 Pepe MS. Receiver operating characteristic methodology. J Am Stat Assoc. 2000; 95 308-311

Crossref Search in Google Scholar
Download RIS citation
16 Faller H. Sensitivität, Spezifität, positiver und negativer Vorhersagewert. Rehabilitation. 2005; 44 44-49

Thieme Connect Search in Google Scholar
Download RIS citation
17 Muche R. Variablenselektion in Kohortenstudien. Dissertation. Ulm: Universität Ulm 1995

Search in Google Scholar
18 Peduzzi PN, Concato J, Kemper E, Holford TR, Feinstein A. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol. 1996; 99 1373-1379

Search in Google Scholar
Download RIS citation
19 Muche R, Rösch M, Flierl S, Alt B, Jacobi E, Gaus W. Entwicklung und Validierung eines Prognosemodells zur Vorhersage der Arbeitsfähigkeit nach Rehabilitation anhand routinemäßig erhobener Parameter. Rehabilitation. 2000; 39 262-267

Thieme Connect Search in Google Scholar
Download RIS citation
20 Muche R, Ring C, Ziegler C. Entwicklung und Validierung von Prognosemodellen auf der Basis der logistischen Regression. Aachen: Shaker, 2005

1 Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung ”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr.Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann,Siegburg Interessenten, die einen Beitrag zur Reihe beisteuernmöchten, werden gebeten, vorab Kontakt aufzunehmen,Email: E-Mail: christian.zwingmann@web.de

Korrespondenzadresse

PD Dr. Rainer Muche

Universität Ulm

Institut für Biometrie

Schwabstr. 13

89075 Ulm

Email: rainer.muche@uni-ulm.de

Permissions and Reprints

Related Journals

Related Books

Subscribe to RSS

Share / Bookmark

Die logistische Regression - ein vielseitiges Analyseinstrument rehabilitationswissenschaftlicher Forschung

Korrespondenzadresse

Publication History

Zusammenfassung

Abstract

Schlüsselwörter

Key words

Einleitung

Das logistische Regressionsmodell

Interpretation der Regressionskoeffizienten - das Odds Ratio

Wichtige Aspekte bei der Modellentwicklung

Gleichzeitige Untersuchung mehrerer Einflussgrößen

Überprüfung der Bedeutung von Variablen im Modell

Modellierung nicht-monotoner Risikobeziehungen

Die logistische Regression als Prognosemodell - Die Güte der Modellanpassung

Variablenselektion und Overfitting

Wechselwirkungen

Ein Beispiel aus der Rehabilitationsforschung

Fazit

Literatur

Korrespondenzadresse

Literatur

Korrespondenzadresse