Pneumologie 2011; 65 - V276
DOI: 10.1055/s-0031-1272143

Datenbankintegration, automatische Diagnosenklassifikation und statistische Analyse von BAL-Befunden

J Starlinger 1, B Temmesfeld-Wollbrück 2, N Suttorp 2, U Leser 1, B Schmeck 3
  • 1Berlin
  • 2Charité Universitätsmedizin Berlin, Med. Klinik m.S. Infektiologie und Pneumologie
  • 3Charité Universitätsmedizin Berlin, Med. Klinik m.S. Infektiologie und Pneumologie, BMBF-Research Group „Systems Biology of Lung Inflammation (FORSYS-Lung)“X

Während eines Krankenhausaufenthaltes werden oft verschiedene diagnostische Verfahren herangezogen, die Ergebnisse jeder durchgeführten Untersuchung jedoch separat erfasst. Untersuchungsergebnisse und andere Patientendaten werden oft in unterschiedlicher elektronischer Form festgehalten und abgelegt werden, etwa als Textverarbeitungsdokumente oder in Datenbanken. Als Konsequenz sind diese physisch getrennten und strukturell heterogenen Daten einer gemeinsamen Analyse zunächst entzogen.

Zum Zweck der klinischen Forschung und zur Qualitätssicherung ist es jedoch notwendig, die Untersuchungsdaten vieler Patienten zu betrachten. So interessieren etwa die Korrelation von Verdachtsdiagnosen, die aufgrund von bestimmten Untersuchungen gestellt wurden, mit der endgültigen Diagnose oder auch ein mögliches Vorhandensein von Unterschieden in der Befundung ähnlicher Datenlagen. In der vorliegenden Arbeit wurden dafür ein Algorithmus und ein User-Interface entwickelt.

Dafür mussten die Daten zunächst aus den einzelnen Quellen und deren spezifischen Formaten eingelesen und in ein gemeinsames Format und Schema transformiert werden. Dieses gemeinsame Zielschema muss derart ausgelegt sein, dass es – unter Berücksichtigung der jeweiligen Anwendungsaufgabe – eine möglichst gute Repräsentation der Ursprungsdaten erlaubt. Des Weiteren ist erforderlich, in Beziehung stehende Wertpaare aus verschiedenen Quellen zu identifizieren, um auch eine semantische Integration der Daten zu erlauben. So können etwa mehrere Datensätze desselben Patienten nur durch Zuordnung der patientenbezogenen Daten miteinander in Verbindung gebracht werden. Eine weitere besondere Schwierigkeit bei der Integration von klinischen Daten ist oftmals die eindeutige Identifikation der (Verdachts-)Diagnosen, die von den befundenen Ärzten als freier Text formuliert sind. Erst nach dieser Normalisierung ist das erstellen aussagekräftiger Statistiken über Diagnosen möglich.