Methods Inf Med 1988; 27(04): 167-176
DOI: 10.1055/s-0038-1635538
Original Article
Schattauer GmbH

The Influence of Outliers on Discrimination of Chronic Obturative Lung Disease

Der Einfluß von Ausreißern auf die Diskriminanzresultate, untersucht an Daten chronischobstruktiver Lungenkrankheiten
Ewa Krusmska
1   Institute of Computer Science, University of Wroclaw, Poland
,
Jerzy Liebhart
2   Department of Internal Diseases, Medical Academy of Wroclaw, Poland
› Institutsangaben
Weitere Informationen

Publikationsverlauf

Publikationsdatum:
16. Februar 2018 (online)

Summary

The paper discusses the influence of outliers on the results of linear and canonical discrimination used to assist medical diagnosis in chronic obturative lung disease. The outliers have been detected by χ2-plots based on unweighted sample means and covariances or their weighted analogues with Huber or Hampel weights. With Hampel weights outliers have been found different from those with both remaining methods. After trimming the 10 percent of the most distant individuals, the discrimination was done for the training sample collected earlier (N′ = 305) and for the test sample (N″ = 53) with the functions obtained from the training sample. The discrimination was performed for subsets of the most discriminative variables. When the sample size was sufficiently large (training sample), the goodness of reclassification was similar for classical functions and functions calculated after trimming. For small samples they differ. For classification of the test data the results obtained after trimming (especially with Hampel weights) are much better. The method may be recommended to be used in the computerized respiratory diseases consulting unit.

Der Beitrag diskutiert den Einfluß von Ausreißern auf die Resultate der linearen und kanonischen Diskriminanzanalyse, wie sie üblicherweise zur medizinischen Diagnoseunterstützung bei chronisch-obstruktiven Lungenkrankheiten angewandt werden. Die Ausreißer wurden mit Hilfe von χ2-Diagrammen gefunden, die auf den ungewichteten Mittelwerten und Kovarianzen oder ihren Analoga mit Huber- bzw. Hampel-Gewichtsfaktoren basierten. Mit Hampel-Gewichtsfaktoren wurden andere Ausreißer entdeckt als mit den beiden anderen Methoden. Nach der Eliminierung von zehn Prozent der am extremsten liegenden Individuen wurde die Diskriminanzanalyse für die alte, früher gesammelte Trainings-Stichprobe (N′ = 305) und für die neue Teststichprobe (N″ = 53) mit den Funktionen, die aus der „alten” Stichprobe gewonnen worden waren, durchgeführt. Die Diskriminanzanalyse wurde für weitere Gruppen der Variablen mit der größten Unterscheidungskraft durchgeführt. Bei großen Stichproben (den „alten” Daten) haben wir mit oder ohne Eliminierung ähnliche Resultate bekommen; bei kleinen Stichproben sind sie unterschiedlich. Für die Teststichprobe waren die Resultate der Klassifikation, insbesondere bei Verwendung von Hampel-Gewichtsfaktoren, viel besser.

Die Methode wird für Computersysteme zur Beratung bei Krankheiten der Atemwege empfohlen.

 
  • REFERENCES

  • 1 Ahmed S. W, Lachenbruch P. A. Discriminant analysis when scale contamination is present in the initial sample. In van Ryzin J. (Ed.) Classification and Clustering. New York: Academic Press; 1977: 331-53.
  • 2 Ahrens H, Läuter J. Mehrdimensionale Varianzanalyse. Berlin: Akademie Verlag; 1974
  • 3 Bartkowiak A, Morgenstern W. The impact of outliers in prediction of diseases. In: Abstracts of the 8th International Conference of the International Society for Clinical Biostatistics. Gothenburg, September. 1987
  • 4 Broffit B, Clarke W. R, Lachenbruch P. A. The effect of Huberizing and trimming on the quadratic discriminant function. Communications in Statistics A . 1980; 9: 13-25.
  • 5 Campbell N. A. Robust procedures in multivariate analysis. I: Robust covariance estimation. Appl. Statist 1980; 29: 231-237.
  • 6 Gnanadesikan R, Kettenring I. R. Robust estimates, residuals and outliers detection with multiresponse data. Biometrics. 1972; 28: 81-124.
  • 7 Krusińska E, Liebhart J. Some further remarks on robust selection of variables in discriminant analysis. Biometr. Zeitschr. (in press).
  • 8 Krusińska E, Liebhart J. Robust discriminant functions in assisting medical diagnosis. Application to the chronic obturative lung disease data (submitted for publication).
  • 9 Krzanowski W. J. Discrimination and classification using both binary and continuous variables. JASA 1975; 70: 782-790.
  • 10 Krzanowski W. J. The performance of Fisher’s linear discriminant function under non-optimal conditions. Technometrics 1977; 19: 191-200.
  • 11 Lachenbruch P. A. Discriminant Analysis. New York: Hafner Press; 1975
  • 12 Rao C. R. Linear Statistical Inference and Its Applications. New York: Wiley & Sons; 1965