Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten.

作者: Ludmila Himmelspach

DOI:

关键词:

摘要: Die klassischen Methoden zur Clusteranalyse wurden entwickelt um auf vollstandigen Daten Analysen durchzufuhren. Oft fehlen aber in einzelne Werte — systematisch oder unsystematisch —, z.B. infolge der Probleme bei Datenerfassung, Datenubertragung, Datenbereinigung weil aus unterschiedlichen Quellen stammen. Demzufolge konnen die traditionellen Clusteringmethoden Analyse solcher nicht ohne weiteres angewendet werden. Im Rahmen dieses Beitrags werden unterschiedliche Strategien zum Umgang mit fehlenden Werten fur das Clusteringproblem vorgestellt, analysiert und miteinander verglichen. Dabei wird besondere Augenmerk Untersuchung Leistungsfahigkeit dieser Verfahren Abhangigkeit von den Ausfallmechanismen, zugrundeliegen, dem Anteil fehlender gelegt.

参考文章(6)
Kiri Wagstaff, Clustering with Missing Values: No Imputation Required Springer, Berlin, Heidelberg. pp. 649- 658 ,(2004) , 10.1007/978-3-642-17103-1_61
John K. Dixon, Pattern Recognition with Partly Missing Data IEEE Transactions on Systems, Man, and Cybernetics. ,vol. 9, pp. 617- 621 ,(1979) , 10.1109/TSMC.1979.4310090
Roderick JA Little, Donald B Rubin, None, Statistical Analysis with Missing Data ,(1987)
R.J. Hathaway, J.C. Bezdek, Fuzzy c-means clustering of incomplete data systems man and cybernetics. ,vol. 31, pp. 735- 744 ,(2001) , 10.1109/3477.956035