zum Directory-modus

Allgemeine Multivariate Datenanalyse

Clusteranalyse

Zur Unterscheidung zwischen Ähnlichkeit und Verschiedenheit von Objekten (Daten, Messwerte) wird in der Clusteranalyse häufig der Euklidische Abstand d i k der Objekte i und k in einem Vektorraum (Vektor) verwendet

d i k = j = 1 p ( x i j x k j ) 2

, wobei die x i j , x k j die Werte des j-ten Merkmals für die Objekte i und k darstellen. Der Abstand der Objekte in einem festgelegten Vektorraum soll ein Maß für die Ähnlichkeit der Objekte sein. Der Euklidische Abstand ist dann die Länge dieser Verbindungslinie zwischen diesen Objekten im p-dimensionalen Raum.

Abb.1

Berechnung des Euklidischen Abstandes zweier Objekte nach obiger Gleichung

Trägt man paarweise den Abstand zwischen den Objekten auf, so ergibt sich die Abstandsmatrix D , die eine symmetrische Matrix ( d i k = d k i ) darstellt, deren Diagonalelemente gleich Null sind ( d i i = 0 ):

D = ( d 11 d 12 d 1 n d 21 d 22 d 2 n d n 1 d n 2 d n n )

Dies hat zur Bedeutung, dass für diese Dreiecksmatrix nicht n 2 , sondern nur n ( n 1 ) / 2 Elemente benötigt werden. Dabei werden die x i j nach

x i j ' = x i j x ¯ j s j i = 1 , , n und j = 1 , , p

mit

x ¯ j = 1 n i x i j x ¯ j = Mittelwerte der Spalte j n = Anzahl Objekte

und

s j 2 = 1 n 1 ( x i j x ¯ j ) 2 s j 2 = Varianz der Spalte j

standardisiert. Anschließend werden alle Abstände berechnet und in die Dreiecksmatrix (hier: obere Dreiecksmatrix) eingetragen:

D ' = ( 0 d 12 ' d 1 n ' 0 0 d 2 n ' 0 0 0 )

Zur Auswertung dieser Abstands- oder Distanzmatrix gibt es zwei Ansätze, die

agglomerative Clusterung
mit der schrittweisen Vereinigung der Elemente mit dem jeweils kürzesten Abstand, bis alle Elemente ein Cluster bilden und die
divisive Clusterung
mit der schrittweisen Zerlegung der Objektmenge in immer kleinere Cluster bis zur einelementigen Klasse (einzelnes Objekt).

Die einzelnen Rechenschritte werden graphisch meist als Dendrogramm (Ergebnisbaum) dargestellt.

Seite 13 von 15