Klaszterelemzés – ROPstat

 Klaszterelemzés – ROPstat


Klaszterelemzés – ROPstat

A klaszterelemzés a statisztika egyik klasszikus osztályozási/csoportosítási eszköze. Számos változata és megvalósítási módja ismeretes, ráadásul bizonyos helyzetekben igen nagyfokú szabadságot biztosít a módszer alkalmazójának.

Célja minden esetben az egyedek osztályokba, csoportokba sorolása – egymástól való elkülönítése, illetve az egymáshoz valamilyen szempontból hasonló egyedek összekapcsolása.

Fontos lehet megjegyezni, hogy ha az adatokra másik irányból nézünk rá, akkor természetesen a módszer a változókra is alkalmazható (ilyen esetben az egymással igen hasonlatos változókat fogja az eljárás összekapcsolni). Vegyük viszont észre, hogy ilyenkor az egymással negatívan korreláló változók, melyek értékei – matematikailag – a leginkább távol esnek egymástól, távolra kerülnek, holott a változók ez esetben igen erős összefüggést mutatnak. Azaz nem feltétlenül ez a legjobb módszer arra, ha változókat szeretnénk csoportosítani – de a módszer maga, némi megfontolások után, alkalmas rá. Ne felejtsük el továbbá, hogy e módszer egyáltalán nem skálafüggetlen abban az értelemben, hogy ha pl. a testmagasságot méterben tartom nyilván (1,82 m), majd átváltom centiméterbe (182 cm), úgy a skálám értékei százszorosára változnak, így bármely változótól mért távolságában is drasztikus eltérések fognak mutatkozni – sőt, az emberek közötti összesített távolságokban is jelentős mértékben megnő a testmagasságok közötti eltérések szerepe. Azaz e módszer használata előtt gondoskodjunk arról, hogy minden változót olyan mértékben, súllyal vegyük figyelembe, ahogy azt a modell alkalmazása szempontjából ildomosnak tartjuk (pl. ha minden változót azonos súllyal szeretnénk figyelembe venni, akkor standardizáljuk mindegyiket).

Két klasszikus változatát fogjuk bemutatni most a klaszterezésnek. Az egyik az úgynevezett hierarchikus klaszterezési eljárás, mely lépésenként vonja össze az egyedeket egészen addig, míg minden egyedet egyetlen nagy közös klaszterbe nem sorol – minden lépésben feltüntetve, hogy ki melyik klaszterbe tartozik. Minden lépésben az egymáshoz legközelebbi (aktuálisan legközelebbi) egyed/klaszter kerül összevonásra, folyamatosan 1-gyel csökkentve így a klaszterek számát.

A másik módszer az úgynevezett k-középpontú, k-mean vagy más néven relokációs klaszterezés. Ezen esetben előre meghatározzuk a klaszterszámot, majd utána megpróbáljuk az egyedeket ennek megfelelő számú csoportba besorolni. Ez egy iteratív eljárás abban az értelemben, hogy újra és újra végigmegyünk az egyedeken, minden lépésben besoroljuk őket valahová – viszont e besorolástól megváltozik az aktuális klaszter súlypontja,, tehát a többi elem helyzete, viszonya is megváltozhat. Így az eljárást addig folytatjuk, amíg valamely megállítási kritérium be nem következik (pl. előre meghatározott lépésszám, vagy egyes elemek csak ide-oda ugrálnak, és egy adott ugrásszámot elér a mozgásuk, stb.).

Az eljárást ROPstatban fogjuk megnézni. Az outputok nem túl bonyolultak – és az eredmények általában jól kapcsolhatók más módszerekhez. Azonban hangsúlyoznánk, hogy a klaszterezéssel általában nem ér véget a munkánk, hiszen a csoportok megalkotása után azok jellemzése lesz az elsődleges feladat. A klaszterezéshez nem használt változók különböző tulajdonságainak vizsgálata akár valamely regressziós technikával is történhet (pl. bejósolható-e a klaszterbe kerülés, amit pl. diszkriminancia-analízissel tudunk megvalósítani), vagy varianciaanalízissel elemezzük a különböző kialakult csoportok várható értékeit, és így tovább.

Azért a ROPstat programot használjuk erre az elemzésre (pedig eddig általában az SPSS használatát preferáltuk), mert ezen eljárás esetén (és a kovarianciaanalízisben) könnyebben átlátható, egyszerűbb struktúrájú kimeneti adatokat szolgáltat, mint az SPSS.

A k-középpontú elemzést SPSS-ben fogjuk elvégezni, mert annak eredményeivel tudjuk a diszkriminancia-analízist vizsgálni, így ott lényegében hiánypótló jelleggel, de az SPSS klaszterezési technikáját is megismerjük.