Diszkriminancia-analízis és relokációs klaszterelemzés – SPSS

A diszkriminancia-analízis célja általában az, hogy meglévő osztályokat egymástól elkülönítsünk, és meghatározzuk azokat a geometriai alakzatokat, melyek jól szeparálják egymástól a csoportokat (jellemzően egyenesek, illetve síkok). Gondoljunk arra, hogy amikor testhőmérsékletet mérünk, akkor két ilyen vágópontot használhatunk, pl. gyerekek esetében: 37 Celsius fok alatt egészségesnek találtatik, 37-38 fok között hőemelkedést, míg 38 fok felett már lázat fogunk diagnosztizálni. Ebből következően itt 2 vágópontunk adódik: 37 és 38 foknál.

Más megközelítésben: a lázasokat a hőemelkedéssel bíróktól a 38 fok vágja el legjobban, míg a 37 fok az egészségeseket és a hőemelkedéseseket fogja elkülöníteni egymástól. Továbbá mindezt úgy is felfoghatjuk, hogy először az egészségeseket szűrjük: megnézzük, hogy a gyerek 37 fok alatti vagy feletti testhőmérséklettel fekszik-e otthon az ágyban (beteg, vagy csak nem akar iskolába menni). Amikor meglátjuk, hogy elhagyja a 37 fokot a hőmérő higanyszála, már megyünk is a telefonhoz, és hívjuk az iskolát. Majd az osztályfőnökkel folytatott beszélgetés után megnézzük, hogy kell-e komolyabb lázcsillapítót beadni és esetleg kihívni hozzá a gyerekorvost, vagy „csak” hőemelkedése van a gyereknek, és így lesétálhatunk vele a doktor nénihez/bácsihoz.

Általános esetekben természetesen ennél több kategória is lehet, és nem csak egyetlen változó (pl. testhőmérséklet) alapján hozunk döntést. Jelen helyzetben a következő algoritmust fogjuk követni:

Elkészítjük a klaszteranalízis-fejezetben már látott csoportosítást k-középpontú klaszterezés segítségével, és elmentjük minden egyedről, hogy melyik csoportba sorolta a program.
A diszkriminancia-analízis egészen más tőről fakadó eljárásának segítségével megpróbáljuk ezen elmentett változó alapján szeparálni a csoportokat egymástól, és elmentjük azt a változót is, amit a diszkriminancia-analízis alapján állítanánk a klaszterezés eredményéről.
Egy kereszttáblás elemzéssel megnézzük, hogy e két módszer mennyire adott közeli eredményt, azaz mennyire tekinthető stabilnak a klaszterbe sorolás.

Az első két lépésben megalkotunk klasztereket, majd a diszkriminancia-analízis segítségével elérjük, hogy ha egy új egyed adatainak bővülése történik, akkor egyértelműen tudjuk, hogy hová kell sorolnunk (valójában úgy is besorolhatnánk, hogy mely klaszter középpontjához van leginkább közel az új egyed korábbi példánkban már mért 4 változón – diákok morálja, viselkedése stb. – felvett értéke).

A harmadik lépésben azt nézzük meg, hogy a két eljárás mennyire szolgáltat konzisztens eredményt, hiszen két módszerrel osztályoztunk (illetve az egyikkel osztályoztunk, a másikkal pedig megpróbáltuk azt egyfajta regresszióként megbecsülni).

Reményeink szerint e kisebb kísérlet során mind a k-középpontú klaszterezés, mind pedig a diszkriminancia-analízis érthetővé válik.