Vizsgakérdések – Klaszterelemzés

  Vizsgakérdések – Klaszterelemzés


Vizsgakérdések – Klaszterelemzés

RELOKÁCIÓ: K-központú klaszteranalízis 3 klaszterrel

Teljes ESS = 3788,00 Aktuális ESS = 2189,90 Megmagyarázott ESS% = 42,19


Iterációs sorszámm Áttett esetek ESS Megmagy ESS % Pontbiszeriális együttható
i=1 123 2057,05 45,70 0,465
i=2 28 2023,55 46,58 0,469
i=3 12 2021,67 46,63 0,469
i=4 0 2021,67 46,63 0,469


________________________________________


VÉGSŐ KLASZTERSTATISZTIKÁK 3 KLASZTERRE


KLASZTER 1 Elemszám: 475 Homogenitási együttható: 1,13

Változó: Stmorale Tcmorale Studbeha Teacbeha
Átlag: 0,0823 0,634 1,063 0,936
Szórás 0,938 0,621 0,745 0,771
Min: -1,789 -0,571 -0,750 -0,861
Max: 2,588 1,650 2,613 2,489


KLASZTER 2 Elemszám: 419 Homogenitási együttható: 0,94

Változó: Stmorale Tcmorale Studbeha Teacbeha
Átlag: -1,144 -0,565 -0,161 0,0013
Szórás 0,579 0,723 0,771 0,727
Min: -2,766 -2,179 -2,477 -1,760
Max: 1,096 0,642 1,386 1,686


KLASZTER 3 Elemszám: 54 Homogenitási együttható: 1,53

Változó: Stmorale Tcmorale Studbeha Teacbeha
Átlag: 0,362 0,891 -2,171 -1,955
Szórás 1,268 0,647 0,834 0,756
Min: -1,789 -0,571 -3,611 -2,704
Max: 1,637 1,650 -0,750 -0,861


A homogenitási együttható a klaszterbeli páronkénti távolságok átlaga.


Silhouette mutató: SC = 0,646


NEM STANDARDIZÁLT ÁTLAGOK

Klaszter Elemszám Stmorale Tcmorale Studbeha Teacbeha
1 475 0,0823 0,634 1,063 0,936
2 419 -1,144 -0,565 -0,161 0,0013
3 54 0,362 0,891 -2,171 -1,955


STANDARDIZÁLT ÁTLAGOK

Klaszter Elemszám Stmorale Tcmorale Studbeha Teacbeha
1 475 0,51 0,57 0,63 0,55
2 419 -0,68 -0,75 -0,44 -0,34
3 54 0,78 0,85 -2,19 -2,21


STANDARDIZÁLT ÁTLAGOK MINTÁZATA (M = Magas, A = Alacsony)

Klaszter Elemszám Homog. Stmorale Tcmorale Studbeha Teacbeha
1 475 1,13 (M) (M) (M) (M)
2 419 0,94 A A (A) .
3 54 0,53 M M A++++ A++++

I

H

A klaszterezés célja, hogy a változók között csoportokat alakítsunk ki.

X

A klaszterezés során olyan csoportokat hozunk létre, melyben az egyedek egymásra hasonlítanak, míg a csoportok egymástól általában eltérőek.

X

A k-középpontú elemzés során minden lépésben a két legközelebbi klasztert összevonjuk.

X

A hierarchikus klaszterezés során több klaszterszám esetére is kérhetünk megoldást.

X

Amennyiben a klaszterezést a változókon hajtjuk végre, úgy a faktorelemzéshez egy rokon módszert dolgozhatunk ki.

X

A csoportok kialakításakor fontos kérdés az egyedek közötti távolságok mérése.

X

Minél nagyobb a Silhouette-mutató, annál jobb a klaszterezettség.

X

Az egyes klaszterben lévő egyedek jellemzően minden paraméterben alacsony értéket vesznek fel.

X

A hármas klaszterben 54-en vannak.

X

A kettes klaszterben a tanárok viselkedésének értéke átlagosnak tekinthető.

X

A végső modellben a megmagyarázott variancia-arány 42,19%-os.

X

A relokáció hatására nő a magyarázott variancia-arány.

X

A relokáció megállítására csak egyfajta kritérium létezhet.

X

A hierarchikus klaszterezés mindig jobb eredményt ad, mint a k-középpontú.

X

Klaszterezés során sosem szabad standardizálni a változókat.

X


Hamis válaszok magyarázata:

1. A klaszterezés célja, hogy a változók között csoportokat alakítsunk ki.

2. A k-középpontú elemzés során minden lépésben a két legközelebbi klasztert összevonjuk.

3. Az egyes klaszterben lévő egyedek jellemzően minden paraméterben alacsony értéket vesznek fel.

4. A végső modellben a megmagyarázott variancia-arány 42,19%-os.

5. A relokáció megállítására csak egyfajta kritérium létezhet.

6. A hierarchikus klaszterezés mindig jobb eredményt ad, mint a k-középpontú.

7. Klaszterezés során sosem szabad standardizálni a változókat.


  1. Az egyedek között alakítunk ki általában csoportokat – a változók közötti kapcsolatok feltárására jobb pl. a faktorelemzés.
  2. A k-középpontú elemzés során nem vonunk össze klasztereket – ott a meglévő klaszterszámon belül végzünk átcsoportosításokat.
  3. Az egyes klaszternél lévő (M)-ek éppen azt jelzik, hogy magas értékeket érnek el a változókban.
  4. A végső modellben 46,63% a magyarázott variancia-arány.
  5. A legtöbb algoritmusra általában több megállási kritériumot is megfogalmazhatunk: nem kerül át már sok egyed egyik csoportból a másikba, nem változik szignifikánsan a relokáció hatására a magyarázott variancia-arány, a megadott iteráció-számot meghaladtuk, vagy pusztán időhöz kötjük, hogy hány percig engedjük futni az adott programot…
  6. Ha így lenne, akkor mindig azt használnánk. A két eljárás egészen más céllal fut, mások az elvárásaink – így a jobb vagy rosszabb eredmények, elnevezések nem tűnnek adekvátnak.
  7. Klaszterezés során fontos szempont, hogy miként mérjük az egyedek közötti különbséget. Ha túlságosan különbözőek a skáláink, de mi mégis egységesíteni akarjuk őket, akkor a standardizálás nem tűnik rossz megoldásnak . Így nem, egyáltalán nem tilos standardizálni – ahogy egyébként a program outputján is láthatók a standardizált változókra számított eredmények.