Az MDS matematikai tulajdonságai, megbízhatóságának mérése

  Az MDS matematikai tulajdonságai, megbízhatóságának mérése


Az MDS matematikai tulajdonságai, megbízhatóságának mérése

Az MDS egyik matematikai sarokköve a távolságok definiálása: az eljárásban – bár némiképpen rejtetten – három ponton is mérünk eltéréseket, ha úgy tetszik távolságokat.

  • Egyik oldalról adott az eredeti pontok, objektumok közötti távolság (itt nem feltétlenül a geometriából jól ismert euklideszi távolságra kell gondolni, azaz nem feltétlenül a két pontot összekötő szakasz hossza lesz a két pont közötti távolság).
    • Használhatunk euklideszi távolságot, mely adekvát lehet pl. normális eloszlású változók esetén.
    • Példaként érdemes megemlíteni a Manhattan-távolságot is, mely úgy is értelmezhető, mint a négyzetrácson való, egyik rácspontból a másik rácspontba való séta hossza – a négyzetek élhosszúságainak összegét értjük alatta. Jól alkalmazható például akkor, ha egész értékű, intervallum skálájú változókkal dolgozunk.
    • Az MDS módszer néhány általánosítása is fellelhető frissebb szakirodalmakban, azonban pszichometriai szempontból ezek jelenleg még nehezen alkalmazhatók.
  • Másik oldalról hasonló dilemmával állhatunk szemben akkor, amikor a reprezentált 2-dimenziós objektumok egymástól való távolságát szeretnénk beállítani – ez az ábrázolás miatt hagyományosan az euklideszi távolság, de nyilván elfogadható a módszer olyan irányú általánosítása is, ahol ezt a távolságot is tetszőlegesen definiálhatjuk.
  • A harmadik távolság rejtettebb: gondoljunk arra, hogy valamilyen módon mérnünk kell azt, hogy az eredeti objektumok által definiált alakzat és a 2 vagy 3 dimenzióban definiált, reprezentáló alakzat milyen módon, mennyire van „közel” egymáshoz. Ennek a mértéknek külön mutatója lesz a módszerben – és az eljárásunk „jóságát” e mutató mértéke fogja számunkra meghatározni.
    • Itt is felhívjuk a figyelmet arra, hogy ez a távolság (ha úgy tetszik, eljárás pontosságát mérő mérték) szintén általánosítható, újradefiniálható. Azonban ezt a mértéket a módszertan általánosságban többé-kevésbé kötöttnek gondolja, mint azt a későbbiekben majd szemléltetjük is.

Jelen leírásban csak a klasszikus megoldást ismertetjük. Az MDS-eljárásnak azonban több alternatív (robusztusnak tekinthető) változata is ismert (skálatípustól és hasonlósági definícióktól függően). A módszerre vonatkozó matematikai statisztikai tételek egyértelműek arra az esetre, amikor mindhárom távolság az általánosan megszokott, euklideszi távolságot jelenti.

A klasszikus MDS-eljárás optimalitási tulajdonságát két matematikai tételből ismerhetjük. Ezek megtalálhatók több tankönyvben is, így nem matematikai stilisztika alapján megfogalmazva az alábbi formában foglalhatjuk őket össze:

Amennyiben adott az eredeti ponthalmazunk dimenziószáma (p) és a reprezentáns ponthalmaz dimenziószáma (valamely fix, 1 ≤ k ≤ p, továbbá a reprezentánsok közötti távolságot euklideszi távolság alapján mérjük, úgy ha négyzetes eltérésben keressük a legközelebbi megoldást – függetlenül attól, hogy az eredeti p dimenziós ponthalmaz távolságait euklideszi vagy nem euklideszi módon definiáljuk – a klasszikus MDS által szolgáltatott megoldás adja az optimális megoldást.

Az MDS-eljárás matematikai minőségét többek között az úgynevezett s-stress mutató segítségével mérhetjük. E mutató nem más, mint az ábrázolt és az eredeti pontok koordinátáinak eltéréséből számított mutató. Az ábrázolás minőségére az alábbi szabályt mondhatjuk:

s-stress

Minőség

Megjegyzés

0 - 0,05

Kiváló

Valószínűleg minden releváns információt tartalmaz.

0,05 - 0,1

Megfelelő, az eredmények értelmezhetők.

0,1 - 0,2

Elfogadható

Érdemes foglalkozni vele. Az eredmény még többnyire értelmezhető

0,2 fölött

Nem megfelelő

Az adott dimenziószámnál csak nagy információ-vesztességgel ábrázolható. Érdemes nagyobb dimenziószámmal próbálkozni.


Megjegyzendő, hogy néha az s-stress mutató helyett az úgynevezett stress mutató értékét használják, mely az s-stress mutató négyzetgyöke.

Megállapítható, hogy euklideszi távolságok esetén a klasszikus MDS adja az optimális megoldást, tehát amennyiben minden távolság euklideszi, úgy két vagy három dimenzióban a klasszikus MDS-nél jobb ábrázolást nem tudunk készíteni. A matematikai tételek azt is biztosítják számunkra, hogy a klasszikus megoldás – amennyiben az ábrázolás euklideszi távolságok szerint történik, és az ábrázolás jóságát mérő mutató is a klasszikus négyzetes különbséggel számolt, úgy szintén a klasszikus MDS adja a legjobban illeszkedő megoldást.

A klasszikus MDS-eljárásból származó információk interpretálása

Fontos kiemelnünk, hogy az ábrázoláshoz használt koordináta-rendszer tengelyei nem feltétlenül jelentenek háttérváltozókat. Azonban előfordulhatnak olyan esetek, amikor tudunk jelentést adni az egyes tengelyeknek – esetlegesen többletjelentést adva így magának a modellnek, keletkező konfigurációnak. Erre láthatunk majd példát az első alkalmazásban.