Kovarianciaanalízis – ROPstat

A kovarianciaanalízis egyfajta kombinációja a varianciaanalízisnek és a lineáris regressziónak. A varianciaanalízis esetében (nagyon leegyszerűsített formában) arra vagyunk kíváncsiak, hogy van-e összefüggés egy vagy több diszkrét változó és egy folytonos változó (hagyományosan normális eloszlású változó) között.

A lineáris regresszióban a függő és független változók hagyományosan normális eloszlású változók, tehát egy függő változónak a lineáris kapcsolatát vizsgáljuk egy vagy több, egymástól lehetőség szerint nem függő, normális eloszlású változóval.

A kovarianciaanalízist érdemes egy modellen keresztül vizsgálni. Tegyük fel, hogy adott az eddigi példa-feladatok szellemében a 15 éves korosztály, mely életkor esetén a diákok 4 különböző típusú közoktatási intézményben tanulhatnak: általános iskolában (jellemzően valamely tárgyból az első 8 évben valamikor bukott diákról van szó), szakiskolában, szakközépiskolában vagy gimnáziumban. Amennyiben arra vagyunk kíváncsiak, hogy pl. matematikából milyen a teljesítményük, úgy ezt az összehasonlítást egy varianciaanalízisbéli vizsgálattal tehetjük meg (ebben az esetben a 4 iskolatípus átlagát hasonlítjuk össze egymással).

Azonban felmerülhet a kérdés, hogy miután írásban mérjük fel e diákokat, mennyiben befolyásolja a teljesítményüket az, hogy a szövegértési készségeik is jelentősen eltérnek egymástól. Egyik lehetőségünk, hogy a már ismertetett DUMMY változók bevezetésével egy lineáris regressziós modellt alkotunk – azonban ez a jelenlegi kérdésünkre nem ad feltétlenül adekvát választ. Ha ugyanis azt a kérdést feszegetjük, hogy mennyivel, hány ponttal jobb átlagos teljesítményre képes egy átlagos gimnazista, mint egy átlagos szakiskolás (egyáltalán jobb eredményre képes-e), akkor ez a kérdéskör a varianciaanalízisre tartozik. Ha arra vagyunk kíváncsiak, hogy vajon egy gimnáziumba járó diák és egy szakiskolás diák teljesítménye között lesz-e eltérés akkor is, ha a szövegértési képességük azonos, akkor pedig érezhető, hogy a lineáris regresszió erre nem fog teljesen megbízható és jól interpretálható választ adni.

Az eddig már megszokott adatokkal dolgozunk továbbra is, a feladat tehát az iskolatípusok közötti különbségeket megtalálni matematikából úgy, hogy közben a szövegértés-teljesítményt kovariáns változóként vesszük figyelembe.