A diszkriminancia-analízis célja általában az, hogy meglévő osztályokat egymástól elkülönítsünk, és meghatározzuk azokat a geometriai alakzatokat, melyek jól szeparálják egymástól a csoportokat (jellemzően egyenesek, illetve síkok). Gondoljunk arra, hogy amikor testhőmérsékletet mérünk, akkor két ilyen vágópontot használhatunk, pl. gyerekek esetében: 37 Celsius fok alatt egészségesnek találtatik, 37-38 fok között hőemelkedést, míg 38 fok felett már lázat fogunk diagnosztizálni. Ebből következően itt 2 vágópontunk adódik: 37 és 38 foknál.
Más megközelítésben: a lázasokat a hőemelkedéssel bíróktól a 38 fok vágja el legjobban, míg a 37 fok az egészségeseket és a hőemelkedéseseket fogja elkülöníteni egymástól. Továbbá mindezt úgy is felfoghatjuk, hogy először az egészségeseket szűrjük: megnézzük, hogy a gyerek 37 fok alatti vagy feletti testhőmérséklettel fekszik-e otthon az ágyban (beteg, vagy csak nem akar iskolába menni). Amikor meglátjuk, hogy elhagyja a 37 fokot a hőmérő higanyszála, már megyünk is a telefonhoz, és hívjuk az iskolát. Majd az osztályfőnökkel folytatott beszélgetés után megnézzük, hogy kell-e komolyabb lázcsillapítót beadni és esetleg kihívni hozzá a gyerekorvost, vagy „csak” hőemelkedése van a gyereknek, és így lesétálhatunk vele a doktor nénihez/bácsihoz.
Általános esetekben természetesen ennél több kategória is lehet, és nem csak egyetlen változó (pl. testhőmérséklet) alapján hozunk döntést. Jelen helyzetben a következő algoritmust fogjuk követni:
Az első két lépésben megalkotunk klasztereket, majd a diszkriminancia-analízis segítségével elérjük, hogy ha egy új egyed adatainak bővülése történik, akkor egyértelműen tudjuk, hogy hová kell sorolnunk (valójában úgy is besorolhatnánk, hogy mely klaszter középpontjához van leginkább közel az új egyed korábbi példánkban már mért 4 változón – diákok morálja, viselkedése stb. – felvett értéke).
A harmadik lépésben azt nézzük meg, hogy a két eljárás mennyire szolgáltat konzisztens eredményt, hiszen két módszerrel osztályoztunk (illetve az egyikkel osztályoztunk, a másikkal pedig megpróbáltuk azt egyfajta regresszióként megbecsülni).
Reményeink szerint e kisebb kísérlet során mind a k-középpontú klaszterezés, mind pedig a diszkriminancia-analízis érthetővé válik.