Nyelvtechnológiai segédletek a magyarnyelv-oktatásban

Dr. Pintér Tibor
Budapest

A siker kulcsa a kudarc;
Minden hibából tanulhatunk valamit.

(Ueshiba Morihei)

Absztrakt.

Az MTA Nyelvtudományi Intézetében évek óta készülnek nyelvtechnológiai eszközök és adatbázisok, amelyek nyelvtechnológiai relevanciájuk mellett a nyelvtanulásban, valamint a nyelvoktatásban is hasznosíthatók. Írásomban példa segítségével rávilágítok a magyarnyelv-oktatásban használható szövegtárak, az Uralonet eszköz (elsősorban finnugor és történeti nyelvészet céljára létrehozott korpusz), illetve a régi magyar szövegek digitalizált korpuszának oktatásban történő hasznosíthatóságára, valamint kísérletet teszek a nyelvtechnológia legfontosabb oktatási céljainak megfogalmazására.

1. A nyelvtechnológia és alkalmazásai.

Optimális esetben a mai, informatizált (egyrészt mint az info-kommunikációs technológiák által átszőtt, másrészt mint a folyamatos információdömping által befolyásolt és meghatározott) világunkban egyre több tér adódik a nyelvtechnológia bevonására, a nyelvtechnológia által létrehozott eszközök alkalmazására, használatára. Az információ generálása és feldolgozása ma már elképzelhetetlen a különféle, a magyar nyelvet is feldolgozó nyelvtechnológiai eszközök használata nélkül (gondoljunk csak a legegyszerűbb, MS Wordben található helyesírás- és nyelvhelyesség-ellenőrzőre mint generátorra, és katalógusok, vagy on-line tartalmak böngészése között használatos keresőautomatákra vagy az egyre inkább divatos on-line szótárakra).

De mi is a nyelvtechnológia valójában? Tulajdonképpen nem más, mint az emberi nyelvhasználatot leíró modellek gyakorlati, számítógépes megvalósítása. Alapvetően (és kicsit leegyszerűsítve) nem más, mint az ember és a számítógép közötti kommunikáció természetes nyelven történő megvalósítása, az ehhez szükséges számítógépes programok megalkotása. Ahogy Váradi Tamás és Prószéky Gábor írja, a “[…] nyelvtechnológia a nyelvhasználatból indul ki, konkrét szöveggel, beszéddel foglalkozik, bátran felvállalja tehát a performancia vizsgálatát. Jellemzően a kidolgozott eljárások, technológiák valamilyen alkalmazás céljából (pl. gépi fordítás, beszédlejegyzés) születnek” (Prószéky – Váradi 2012: 9). Kutatási területeinek központjában a nyelvi elemző rendszerek, természetes nyelvi lekérdezők, információkinyerő és információ-visszakereső programok (azok létrehozása, karbantartása), valamint a számítógéppel történő nyelvi generálás és a gépi fordítás áll. Számos alkalmazási területei elsősorban a kutatásra és a “nyelvi piacra”, azaz a – nemcsak anyagi szempontból – rentábilis piacra fókuszál, ugyanakkor nem zárható ki az oktatási célú alkalmazása, felhasználása sem.

A nyelvtechnológia eszközei, vívmányai egyszerűbbé teszik a kommunikációt, a társadalmi folyamatokban való egyszerűbb együttműködést és segítik az oktatást valamint a tanítást is – mindezt “számítástechnikai tudás és nyelvi határoktól függetlenül” (Simon et al 2012: 6). A nyelvtechnológia oly mértékben átszövi mindennapi életünket, hogy használata közben már észre sem vesszük. Gondoljunk csak a helyesírás-ellenőrzésre (böngészőkbe vagy szövegszerkesztőkbe építve), az információ-visszakeresésre (keresőautomaták, webes keresés, katalógusok használata stb.), szövegtömörítés (a legegyszerűbb .zip vagy .rar állományoktól kezdve az egészen bonyolult .gz-állományokig), kérdésmegválaszoló rendszerek (a legbonyolultabb az IBM Watson nevű rendszere, de ide sorolhatjuk az iPhone-okban működő Siri rendszert), a beszédfelismerés (a mobiltelefonok alkalmazásainál – akár név előhívásakor a névjegyzékből), illetve a beszédszintézist (például nagyobb cégek telefonközpontjának “gépeit” vagy a www.metnet.hu időjárás-ismertető portálon működő szövegolvasót). Mindezek nélkül ma már nehezebb lenne az élet. Az egyszerűen használható programok mögött komoly nyelvtechnológiai szakértelem, sokszor eurómilliók, dollármilliárdok és több éves fejlesztések állnak.

2. A hazai nyelvtechnológiai kutatások központja.

A nyelvtechnológia nem csak a nagy államok kiváltsága (illetve korántsem olyan misztikus, mint az űrkutatás), Magyarországon is számos kutatóhely, illetve (magán)vállalkozás foglalkozik nyelvtechnológiával, s mi több, hazánkban nemzetközi kapcsolatokkal is rendelkező komoly nyelvtechnológiai iparág van kibontakozóban. Az iparág egyik kulcsszereplője az MTA Nyelvtudományi Intézete, amely egyrészt a hazai nyelvtechnológiai munkálatok koordinátora, valamint számos, ipari szinten is alkalmazott technológia fejlesztője.

A hazai kutatásokban betöltött központi szerepét elsősorban kutatások koordinátori szerepének (egyetlen magyarországi intézmény, amely két EU-s támogatású pályázat koordinátori feladatait ellátta, illetve a magyarországi Nyelv- és Beszédtechnológiai Platform, a hazai nyelvtechnológiai szektor vezető kutatóműhelyeit és ipari partnereit tömörítő stratégiai szövetség koordinátora), valamint a stratégiai kutatási tervek kidolgozásának köszönheti. A Nyelvtechnológiai Kutatócsoport által végzett több, mint egy évtizedes munka folyamán számos korpusz és szöveget feldolgozó eszköz létrehozatalában vett részt, számos, a magyar nyelv kutatásához szükséges alapvető fontosságú korpusz létrehozója. A legfontosabbak ezek közül a következők:

Magyar Irodalmi és Köznyelv Nagyszótárának korpusza / Magyar Történeti Korpusz
Magyar Nemzeti Szövegtár
Mazsola - a magyar igei bővítményszerkezet vizsgálata
E-Szókincs
Hunglish
Uralonet
Régi magyar konkordancia
Adatbázis a magyar szavak hangidőtartam-képeinek bemutatására
Beszédadatbázis a magyar mássalhangzó-kapcsolódások szerkezeti bemutatására
Beszédadatbázis a magyar beszédhang-kapcsolódások szerkezeti bemutatására
BEA - Magyar spontán beszéd adatbázis

Írásomban most a három adatbázis bemutatására vállalkozom, arra fókuszálva, hogyan alkalmazhatók azok a magyar nyelv oktatásában. Az érintett források elsősorban a magyarnyelv-órákon használhatók, ám kis kreativitással nem kizárt azok más keretben történő felhasználása sem (elsősorban a Magyar nemzeti szövegtár esetében). A kiválasztott korpuszok és lexikális adatbázisok főként szókészleti vizsgálatokban hasznosíthatók (elsősorban elemzési fokuknak köszönhetően), mindezt oktatásban, tananyaghoz igazítható keretben. Bár – ahogy azt fentebb említettem – célközönségként elsősorban a magyarnyelv-órák preferálhatják azokat, ám egyrészt a folyamatos fejlesztések másrészt a folyamatosan keletkező – és így szabadon összekapcsolható – adatbázisok és a folyamatosan szofisztikálódó alkalmazások más és más (elsősorban humán) tantárgyak számára tehetik azokat érdekessé.

Trivialitás, hogy a korpuszok felhasználtsága elsősorban azok feldolgozottsági, elemzettségi fokától függ. Jelen írásban tárgyalt korpuszok „csupán“ morfológiai, morfoszintaktikai elemzéssel rendelkeznek (az Uralonet adatbázis elemzettségét az adatbázist alkotó szótár határozza meg). Az elemzés azonban önmagában nem korlátozza a használat módját és színtereit, kis kreativitással, extra energia befektetésével másfajta kutatások is lefolytathatók (gondolok itt elsősorban például a diskurzuselemzésre, helyesírásra [úzus vs szabály], szövegtani sajátosságok elemzésére, illetve a morfológiai lehetőségekre valamint a lexikológiai, lexikográfiai elemzésekre). Az érintett korpuszok felhasználása külön-külön is fontos segédeszközei lehetnek az oktatásnak, illetve a szinkron nyelvészeti kutatásoknak, ám egyazon kutatási téma összekapcsolásával akár diakrón vizsgálatokra is alkalmazahatóak. A nyelvi elemek változásának vizsgálatát több száz évnyi írásos anyag segíti – így a kvalitatív kutatások szilárdabb, számszaki alapokra helyezhetők.

Az érintett négy nyelvtechnológiai alkalmazás az interneten keresztül regisztráció után bárki számára elérhető, kutatásra szabadon felhasználható. Az alkalmazások készítői más-más céllal készítették el azokat, ami azok kereshetőségében, felhasználói felületeik különböző esztétikai és technikai megvalósulásában mutatkozik meg. Az alábbiakban mintegy érzékeltetve a különbséget, felvillantom a négy alkalmazás nyitólapját:

3. Esettanulmány (a húgy példa elemzése) a nyelvtechnológiai alkalmazások felhasználására.

A tárgyalt korpuszok és adatbázis közül az Uralonet célzottan az oktatásban történő felhasználásra készült ¹, így az alkalmazások felhasználásának illusztrálását vele kezdem. A diakrón szószemantikai vizsgálatok összeköthetők a lexémák etimológiai, történeti kérdéseivel, azok változásaival. Érdekes lehet a ma már népies, kissé talán vulgáris konnotációval is bíró húgy szavunk történeti-etimológiai vizsgálata, amely a többi alkalmazással összekötve nemcsak megismerteti a diákokat egy-egy szó változásaival, hanem az alkalmazásokon keresztül betekintést nyújt (és talán érdeklődést is felkelt) a magyar nyelvtörténetbe, valamint a nyelvemlékek korszerű felhasználásának módjába.

Az Értelmező kéziszótár (ÉKSz2) a húgy szót a következőképpen definiálja:

A nyelvtörténetet ismerő tanár, nyelvész már ismeri a húgy szó etimológiáját, így az könnyen előhívható az Uralonetből, a “Fogalomkör” 1.2. Csillagokra állításával.

A megfelelő szó (csillag) megjelenítésével máris láthatóvá válnak a magyar jelentések (húgy, kaszahúgy), amelyek bővebb megismerése a többi alkalmazásban történő megnézésével folytatódhat.

A Régi magyar konkordancia, valamint a Magyar történeti korpusz adatai már mindkét jelentés (1. vizelet, 2. csillag) felváltva hozzák annyi különbséggel, hogy a Régi magyar konkordancia eredeti és mai írással is feltünteti a konkordanciát, valamint annak teljes körű morfológiai elemzését is feltünteti.

A Magyar nemzeti szövegtárban, azaz a szinkrón nyelvállapotban kutakodva már egyértelmű a jelentések eloszlásának gyakorisága, a ‘csillag’ jelentés sporadikus előfordulása, ami ez esetben a szónak a ‘vizelet’ jelentéssel való egyértelmű azonosítását eredményezi (lásd még az ÉKSZ2 szócikkét is). A húgy szó szaknyelvi-terminológiai jelentése csupán korlátozottan kereshető a Magyar nemzeti szövegtárban, lévén nem a magyar szaknyelvek gyűjtésére készült. A hozzáférhető adatokból azonban világosan látszik, hogy a mai magyar nyelv húgy szavának ‘csillag’ jelentése már csak a nyelvészeti szakirodalomban található meg, ‘csillag’ jelentése egyértelműen a nyelvtörténeti adatok részévé vált.

A fent bemutatott (valójában csupán felvillantott) korpuszok és adatbázis használatának lényege a nyelv mélyebb, és valós példákon történő megismerése (ez utóbbi alapvető követelménye – lenne – az egy- és kétnyelvű szótáraknak is). A szabad felhasználás (a fenti rendszerek a felhasználótól legfeljebb regisztrációt kérnek) úgy otthoni, mint iskolai-tantermi munkára, használatra is predesztinálja a tárgyalt korpuszokat, adatbázisokat. Bár egyik készítésénél sem volt elsődleges feladat azok tantermi használata, alkalmazásukkal, aktív használatukkal mégis több olyan cél kitűzhető, amelyekkel kreatívan bővíthető a tananyag, illetve maguk a tanulók is motiválhatóak. A használat alapvető célkitűzéseként érdemesnek tartom megemlíteni a tananyag aktív használatát, a feladatmegoldó képesség javítását (kreatív feladatok esetén), a magyar nyelvtechnológia szoftvereinek és az általuk kínált lehetőségek alaposabb megismerését, valamint az innovatív gondolkodást.

Mivel mind a négy alkalmazás más céllal készült, lényegében felhasználásuk is egy-egy szűkebb területre specifikálható. Az Uralonet elsősorban etimológiai, szemantikai és nyelvtörténeti kutatásokban, tananyagokban, a Régi magyar konkordancia tipikusan nyelvtörténeti témában, a nyelvemlékek megismerésekor alkalmazható. Jól használható a nyelvemlékek tipologizálásához, valamint szemantikai, grammatikai, illetve szövegnyelvészeti témák ismertetéséhez, gyakorlásához. A Magyar történeti korpusz főként változásvizsgálatokat (a Magyar nemzeti szövegtár anyagával összekapcsolva), szemantikai, grammatikai, szövegnyelvészeti, valamint komparatív kutatásokat elégít ki, illetve ezen a vonalon vonható be az oktatásba is. A Magyar nemzeti szövegtár (mint a Magyar történeti korpusz szinkron párja) főként változásvizsgálatok, grammatika (morfológia), élő nyelv, szövegnyelvészet és szemantika révén vonható be az oktatásba. Mivel mai nyelvállapotot dolgoz fel, ezért használható akár helyesírási témájú kérdések és anyagok illusztrálására is (akár a helyesírási szabályok és az úzus között feszülő ellentétek szemléltetésére). A feldolgozott szövegek típusai és a lekérdezőfelület nyújtotta lehetőségek miatt akár diskurzuselemzések is elvégezhetőek rajta.

4. Befejezés helyett – a nyelvtechnológia céljai az oktatásban.

Az MTA Nyelvtudományi Intézet által készített eszközök és korpuszok elsősorban a magyar nyelv feldolgozhatósága, és a magyar nyelvet kutatók kiszolgálása céljából készülnek. Mivel azonban a kutatás és az oktatás nem választható el élesen egymástól, a kutatásokra tervezett alkalmazások bátran használhatók az oktatásban is. Ennek megfelelően – még ha áttételesen is – néhány, az oktatásban is megvalósítható stratégiai cél fogalmazható meg.

A nyelvtechnológiai javak minél szélesebb körű bevonása az oktatásba. Tapasztalatok szerint a nyelvtechnológia fejlődését nem követi az oktatás. A folyamatosan (el)készülő alkalmazások oktatásban történő felhasználását egyrészt azok ismertté válása, másrészt az azokat ismerő kompetens tanárok hiánya lassítja. Bár mindkét irányban vannak elmozdulások, mégsem jelenthetjük ki, hogy a nyelvtechnológia oktatásba történő bevonása mindennapos lenne a magyarországi oktatásban.
Az oktatásban használatos eszközök számának növelése. Az előző céllal szorosan összefüggő cél az oktatásban használt, használható jó minőségű segédeszközök kidolgozása és elterjesztése. Csupán akkor lehet az oktatásban újabb és újabb alkalmazásokat alkalmazni, ha azok a megfelelő minőségben és főként mennyiségben jelen vannak a piacon.
A nyelvtechnológia szerepének és hangsúlyának növelése az oktatásban. A meglévő és folyamatosan keletkező nyelvtechnológiai javak elterjedésére, illetve széles körű felhasználására csak akkor van esély, ha a nyelvtechnológia szerepe kellőképpen hangsúlyozva van egyrészt a mindennapokban, másrészt az oktatásban. Megfelelő háttér és szakmai támogatás nélkül nem várható el a nyelvtechnológia széles körű és adekvát használata.
A nyelvtechnológiai javak használata áthelyezheti a hangsúlyt az önálló és/vagy csoportmunkákra. Az alkalmazások on-line elérhetősége egyrészt a tantermen kívül is esélyt ad az oktatásra (már ha erre szükség van), illetve megfelelő “nyelvi nyersanyagként” és segédeszközként fejlesztheti az önálló és/vagy csoportmunkát, diákok által végezhető kutatásokat – amiből az iskola melletti és iskola utáni életükben is profitálhatnak.

A célok elérése ma már korántsem álom. A magyar nyelv a digitális korban című kiadványban (Simon et al. 2012) leírt helyzetjelentés szerint a magyar nyelv nyelvtechnológiai támogatottsága jóval az európai átlag fölött helyezkedik el. A sikerhez vezető úton elsősorban az oktatáspolitikai szektor döntéshozóit kell meggyőzni: a nyelvtechnológiai eszközök már – használatra – készen állnak.

Hivatkozott irodalom

Prószéky Gábor – Váradi Tamás 2012. Szerkesztői bevezetés. Általános Nyelvészeti Tanulmányok 24: 9–16.

Pusztai Ferenc (főszerk) 2003. Magyar értelmező kéziszótár (ÉKSZ2). Budapest: Akadémiai Kiadó

Simon Eszter – Lendvai Piroska – Németh Géza – Olaszy Gábor – Vicsi Klára 2012. The Hungarian Language in the Digital Age – A magyar nyelv a digitális korban. META-NET fehér Könyvek Sorozat, Berlin: Springer

Internetes hivatkozások

Uralonet

Régi magyar konkordancia

Magyar Irodalmi és Köznyelv Nagyszótárának korpusza / Magyar Történeti Korpusz

Magyar Nemzeti Szövegtár

Elektronikus magyar értelmező kéziszótár

META-NET Hungarian White Paper

Jegyzetek

1 Az oktatásban is használható feladatok a “Tanuláshoz-tanításhoz” menü alatt, az alábbi linkről érhetőek el: http://www.uralonet.nytud.hu/uewww/help.cgi?q=feladatok-egyetemi.

Nyelvtechnológiai segédletek a magyarnyelv-oktatásban

Nyelvtechnológiai segédletek a magyarnyelv-oktatásban

Dr. Pintér TiborBudapest

Absztrakt.

1. A nyelvtechnológia és alkalmazásai.

2. A hazai nyelvtechnológiai kutatások központja.

3. Esettanulmány (a húgy példa elemzése) a nyelvtechnológiai alkalmazások felhasználására.

4. Befejezés helyett – a nyelvtechnológia céljai az oktatásban.

Hivatkozott irodalom

Internetes hivatkozások

Jegyzetek

Dr. Pintér Tibor
Budapest