A siker kulcsa a kudarc;
Minden hibából tanulhatunk valamit.
(Ueshiba Morihei)
Az MTA Nyelvtudományi Intézetében évek óta készülnek nyelvtechnológiai eszközök és adatbázisok, amelyek nyelvtechnológiai relevanciájuk mellett a nyelvtanulásban, valamint a nyelvoktatásban is hasznosíthatók. Írásomban példa segítségével rávilágítok a magyarnyelv-oktatásban használható szövegtárak, az Uralonet eszköz (elsősorban finnugor és történeti nyelvészet céljára létrehozott korpusz), illetve a régi magyar szövegek digitalizált korpuszának oktatásban történő hasznosíthatóságára, valamint kísérletet teszek a nyelvtechnológia legfontosabb oktatási céljainak megfogalmazására.
Optimális esetben a mai, informatizált (egyrészt mint az info-kommunikációs technológiák által átszőtt, másrészt mint a folyamatos információdömping által befolyásolt és meghatározott) világunkban egyre több tér adódik a nyelvtechnológia bevonására, a nyelvtechnológia által létrehozott eszközök alkalmazására, használatára. Az információ generálása és feldolgozása ma már elképzelhetetlen a különféle, a magyar nyelvet is feldolgozó nyelvtechnológiai eszközök használata nélkül (gondoljunk csak a legegyszerűbb, MS Wordben található helyesírás- és nyelvhelyesség-ellenőrzőre mint generátorra, és katalógusok, vagy on-line tartalmak böngészése között használatos keresőautomatákra vagy az egyre inkább divatos on-line szótárakra).
De mi is a nyelvtechnológia valójában? Tulajdonképpen nem más, mint az emberi nyelvhasználatot leíró modellek gyakorlati, számítógépes megvalósítása. Alapvetően (és kicsit leegyszerűsítve) nem más, mint az ember és a számítógép közötti kommunikáció természetes nyelven történő megvalósítása, az ehhez szükséges számítógépes programok megalkotása. Ahogy Váradi Tamás és Prószéky Gábor írja, a “[…] nyelvtechnológia a nyelvhasználatból indul ki, konkrét szöveggel, beszéddel foglalkozik, bátran felvállalja tehát a performancia vizsgálatát. Jellemzően a kidolgozott eljárások, technológiák valamilyen alkalmazás céljából (pl. gépi fordítás, beszédlejegyzés) születnek” (Prószéky – Váradi 2012: 9). Kutatási területeinek központjában a nyelvi elemző rendszerek, természetes nyelvi lekérdezők, információkinyerő és információ-visszakereső programok (azok létrehozása, karbantartása), valamint a számítógéppel történő nyelvi generálás és a gépi fordítás áll. Számos alkalmazási területei elsősorban a kutatásra és a “nyelvi piacra”, azaz a – nemcsak anyagi szempontból – rentábilis piacra fókuszál, ugyanakkor nem zárható ki az oktatási célú alkalmazása, felhasználása sem.
A nyelvtechnológia eszközei, vívmányai egyszerűbbé teszik a kommunikációt, a társadalmi folyamatokban való egyszerűbb együttműködést és segítik az oktatást valamint a tanítást is – mindezt “számítástechnikai tudás és nyelvi határoktól függetlenül” (Simon et al 2012: 6). A nyelvtechnológia oly mértékben átszövi mindennapi életünket, hogy használata közben már észre sem vesszük. Gondoljunk csak a helyesírás-ellenőrzésre (böngészőkbe vagy szövegszerkesztőkbe építve), az információ-visszakeresésre (keresőautomaták, webes keresés, katalógusok használata stb.), szövegtömörítés (a legegyszerűbb .zip vagy .rar állományoktól kezdve az egészen bonyolult .gz-állományokig), kérdésmegválaszoló rendszerek (a legbonyolultabb az IBM Watson nevű rendszere, de ide sorolhatjuk az iPhone-okban működő Siri rendszert), a beszédfelismerés (a mobiltelefonok alkalmazásainál – akár név előhívásakor a névjegyzékből), illetve a beszédszintézist (például nagyobb cégek telefonközpontjának “gépeit” vagy a www.metnet.hu időjárás-ismertető portálon működő szövegolvasót). Mindezek nélkül ma már nehezebb lenne az élet. Az egyszerűen használható programok mögött komoly nyelvtechnológiai szakértelem, sokszor eurómilliók, dollármilliárdok és több éves fejlesztések állnak.
A nyelvtechnológia nem csak a nagy államok kiváltsága (illetve korántsem olyan misztikus, mint az űrkutatás), Magyarországon is számos kutatóhely, illetve (magán)vállalkozás foglalkozik nyelvtechnológiával, s mi több, hazánkban nemzetközi kapcsolatokkal is rendelkező komoly nyelvtechnológiai iparág van kibontakozóban. Az iparág egyik kulcsszereplője az MTA Nyelvtudományi Intézete, amely egyrészt a hazai nyelvtechnológiai munkálatok koordinátora, valamint számos, ipari szinten is alkalmazott technológia fejlesztője.
A hazai kutatásokban betöltött központi szerepét elsősorban kutatások koordinátori szerepének (egyetlen magyarországi intézmény, amely két EU-s támogatású pályázat koordinátori feladatait ellátta, illetve a magyarországi Nyelv- és Beszédtechnológiai Platform, a hazai nyelvtechnológiai szektor vezető kutatóműhelyeit és ipari partnereit tömörítő stratégiai szövetség koordinátora), valamint a stratégiai kutatási tervek kidolgozásának köszönheti. A Nyelvtechnológiai Kutatócsoport által végzett több, mint egy évtizedes munka folyamán számos korpusz és szöveget feldolgozó eszköz létrehozatalában vett részt, számos, a magyar nyelv kutatásához szükséges alapvető fontosságú korpusz létrehozója. A legfontosabbak ezek közül a következők:
Írásomban most a három adatbázis bemutatására vállalkozom, arra fókuszálva, hogyan alkalmazhatók azok a magyar nyelv oktatásában. Az érintett források elsősorban a magyarnyelv-órákon használhatók, ám kis kreativitással nem kizárt azok más keretben történő felhasználása sem (elsősorban a Magyar nemzeti szövegtár esetében). A kiválasztott korpuszok és lexikális adatbázisok főként szókészleti vizsgálatokban hasznosíthatók (elsősorban elemzési fokuknak köszönhetően), mindezt oktatásban, tananyaghoz igazítható keretben. Bár – ahogy azt fentebb említettem – célközönségként elsősorban a magyarnyelv-órák preferálhatják azokat, ám egyrészt a folyamatos fejlesztések másrészt a folyamatosan keletkező – és így szabadon összekapcsolható – adatbázisok és a folyamatosan szofisztikálódó alkalmazások más és más (elsősorban humán) tantárgyak számára tehetik azokat érdekessé.
Trivialitás, hogy a korpuszok felhasználtsága elsősorban azok feldolgozottsági, elemzettségi fokától függ. Jelen írásban tárgyalt korpuszok „csupán“ morfológiai, morfoszintaktikai elemzéssel rendelkeznek (az Uralonet adatbázis elemzettségét az adatbázist alkotó szótár határozza meg). Az elemzés azonban önmagában nem korlátozza a használat módját és színtereit, kis kreativitással, extra energia befektetésével másfajta kutatások is lefolytathatók (gondolok itt elsősorban például a diskurzuselemzésre, helyesírásra [úzus vs szabály], szövegtani sajátosságok elemzésére, illetve a morfológiai lehetőségekre valamint a lexikológiai, lexikográfiai elemzésekre). Az érintett korpuszok felhasználása külön-külön is fontos segédeszközei lehetnek az oktatásnak, illetve a szinkron nyelvészeti kutatásoknak, ám egyazon kutatási téma összekapcsolásával akár diakrón vizsgálatokra is alkalmazahatóak. A nyelvi elemek változásának vizsgálatát több száz évnyi írásos anyag segíti – így a kvalitatív kutatások szilárdabb, számszaki alapokra helyezhetők.
Az érintett négy nyelvtechnológiai alkalmazás az interneten keresztül regisztráció után bárki számára elérhető, kutatásra szabadon felhasználható. Az alkalmazások készítői más-más céllal készítették el azokat, ami azok kereshetőségében, felhasználói felületeik különböző esztétikai és technikai megvalósulásában mutatkozik meg. Az alábbiakban mintegy érzékeltetve a különbséget, felvillantom a négy alkalmazás nyitólapját:
A tárgyalt korpuszok és adatbázis közül az Uralonet célzottan az oktatásban történő felhasználásra készült1, így az alkalmazások felhasználásának illusztrálását vele kezdem. A diakrón szószemantikai vizsgálatok összeköthetők a lexémák etimológiai, történeti kérdéseivel, azok változásaival. Érdekes lehet a ma már népies, kissé talán vulgáris konnotációval is bíró húgy szavunk történeti-etimológiai vizsgálata, amely a többi alkalmazással összekötve nemcsak megismerteti a diákokat egy-egy szó változásaival, hanem az alkalmazásokon keresztül betekintést nyújt (és talán érdeklődést is felkelt) a magyar nyelvtörténetbe, valamint a nyelvemlékek korszerű felhasználásának módjába.
Az Értelmező kéziszótár (ÉKSz2) a húgy szót a következőképpen definiálja:
A nyelvtörténetet ismerő tanár, nyelvész már ismeri a húgy szó etimológiáját, így az könnyen előhívható az Uralonetből, a “Fogalomkör” 1.2. Csillagokra állításával.
A megfelelő szó (csillag) megjelenítésével máris láthatóvá válnak a magyar jelentések (húgy, kaszahúgy), amelyek bővebb megismerése a többi alkalmazásban történő megnézésével folytatódhat.
A Régi magyar konkordancia, valamint a Magyar történeti korpusz adatai már mindkét jelentés (1. vizelet, 2. csillag) felváltva hozzák annyi különbséggel, hogy a Régi magyar konkordancia eredeti és mai írással is feltünteti a konkordanciát, valamint annak teljes körű morfológiai elemzését is feltünteti.
A Magyar nemzeti szövegtárban, azaz a szinkrón nyelvállapotban kutakodva már egyértelmű a jelentések eloszlásának gyakorisága, a ‘csillag’ jelentés sporadikus előfordulása, ami ez esetben a szónak a ‘vizelet’ jelentéssel való egyértelmű azonosítását eredményezi (lásd még az ÉKSZ2 szócikkét is). A húgy szó szaknyelvi-terminológiai jelentése csupán korlátozottan kereshető a Magyar nemzeti szövegtárban, lévén nem a magyar szaknyelvek gyűjtésére készült. A hozzáférhető adatokból azonban világosan látszik, hogy a mai magyar nyelv húgy szavának ‘csillag’ jelentése már csak a nyelvészeti szakirodalomban található meg, ‘csillag’ jelentése egyértelműen a nyelvtörténeti adatok részévé vált.
A fent bemutatott (valójában csupán felvillantott) korpuszok és adatbázis használatának lényege a nyelv mélyebb, és valós példákon történő megismerése (ez utóbbi alapvető követelménye – lenne – az egy- és kétnyelvű szótáraknak is). A szabad felhasználás (a fenti rendszerek a felhasználótól legfeljebb regisztrációt kérnek) úgy otthoni, mint iskolai-tantermi munkára, használatra is predesztinálja a tárgyalt korpuszokat, adatbázisokat. Bár egyik készítésénél sem volt elsődleges feladat azok tantermi használata, alkalmazásukkal, aktív használatukkal mégis több olyan cél kitűzhető, amelyekkel kreatívan bővíthető a tananyag, illetve maguk a tanulók is motiválhatóak. A használat alapvető célkitűzéseként érdemesnek tartom megemlíteni a tananyag aktív használatát, a feladatmegoldó képesség javítását (kreatív feladatok esetén), a magyar nyelvtechnológia szoftvereinek és az általuk kínált lehetőségek alaposabb megismerését, valamint az innovatív gondolkodást.
Mivel mind a négy alkalmazás más céllal készült, lényegében felhasználásuk is egy-egy szűkebb területre specifikálható. Az Uralonet elsősorban etimológiai, szemantikai és nyelvtörténeti kutatásokban, tananyagokban, a Régi magyar konkordancia tipikusan nyelvtörténeti témában, a nyelvemlékek megismerésekor alkalmazható. Jól használható a nyelvemlékek tipologizálásához, valamint szemantikai, grammatikai, illetve szövegnyelvészeti témák ismertetéséhez, gyakorlásához. A Magyar történeti korpusz főként változásvizsgálatokat (a Magyar nemzeti szövegtár anyagával összekapcsolva), szemantikai, grammatikai, szövegnyelvészeti, valamint komparatív kutatásokat elégít ki, illetve ezen a vonalon vonható be az oktatásba is. A Magyar nemzeti szövegtár (mint a Magyar történeti korpusz szinkron párja) főként változásvizsgálatok, grammatika (morfológia), élő nyelv, szövegnyelvészet és szemantika révén vonható be az oktatásba. Mivel mai nyelvállapotot dolgoz fel, ezért használható akár helyesírási témájú kérdések és anyagok illusztrálására is (akár a helyesírási szabályok és az úzus között feszülő ellentétek szemléltetésére). A feldolgozott szövegek típusai és a lekérdezőfelület nyújtotta lehetőségek miatt akár diskurzuselemzések is elvégezhetőek rajta.
Az MTA Nyelvtudományi Intézet által készített eszközök és korpuszok elsősorban a magyar nyelv feldolgozhatósága, és a magyar nyelvet kutatók kiszolgálása céljából készülnek. Mivel azonban a kutatás és az oktatás nem választható el élesen egymástól, a kutatásokra tervezett alkalmazások bátran használhatók az oktatásban is. Ennek megfelelően – még ha áttételesen is – néhány, az oktatásban is megvalósítható stratégiai cél fogalmazható meg.
A célok elérése ma már korántsem álom. A magyar nyelv a digitális korban című kiadványban (Simon et al. 2012) leírt helyzetjelentés szerint a magyar nyelv nyelvtechnológiai támogatottsága jóval az európai átlag fölött helyezkedik el. A sikerhez vezető úton elsősorban az oktatáspolitikai szektor döntéshozóit kell meggyőzni: a nyelvtechnológiai eszközök már – használatra – készen állnak.
Prószéky Gábor – Váradi Tamás 2012. Szerkesztői bevezetés. Általános Nyelvészeti Tanulmányok 24: 9–16.
Pusztai Ferenc (főszerk) 2003. Magyar értelmező kéziszótár (ÉKSZ2). Budapest: Akadémiai Kiadó
Simon Eszter – Lendvai Piroska – Németh Géza – Olaszy Gábor – Vicsi Klára 2012. The Hungarian Language in the Digital Age – A magyar nyelv a digitális korban. META-NET fehér Könyvek Sorozat, Berlin: Springer
Magyar Irodalmi és Köznyelv Nagyszótárának korpusza / Magyar Történeti Korpusz
Elektronikus magyar értelmező kéziszótár
META-NET Hungarian White Paper
1 Az oktatásban is használható feladatok a “Tanuláshoz-tanításhoz” menü alatt, az alábbi linkről érhetőek el: http://www.uralonet.nytud.hu/uewww/help.cgi?q=feladatok-egyetemi.