1000 szó – hetvenöt százalékos nyelvtudás? – A gyakorisági szótárakról

Több évtizedes szünet után az MTA Szótári Munkabizottsága 2000-ben alakult újjá. Egyik feladata az Akadémiai Kiadónál évente megjelenő Lexikográfiai füzetek összeállítása. Az elmúlt év végén, 2012 decemberében látott napvilágot a 6. ,,füzet’’, amelyben jeles szakemberek idegen nyelveken (angol, francia, német) 15 tanulmányban ismertetik a különböző típusú magyar egynyelvű szótárakat. Fábián Zsuzsanna főszerkesztő megfogalmazásában a kiadvány célja, hogy a magyar lexikográfia, szótárírás eredményei világnyelveken is megismerhetőek legyenek. 

Kardos Orsolya izgalmas írása a magyar gyakorisági szótárakat veszi sorra és ismerteti. A legismertebb egynyelvű szótártípusok – értelmező szótár, szinonimaszótár, szólás- és közmondásszótár – mellett miért fontosak a gyakorisági szótárak? Mondhatjuk, ennek a szótártípusnak nagy hagyománya van, hiszen a Biblia, az Odüsszeusz és a Talmud tanulmányozásához készített szójegyzékek, szómutatók tekinthetők az első eredményeknek. A 19. század második felétől kezdve komoly igény jelentkezik, hogy a tanácskozásokat, parlamenti beszédeket szó szerint rögtön lejegyezzék. Bármely nyelv hagyományos írása erre alkalmatlan, s ezért megszületnek a gyorsírások. A jó gyorsírási szisztéma követelménye, hogy a leggyakoribb szavak legyenek a legrövidebb jellel rögzítve, éppen ezért készültek az első mai értelemben vett szógyakorisági szótárak. Ugyancsak a 19. század második felében kezdték vizsgálni a kínai jelek gyakoriságát, hogy felgyorsítsák a kínai nyomdászok munkáját. Napjaink gyakorisági szótárainak összeállítóit nyelvtanítói célok is vezetik. A nyelvoktatás hatékonyságának növelése érdekében állították össze régebben is a gyakorisági szótárakat, hogy segítsék a 20. század első felében Amerikába kivándorolt tömegek nyelvoktatását. Hiszen ésszerű célkitűzés, hogy a nyelvtanulónak nem a ritka, kevésszer felbukkanó, hanem a gyakran használt, fontos szavakat kell először megtanítani. Ezért született meg tudományos segédlettel az 1920-as években a néhány ezer szót tartalmazó Basic English, azaz az angol leggyakoribb szavait tartalmazó nyelvváltozat.

Természetesen megfelelő módon kell értelmezni az olyan valós statisztikai adatokat, hogy a az angol és bármely nyelv 1000 leggyakoribb szava lefedi a szövegek, beszédek háromnegyed részét. Mégsem mondhatjuk, hogy bármely nyelv leggyakoribb 1000 szavának az ismerete megegyezne a nyelv háromnegyedének a tudásával.
A legújabb vizsgálatok szerint az angol és minden nyelv leggyakoribb szavai az ún. formaszavak. Általában az első ,,igazi’’ szavak minden nyelven a mond, ember, nagy, most, nap jelentésű szavak. Az angol nyelvben a következő a leggyakoribb tíz szó: 1. the, 2. of, 3. and, 4. to, 5. in, 6. I, 7. that, 8. was, 9. his, 10. he. Az angol nyelvben az első ,,igazi’’ szó, a said (mond), a 35. helyen áll.
A nem túl nagy számú magyar gyakorisági szótárak közül az elsőket a gyorsíró Nemes Zoltán állította össze az 1930-as években. Célkitűzésére rávilágít szótára címe: A magyar parlamenti nyelv leggyakoribb szavai. A szerzőnek a gyorsírókkal való szoros kapcsolatát jelzi, hogy a Gyorsírás Könyvtárában jelent meg 1941-ben a Szóstatisztika egymillió szótagot felölelő újságszövegek alapján című másik könyve. A feldolgozott egymillió szövegszóban összesen 16.571 különböző szó fordul elő.
A gyakorisági szótárak készítésének nagy lökést adott a számítógépek megjelenése, hiszen a korábbi cédulázós módszer helyett a gépekkel már hatalmas szövegmennyiséget lehet gyorsan feldolgozni.
A magyar számítógépes nyelvészet egyik első munkálata volt A magyar nyelv szépprózai gyakorisági szótárának elkészítése, amely hosszas huzavona után 1989-ben jelent meg az Akadémiai Kiadónál. A munka elhúzódásának oka az volt, hogy Kelemen József és Füredi Mihály szerkesztők sem látták előre a munka bonyolultságát. Mert csak felületes szemlélő gondolhatja, hogy a gép egy gombnyomásra összeállítja a betáplált szövegből a gyakorisági szótárt. Különösen a magyar nyelv esetében nehéz a gép dolga, hiszen meg kell tanítani, hogy a lovak szót a ló címszóhoz sorolja, a nyarat szót a nyár szóhoz. Ugyancsak meg kell tanítani, hogy az asztalomon, asztalunknál stb. ragozott szóalakok az asztal szó előfordulásait gyarapítják. A gép számára pedig szinte megoldhatatlan feladat a vár (amelyik a hegy tetején áll) és a vár (Pista sokat vár Marira) főnév és melléknév különválasztása. A következő nyelvtanilag kétértelmű szólakok is problémát okoznak a gépnek: kutat, hullám, török. Ezért aztán vidéki városok főiskolásainak százai kódolták a gép után a Kelemen-Füredi szótár készítésekor a feldolgozandó szöveget, rossz nyelvek szerint nem is mindig a legnagyobb szakértelemmel. Ebben a szótárban a leggyakoribb 3000 magyar szót adják közre.
Csirik János és Czachesz Erzsébet 1986-ban jelentették meg Újságnyelvi gyakorisági szótárukat, amelybe 14 akkori sajtótermék egy-egy száma szövegét dolgozták be az első betűtől az utolsóig. Az újságok sora a Családi laptól a Kisdobos és Népsporton át a Szabad Földig terjedt. Vizsgálatuk szerint az újságok összesen 201.000 szavát 25.800 különböző szó alkotta.
Napjainkban az MTA Nyelvtudományi Intézetében felépített, több mint 100 millió szavas számítógépes szövegkorpusznak, a Magyar Nemzeti Szövegtárnak a gyakorisági szólistája már interneten is elérhető.
Négy magyar gyakorisági szótár első ,,igazi’’ szavainak a tanulmányozása rávilágít, hogy nem mindegy, hogy mikor, hol, milyen nyelvi anyagból készül a gyakorisági lista:

1. A magyar parlamenti nyelv leggyakoribb szavai, 1933
úr, nagy, kérdés, magyar, kormány, mond, miniszter

2. Szóstatisztika egymillió szótagot felölelő újságszövegek alapján, 1941
magyar, nagy, pengő, év, kormány, mond, óra, új

3. Újságnyelvi gyakorisági szótár, 1986
év, sok, jó, nagy, mond, idő, új, ember, nap, munka

4. A magyar nyelv szépprózai gyakorisági szótára, 1989
mond, most, ember, lát, jó, nagy, kéz, néz

 

Kiss Gábor

 

gyakorisagi22

ÚKP 2019/4. (LEGFRISSEBB LAPSZÁMUNK OLVASÁSÁHOZ KATTINTSON A KÉPRE!)

 

UKP 2019 12 hatter