„Az internet nyelvváltozatai” című szakmai konferenciát követően Deutsch Tamás, az internetről és a digitális fejlesztésekről szóló nemzeti konzultáció előkészítéséért és lebonyolításáért felelős miniszterelnöki biztos és Dr. Bencze Lóránt, a Magyar Nyelvstratégiai Intézet igazgatója állt az újságírók elé a Miniszterelnökség épületében.
Deutsch Tamás hangsúlyozta, hogy az internet egy globális jelenség, globális eszközhasználat, globális platform egymástól távol lévők együttműködéséhez, ugyanakkor kimondható, hogy e világhálónak van magyar része is, mégpedig három szempontból is: az internetezést Magyarország területén szolgáló infrastruktúra, a magyar nyelv interneten való használata és a használók magyar volta miatt. „A magyar nyelv köszöni szépen, jól van” - idézte a miniszterelnöki biztos a konferencia egyik előadóját, Prószéky Gábort, aki szerint a magyar nyelv erős, az interneten a legnagyobb mértékben és a leggazdagabban használt 20-30 nyelv közé tartozik. A miniszteri biztos ezzel az idézettel is hangsúlyozni kívánta, hogy nem ért azokkal egyet, akik szerint az internet veszélyes lehet a magyar nyelvre.
Prószéky Gábort, a Pázmány Péter Katolikus Egyetem professzorát arról kérdeztem, hogy a nyelvészek az interneten megjelenő magyar nyelv megfigyelésére, elemzésére használnak-e olyan korszerű megoldásokat, amelyek alkalmasak nagy mennyiségű adat feldolgozására. „Igen, használnak – válaszolta a professzor –, olyanok is, akik gondolkodásukban kicsit konzervatívabbak, de hallják, hogy van ez a lehetőség, nekik sokszor a doktoranduszok, a fiatalok segítenek. Egyszerűen adatot megtalálni nem lehet az internet, a megfelelő nyelvi tartalmak nélkül, amit úgy hívnak, hogy korpusznyelvészet, amelynek kétféle nagy ága van. Az egyik ága ilyen egyszerű: keresik a példát és gyorsabban megtalálják az interneten, a másik pedig az, hogy addig nézegetik a korpuszt, amíg olyan összefüggésre nem jutnak, amit esetleg nem gondoltak volna e nélkül – ez az igazi plusz. Egyébként a saját kutatócsoportommal most gyűjtjük le a magyar webet, tehát arra, amit tizenegy-két éve megcsinált a Műegyetem a webkorpusznak, egy új kísérletet teszünk, rögzítjük a 2015-ös állapotot. Ráadásul mindezt egy olyan algoritmussal tesszük, az egyik doktoranduszom munkája alapján, hogy rögtön, amikor gyűjti le az anyagot, akkor szelektálunk is. Külön kezeljük a lektorált, vagy remélhetően lektorált portálok tartalmait, és van egy másik rész, amely a hozzászólásokat, fórumokat, blogokat tartalmazza, tehát olyan tartalmakat, amelyek nincsenek lektorálva, de szintén magyarul vannak. A kettőt nem keverjük össze, hogy ne az a kép alakuljon ki, hogy a magyar az ilyen vagy olyan, hanem különböző kódok vannak, és lehet kutatni, hogy miként is ír az újságíró, ha lektorálják, illetve hogy miként ír a magánember, ha az írott-beszélt nyelven szól.”