Az Országos Széchényi Könyvtár (OSZK) és az Eötvös Loránd Kutatási Hálózat Nyelvtudományi Kutatóközpontja (NYTK) egy olyan, a mesterséges intelligencia fejlesztését célzó innovációs együttműködést indít, amely nagy nyelvi modellek építését és nyelvfeldolgozó eszközök létrehozását állítja a középpontba - közölte az OSZK.
A szerdán aláírt megállapodás értelmében az OSZK a Nyelvtudományi Kutatóközpontnak átadja a Magyar Elektronikus Könyvtárban (MEK) és az Elektronikus Periodika Archívum és Adatbázisban (EPA) elérhető szöveges dokumentumokat, a webarchívumok szöveges állományait, valamint a dHUpla adatbázisban szereplő anyagokat - írták.
A kutatóközpont ezeket a szövegeket felhasználva nagy nyelvi modelleket épít, amelyek finomhangolásával számos nyelvfeldolgozó eszközt lehet fejleszteni - mutatnak rá a közleményben. Hozzátették, hogy a kutatóközpontnak már van tapasztalata a nyelvi modellek fejlesztése terén: a nevéhez fűződik a Puli-GPT, amely csak magyar nyelvű szöveges anyagokon tanult, és a ChatGPT-hez hasonló funkcionalitással bír.
Az NYTK a nemzeti könyvtár szövegei alapján létrehozott eszközöket az OSZK számára is hozzáférhetővé teszi. A nyelvfeldolgozó eszközök segítségével egyebek mellett a nyelvfelismerés és a webarchiválási tevékenység keretében keletkezett hatalmas mennyiségű tartalom feldolgozása is automatizálhatóvá válik - emelik ki.
Emellett a nemzeti könyvtár és az NYTK kooperációban dolgozza fel és teszi elérhetővé a Magyar Nagylexikon tizenkilenc kötetének anyagát. A terjedelmes dokumentum egyrészt olvasható és kereshető lesz egy webes lekérdező-felületen a felhasználók számára, másrészt származtatott erőforrások készülnek belőle, amelyeket a mesterségesintelligencia-kutatással foglalkozó szakemberek kiválóan tudnak majd hasznosítani egyéb eszközök fejlesztéséhez - olvasható a közleményben.