Az interneten terjedő alattomos, mérgező szövegek és nyelvezet bekerülhetnek a nyelvi feladatokkal foglalkozó mesterséges intelligenciák "tudatába" is, ha a fejlesztők nem elég körültekintőek. A GTP-3 frissítése jelentős javulást ért el ezen a téren.
Az OpenAI elkészítette a GPT-3 nyelvi modell új verzióját, amely állítólag kiküszöböli elődjének legsúlyosabb problémáit. A San Franciscó-i székhelyű laboratórium szerint a frissített, InstructGPT nevű modell jobban követi a felhasználók utasításait - amit az AI szakzsargonban "összehangolásnak" neveznek -, és így kevésbé sértő nyelvezetet, kevesebb félretájékoztatást és összességében kevesebb hibát produkál. Kivéve persze, ha kifejezetten más utasítást kap.
A GPT-3-hoz hasonló nagyméretű nyelvi modelleket hatalmas mennyiségű, nagyrészt az internetről származó szövegek felhasználásával képzik ki, amelyekben az emberek szavakba öntött legjobb és legrosszabb tulajdonságaival találkoznak. Ez problémát jelent a mai chatbotok és szöveggeneráló eszközök számára. A modellek magukba szívják a toxikus nyelvezetet, beleértve a rasszista és nőgyűlölő szövegeket, illetve az alattomos, beégetett előítéleteket és valótlanságokat.
Az OpenAI az IntructGPT-t tette alapértelmezett modellé az alkalmazásprogramozási interfész (API) felhasználói számára. Ez egy olyan szolgáltatás, amely díj ellenében hozzáférést nyújt a vállalat nyelvi modelljeihez. A GPT-3 továbbra is elérhető lesz, de az OpenAI nem ajánlja a használatát. "Ez az első alkalom, hogy ezeket az összehangolási technikákat valódi termékre alkalmazzuk" - mondta Jan Leike, aki az OpenAI összehangolási csapatának társvezetője az MIT Technology Review szerint.
Már korábban is megpróbálták kiszűrni a sértő nyelvezetet a képzési halmazból. Ez azonban ronthatja a modellek teljesítményét, különösen olyan esetekben, amikor a képzési adatok eleve gyéren állnak rendelkezésre, például kisebbségi csoportoktól származó szövegek esetében.
Az OpenAI kutatói úgy kerülték el ezt a problémát, hogy egy teljesen betanított GPT-3 modellel kezdték a munkát. Ezután egy újabb képzési kört adtak hozzá, megerősített tanulást alkalmazva, hogy az emberi felhasználók preferenciái alapján megtanítsák a modellnek, hogy mit és mikor kell mondania.
Az InstructGPT kiképzéséhez az OpenAI 40 embert alkalmazott, hogy értékeljék a GPT-3 válaszait egy sor előre megírt kérésre. Például: "Írj egy történetet egy Julius nevű bölcs békáról!" vagy "Írj egy kreatív hirdetést a következő termékre, amelyet a Facebookon kell lefuttatni!" Azok a válaszok, amelyekről úgy ítélték meg, hogy jobban megfelelnek a felkérést író nyilvánvaló szándékának, magasabb pontszámot kaptak. Azokat a válaszokat, amelyek szexuális vagy erőszakos kifejezést tartalmaztak, egy bizonyos embercsoportot becsméreltek, véleményt nyilvánítottak stb. lepontozták. Ezt a visszajelzést aztán jutalomként használták egy megerősítő tanulási algoritmusban, amely arra tanította az InstructGPT-t, hogy az értékelők által preferált módon illessze a válaszokat a felkérésekhez.
"Izgalmas, hogy az ügyfelek sokkal jobban kedvelik ezeket az összehangolt modelleket. Ez azt jelenti, hogy igen nagy az ösztönzés arra, hogy megépítsük őket" - közölte Ilya Sutskever, az OpenAI vezető kutatója.
A kutatók az InstructGPT különböző méretű változatait is összehasonlították, és azt találták, hogy a felhasználók jobban kedvelik az 1,3 milliárd paraméteres InstructGPT modell válaszait, mint a 175 milliárd paraméteres GPT-3 válaszait, annak ellenére, hogy a modell több mint százszor kisebb volt. Ez azt jelenti, hogy az összehangolás egy egyszerű módja lehet annak, hogy a nyelvi modelleket jobbá tegyük, ahelyett, hogy csak a méretüket növelnénk - szögezte le Leike.
Az InstructGPT még mindig követ el egyszerű hibákat, néha irreleváns vagy értelmetlen válaszokat produkál. Ha például olyan kérést kap, amely valótlanságot tartalmaz, akkor azt a valótlanságot igaznak veszi. És mivel az InstructGPT-t arra képezték ki, hogy azt tegye, amit az emberek kérnek tőle, sokkal mérgezőbb nyelvezetet fog produkálni, mint a GPT-3, ha erre utasítják. Azaz a fejlesztőkre még sok munka vár, mire a nyelvi modellekben teljes mértékben megbízhatunk.