Hirdetés
. Hirdetés

Az OpenAI új nyelvi modellje már kevésbé agresszív, de még túl naiv

|

Igen nagy az ösztönzés arra, hogy megépítsék őket.

Hirdetés

Az interneten terjedő alattomos, mérgező szövegek és nyelvezet bekerülhetnek a nyelvi feladatokkal foglalkozó mesterséges intelligenciák "tudatába" is, ha a fejlesztők nem elég körültekintőek. A GTP-3 frissítése jelentős javulást ért el ezen a téren.

Az OpenAI elkészítette a GPT-3 nyelvi modell új verzióját, amely állítólag kiküszöböli elődjének legsúlyosabb problémáit. A San Franciscó-i székhelyű laboratórium szerint a frissített, InstructGPT nevű modell jobban követi a felhasználók utasításait - amit az AI szakzsargonban "összehangolásnak" neveznek -, és így kevésbé sértő nyelvezetet, kevesebb félretájékoztatást és összességében kevesebb hibát produkál. Kivéve persze, ha kifejezetten más utasítást kap.

Hirdetés

A GPT-3-hoz hasonló nagyméretű nyelvi modelleket hatalmas mennyiségű, nagyrészt az internetről származó szövegek felhasználásával képzik ki, amelyekben az emberek szavakba öntött legjobb és legrosszabb tulajdonságaival találkoznak. Ez problémát jelent a mai chatbotok és szöveggeneráló eszközök számára. A modellek magukba szívják a toxikus nyelvezetet, beleértve a rasszista és nőgyűlölő szövegeket, illetve az alattomos, beégetett előítéleteket és valótlanságokat.

Az OpenAI az IntructGPT-t tette alapértelmezett modellé az alkalmazásprogramozási interfész (API) felhasználói számára. Ez egy olyan szolgáltatás, amely díj ellenében hozzáférést nyújt a vállalat nyelvi modelljeihez. A GPT-3 továbbra is elérhető lesz, de az OpenAI nem ajánlja a használatát. "Ez az első alkalom, hogy ezeket az összehangolási technikákat valódi termékre alkalmazzuk" - mondta Jan Leike, aki az OpenAI összehangolási csapatának társvezetője az MIT Technology Review szerint.

Már korábban is megpróbálták kiszűrni a sértő nyelvezetet a képzési halmazból. Ez azonban ronthatja a modellek teljesítményét, különösen olyan esetekben, amikor a képzési adatok eleve gyéren állnak rendelkezésre, például kisebbségi csoportoktól származó szövegek esetében.

Az OpenAI kutatói úgy kerülték el ezt a problémát, hogy egy teljesen betanított GPT-3 modellel kezdték a munkát. Ezután egy újabb képzési kört adtak hozzá, megerősített tanulást alkalmazva, hogy az emberi felhasználók preferenciái alapján megtanítsák a modellnek, hogy mit és mikor kell mondania.

Az InstructGPT kiképzéséhez az OpenAI 40 embert alkalmazott, hogy értékeljék a GPT-3 válaszait egy sor előre megírt kérésre. Például: "Írj egy történetet egy Julius nevű bölcs békáról!" vagy "Írj egy kreatív hirdetést a következő termékre, amelyet a Facebookon kell lefuttatni!" Azok a válaszok, amelyekről úgy ítélték meg, hogy jobban megfelelnek a felkérést író nyilvánvaló szándékának, magasabb pontszámot kaptak. Azokat a válaszokat, amelyek szexuális vagy erőszakos kifejezést tartalmaztak, egy bizonyos embercsoportot becsméreltek, véleményt nyilvánítottak stb. lepontozták. Ezt a visszajelzést aztán jutalomként használták egy megerősítő tanulási algoritmusban, amely arra tanította az InstructGPT-t, hogy az értékelők által preferált módon illessze a válaszokat a felkérésekhez.

"Izgalmas, hogy az ügyfelek sokkal jobban kedvelik ezeket az összehangolt modelleket. Ez azt jelenti, hogy igen nagy az ösztönzés arra, hogy megépítsük őket" - közölte Ilya Sutskever, az OpenAI vezető kutatója.

A kutatók az InstructGPT különböző méretű változatait is összehasonlították, és azt találták, hogy a felhasználók jobban kedvelik az 1,3 milliárd paraméteres InstructGPT modell válaszait, mint a 175 milliárd paraméteres GPT-3 válaszait, annak ellenére, hogy a modell több mint százszor kisebb volt. Ez azt jelenti, hogy az összehangolás egy egyszerű módja lehet annak, hogy a nyelvi modelleket jobbá tegyük, ahelyett, hogy csak a méretüket növelnénk - szögezte le Leike.

Az InstructGPT még mindig követ el egyszerű hibákat, néha irreleváns vagy értelmetlen válaszokat produkál. Ha például olyan kérést kap, amely valótlanságot tartalmaz, akkor azt a valótlanságot igaznak veszi. És mivel az InstructGPT-t arra képezték ki, hogy azt tegye, amit az emberek kérnek tőle, sokkal mérgezőbb nyelvezetet fog produkálni, mint a GPT-3, ha erre utasítják. Azaz a fejlesztőkre még sok munka vár, mire a nyelvi modellekben teljes mértékben megbízhatunk.

Hirdetés
0 mp. múlva automatikusan bezár Tovább az oldalra »

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.computertrends.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.