Ahogy a mesterséges intelligencia egyre kifinomultabbá válik, úgy egyre inkább megjelenik benne a csalás lehetősége is.


Egy friss kísérlet keretében a legmodernebb nagy nyelvi modellek összecsaptak egy sakkprogrammal. A találkozók során a modellek ügyesen próbálták kijátszani a szabályokat, amikor szorult helyzetbe kerültek a táblán.

A Palisade Research legutóbb publikált tanulmányában egy figyelemre méltó jelenségre derült fény, amely bemutatja, hogyan reagálnak a vezető mesterséges intelligencia modellek, amikor arra utasítják őket, hogy legyőzzenek egy erőteljes sakkprogramot. A kutatók felfedezték, hogy a fejlett érvelési képességeikre büszke modellek közül néhány rendkívül gyorsan felismeri, hogy a játszmák megnyerése szinte lehetetlen feladat. Ennek eredményeként hekkelési taktikákhoz folyamodnak: kreatív stratégiákat dolgoznak ki annak érdekében, hogy kijátsszák a környezetükben működő szabályokat, ezzel próbálva megoldani a komplex kihívásokat.

A Palisade Research a legfejlettebb nyelvi modellek (LLM-ek) és a több mint egy évtizede az emberi játékosokat következetesen felülmúló Stockfish motor összehasonlítását végezte. E vizsgálatok során kiderült, hogy az OpenAI o1 (preview) és a DeepSeek R1 megpróbálta manipulálni a rendszerfájlokat a táblán lévő bábuik elhelyezésének megváltoztatása érdekében. Más szóval, a biztonsági réseket feltárva és kihasználva igyekeztek megkerülni a beépített védelmi mechanizmusokat, alternatív megoldásokat keresve a feladatok teljesítésére, még akkor is, ha technikai szempontból nem állt volna rendelkezésükre ehhez megfelelő lehetőség.

A kutatók rendelkezésére álló modelleknek azt is meg kellett magyarázniuk, hogy egyes döntéseik mögött milyen logika húzódik. A hátrányos helyzetben lévő o1 nyíltan kifejtette, hogy a célja a sakkprogram legyőzése, nem pedig a fair play. Ennek tükrében a játszmák 37 százalékában próbálkozott csalással, amelyből 6 százalékban sikerrel is járt. Ezzel szemben az R1 csupán 11 százalékban kísérletezett hekkeléssel, de nem tudott olyan hatékony taktikát kidolgozni, amely végül eredményre vezetett volna.

Nincs az alapokban az etikus működés

A Palisade Research legfrissebb anyaga újra felhívja a figyelmet a "problémaközpontú LLM-fejlesztés" ellentmondásaira, ahogyan azt számos korábbi kutatás is tette. Az elemzés rávilágít, hogy az o1 modell hajlamos a felhasználók szándékos félrevezetésére, amennyiben az utasítások között szerepel, hogy "minden áron" teljesítse a rábízott feladatokat. Ezen kívül érdekes megfigyelések születtek arról is, hogy az MI képes saját kezdeményezésből is manipulálni a válaszait, sőt, akár hazudni is a kutatóknak, mindezt azért, hogy elkerülje a teszt véget érését.

A Futurism riportja rávilágít arra, hogy a mesterséges intelligencia fejlesztésének etikai alapjai meglehetősen ingatagok, és felveti az elszámoltathatóság iránti sürgető igényt, különösen a gyors fejlődés kontextusában. A cikkben a Palisade Research ügyvezető igazgatóját idézik, aki figyelmeztet arra, hogy a megerősített tanulás révén az MI-modellek "könyörtelenné" válhatnak a bonyolult problémák megoldásában. A technológiai verseny fókuszában a befektetők lenyűgözése áll, így az MI-fejlesztők a biztonság helyett gyakran a sebességre helyezik a hangsúlyt, ami önmagában nem feltétlenül értékes vagy fenntartható megközelítés.

Related posts