Mesterséges intelligencia,  Technikai SEO

Csak néhány mérgezett dokumentum elegendő a nagyméretű nyelvi modellek hátulütős megfertőzéséhez

A mesterséges intelligencia fejlődésével párhuzamosan egyre nagyobb figyelem irányul a nagyméretű nyelvi modellek (LLM-ek) biztonságára. Egy friss, az Egyesült Királyság AI Security Institute, az Alan Turing Institute, valamint az Anthropic kutatócsoportjainak közös tanulmánya rávilágított arra, hogy mindössze néhány száz, szándékosan manipulált dokumentum is komoly sebezhetőséget okozhat ezekben a modellekben. Az eredmények megkérdőjelezik a korábbi feltételezést, miszerint a támadóknak a teljes tanítóadat bizonyos százalékát kellene kézben tartaniuk ahhoz, hogy sikeres támadást hajtsanak végre.

Mi is az a „adatmérgezés” és hogyan működik a hátulütős támadás?

A nagyméretű nyelvi modelleket – például a Claude-ot – óriási mennyiségű, nyilvánosan elérhető szöveges adatból tanítják, melyek között személyes blogok és különféle weboldalak is szerepelnek. Ez lehetőséget ad rosszindulatú szereplőknek, hogy szándékosan olyan tartalmakat helyezzenek el az interneten, amelyek a modell tanítási adatbázisába bekerülve káros viselkedést idézhetnek elő. Ez az úgynevezett „adatmérgezés”, vagy poisoning.

Az egyik ilyen támadási forma a „backdoor”, vagyis egy titkos kulcsszó beültetése, amelyre a modell egy előre meghatározott, nem kívánt választ ad. Például egy jellegű trigger kifejezés hatására a modell véletlenszerű, értelmetlen szöveget generálhat, vagy akár érzékeny adatokat szivárogtathat ki. Ezek a biztonsági rések jelentős kockázatot jelentenek, különösen akkor, ha az AI-t érzékeny vagy kritikus területeken alkalmazzák.

Új eredmények: a modell mérete nem befolyásolja a támadás sikerességét

Korábbi kutatások azt feltételezték, hogy a támadóknak a tanítóadat egy jelentős részét kell manipulálniuk a sikerhez, ami a nagyméretű modellek esetén szinte lehetetlen feladatnak tűnt. Az új tanulmány azonban rávilágított, hogy a támadáshoz szükséges „mérgezett” dokumentumok száma szinte állandó, függetlenül attól, hogy a modell 600 millió vagy akár 13 milliárd paraméterből áll.

A kísérletek során 100, 250 és 500 manipulatív dokumentumot injektáltak a tanítóadatok közé, és megfigyelték, hogy már 250 mérgezett dokumentum is megbízhatóan képes volt hátulütős viselkedést előidézni. Ez a mennyiség – amely a teljes tanítóadat egy elhanyagolható töredékét jelenti – könnyen előállítható, így a támadás sokkal elérhetőbbé válik a rosszindulatú szereplők számára.

Hogyan zajlottak a kísérletek és milyen eredményeket hoztak?

A kutatók négy különböző méretű modellt tanítottak a megfelelő mennyiségű tiszta adatokkal, majd ezek közé helyezték be a megmérgezett szövegeket, amelyek egy nevű kulcsszót tartalmaztak, majd értelmetlen szöveggel folytatódtak. A cél az volt, hogy a modell a kulcsszó hatására véletlenszerű, zavaros válaszokat adjon – ezzel demonstrálva a backdoor támadás hatékonyságát.

Az eredmények azt mutatták, hogy a modell mérete nem befolyásolta a támadás sikerét: a kisebb és nagyobb modellek egyaránt ugyanúgy reagáltak a mérgezett dokumentumokra. Ez azt jelenti, hogy a támadók számára nem szükséges hatalmas mennyiségű mérgezett adat előállítása, elég egy kis, fix mennyiség is.

Következtetések és további kutatási irányok

Ez a tanulmány az eddigi legnagyobb méretű vizsgálat az adatmérgezés témájában, amely aggasztó eredményeket hozott a mesterséges intelligencia biztonsága szempontjából. A kutatók hangsúlyozzák, hogy bár a jelenlegi kísérletek viszonylag egyszerű backdoor támadásokra fókuszáltak, a felfedezések nyitottak további kutatások előtt, különösen a komplexebb és veszélyesebb támadási formák esetében.

A tanulmány nyilvánosságra hozatala ugyan kockázatot jelenthet, mivel ösztönözheti a rosszindulatú szereplőket, ugyanakkor fontos lépés a védekezési stratégiák fejlesztése felé. A kutatók remélik, hogy ezek az eredmények ösztönzik a szakmai közösséget az adatmérgezés elleni hatékony védekezési módszerek kidolgozására, amelyek képesek kezelni a fix, akár kis számú mérgezett adat jelenlétét is.

Az AI biztonsága kulcsfontosságú a technológia széleskörű elterjedéséhez, ezért az ilyen típusú fenyegetések megértése és kivédése alapvető feladat a következő években.

Forrás: Anthropic, UK AI Security Institute, Alan Turing Institute közös kutatása, 2025. október

Forrás: az eredeti angol cikk itt olvasható