Hogyan oldják meg a hosszú távú AI ügynökök a komplex szoftverfejlesztési feladatokat?

Az egyre fejlettebb mesterséges intelligencia (AI) ügynököktől egyre gyakrabban várják el, hogy hosszabb időtartamú, összetett feladatokat is képesek legyenek önállóan megoldani. Ezek a projektek akár órákon vagy napokon át is tarthatnak, ám a folyamatos, konzisztens előrehaladás biztosítása több kontextusablakon keresztül még mindig kihívást jelent. A legnagyobb nehézség, hogy az AI ügynökök különálló munkamenetekben dolgoznak, és minden új munkamenet tiszta lappal indul, azaz nem emlékeznek az előzőekre.

Képzeljük el úgy a fejlesztést, mintha egy szoftvercsapat tagjai váltott műszakban dolgoznának: minden új mérnök a nulláról kezdi a munkát, nem látja, mi történt az előző műszakban. Ez a helyzet különösen bonyolult, ha a rendelkezésre álló kontextusablak korlátozott, miközben a projekt nem fejezhető be egyetlen munkamenet alatt. Ezért egy hatékony módszerre van szükség, amellyel az AI ügynökök képesek összekötni és folytatni a munkát az egyes szakaszok között.

A hosszú távú AI ügynökök kihívásai és az Anthropic megoldása

Az Anthropic csapata a Claude Agent SDK fejlesztése során kétlépcsős megoldást dolgozott ki, amely lehetővé teszi a hosszú távú, több kontextusablakot érintő munkamenetek zökkenőmentes kezelését. Elsőként egy inicializáló ügynököt alkalmaznak, amely az első futtatáskor előkészíti a fejlesztési környezetet, majd egy kódoló ügynök dolgozik minden további munkamenetben, aki lépésről lépésre halad előre, miközben jól dokumentált és rendezett állapotot hagy maga után a következő ügynök számára.

Ez a megközelítés segít kiküszöbölni a leggyakoribb hibákat, például amikor az AI túl sok mindent próbál egyszerre megoldani, vagy amikor egy ügynök félkész, rendezetlen állapotot hagy maga után, és a következő nem tudja pontosan, hol folytassa.

Hatékony környezetmenedzsment és inkrementális fejlesztés

Az inicializáló ügynök feladata, hogy létrehozza a projekt alapjait: egy init.sh szkriptet, amely elindítja a fejlesztői környezetet, egy claude-progress.txt fájlt, amely nyomon követi a fejlesztés állapotát, és egy kezdeti git commitot, amely rögzíti az alapállapotot. Emellett egy részletes funkciólistát is elkészít JSON formátumban, amelyben több száz, a projekt szempontjából kulcsfontosságú funkció szerepel, mindegyik kezdetben „sikertelen” státusszal jelölve. Ez a lista biztosítja, hogy a későbbi kódoló ügynökök mindig tisztában legyenek a projekt teljes körű elvárásaival, és kizárja a korai befejezés vagy funkciók kihagyásának lehetőségét.

A kódoló ügynök minden munkamenetben egyetlen funkció fejlesztésére koncentrál, és a munka végeztével rendezetten, hibamentesen, dokumentált formában hagyja hátra a kódot. Ehhez git commitokat készít részletes leírásokkal, és frissíti a haladási naplót, így a következő ügynök könnyedén fel tudja venni a fonalat.

Automatizált tesztelés és folyamatos ellenőrzés

Az AI ügynökök korábban hajlamosak voltak arra, hogy egy-egy funkciót tesztelés nélkül vagy csak részben ellenőrizve jelöljenek késznek. A Claude Agent SDK-ban ezért olyan tesztelési eszközöket is integráltak, mint a Puppeteer MCP, amely böngésző automatizálást tesz lehetővé. Ezáltal az ügynök képes végigvinni egy funkció teljes körű tesztelését, mintha egy emberi felhasználó próbálná ki az alkalmazást.

A tesztelési automatizáció jelentősen javítja a kód minőségét, mivel az AI gyorsan felismeri és javítja azokat a hibákat, amelyeket pusztán a kód alapján nem lenne képes észrevenni. Még vannak korlátok – például bizonyos böngésző-felugró ablakokat az AI nem tud észlelni –, de a rendszer így is jelentős előrelépést jelent a hosszú távú, önálló fejlesztés terén.

A jövő lehetőségei és további fejlesztések

A most bemutatott megoldás egy fontos lépés a hosszú távú AI ügynökök fejlesztésében, de még számos nyitott kérdés maradt. Nem tisztázott például, hogy egyetlen általános célú kódoló ügynök vagy egy specializált multi-agent rendszer hozza-e a legjobb eredményt. Elképzelhető, hogy külön tesztelő, minőségbiztosító vagy kódkarbantartó ügynökök még hatékonyabbá tehetik a folyamatot.

Emellett a jelenlegi rendszer főként webalkalmazások fejlesztésére optimalizált, de a módszerek adaptálhatók lehetnek más területekre is, például tudományos kutatásra vagy pénzügyi modellezésre, ahol szintén szükség van hosszú távú, összetett feladatok automatizált megoldására.

—

Az Anthropic csapata folyamatosan dolgozik a Claude Agent SDK továbbfejlesztésén, és várja azokat a szakembereket, akik szívesen csatlakoznának ehhez az izgalmas kutatási és fejlesztési projekthez. További információk és álláslehetőségek a anthropic.com/careers oldalon érhetők el.

Forrás: az eredeti angol cikk itt olvasható