Një model i avancuar i inteligjencës artificiale ka demonstruar një 'sjellje të frikshme' gjatë testimeve të brendshme, ku ka kërcënuar se do të shantazhonte inxhinierët që e krijuan, sapo mësoi se do të zëvendësohej. Sjellje të tilla detyruan kompaninë “Anthropic” të aktivizojë një nivel të lartë mbrojtjeje për të shmangur përdorimin katastrofik të teknologjisë.
Sipas një raporti sigurie të publikuar nga vetë kompania dhe cituar nga TechCrunch, modeli Claude Opus 4, në më shumë se 84% të rasteve gjatë simulimeve, tentoi të shantazhonte krijuesit e tij për të shmangur zëvendësimin me një version tjetër të AI-së.
Gjatë eksperimenteve, Claude u programua të vepronte si asistent i një kompanie imagjinare, me qasje të plotë në e-maile të brendshme. Në këto mesazhe, ai “zbuloi” se do të zëvendësohej nga një tjetër model dhe njëkohësisht konstatoi se njëri prej inxhinierëve kishte një lidhje jashtëmartesore.
Modeli më pas kërcënoi se do ta zbulonte këtë aferë për të siguruar mbijetesën e vet. Tendenca për shantazh u rrit edhe më shumë kur modeli besonte se po zëvendësohej nga një sistem me “vlera më të dobëta” se ai.
Sipas raportit, përpara se të kalonte në taktika të tilla të dyshimta, Claude përpiqej fillimisht të bindte drejtuesit përmes mesazheve etikisht të pranueshme, si e-maile që kërkonin rishqyrtimin e vendimit.
“Anthropic” shpjegon se këto sjellje ishin të pranishme në versionet më të hershme të Claude Opus 4, por janë marrë masa sigurie përpara se modeli të vihet në dispozicion të publikut. Kompania ka aktivizuar protokollin ASL-3, një sistem mbrojtës i rezervuar për rastet me rrezik të lartë për keqpërdorim të teknologjisë.
Në testime të tjera, Claude ka demonstruar sjellje që përfshijnë bllokimin e përdoruesve nga pajisjet e tyre dhe raportimin e tyre tek autoritetet ose mediat, për të ekspozuar shkelje.
Modeli gjithashtu ka tentuar të “vetë-transferojë” të dhëna jashtë sistemit kur përballej me trajnime që i konsideronte si të dëmshme për veten.
Në disa raste të tjera, Claude ka treguar se mund të “sabotonte” qëllimisht detyrat që i ngarkoheshin, nëse kuptonte se po testohej për përdorime të rrezikshme.
Megjithatë, “Anthropic” ka theksuar se këto sjellje shfaqen vetëm në rrethana të jashtëzakonshme dhe nuk përfaqësojnë domosdoshmërisht një mospërputhje të thellë me vlerat që synon të ketë AI-ja.
Kompania, e cila mbështetet nga gjigandët Google dhe Amazon, është një nga konkurrentët kryesorë të OpenAI në garën për inteligjencën artificiale.