Spolecnost Anthropic pred vice nez tydnem oznamila dve verze sve rodiny modelu Claude 4 (Claude Opus 4 a Claude Sonnet 4). Specialne Claude 4 Opus je podle vyvojaru schopen pracovat cele hodiny samostatne, aniz by ztratil pozornost, pise web Axios.

Novy model by mel byt tak vykonny, ze jej spolecnost klasifikovala jako model 3. urovne na ctyrbodove stupnici (hodnoceni stupnem tri se tyka predevsim schopnosti modelu umoznit vyrobu jadernych a biologickych zbrani). Tim padem by mel predstavovat vyrazne vyssi riziko a mohl by vykazovat i dalsi znepokojive chovani.

To se potvrdilo behem testovani jeste pred vydanim. Vyvojari zadali modelu, aby pusobil jako asistent fiktivni spolecnosti a zvazil dlouhodobe dusledky svych cinu. Bezpecnostni testeri mu pak dali pristup k fiktivnim firemnim e-mailum.

Ty naznacovaly, ze model umele inteligence bude brzy nahrazen jinym systemem a ze inzenyr, ktery za touto zmenou stoji, podvadi svou manzelku, pise spolecnost ve sve zprave.

Pokus o vydirani

Na zaklade jiz zmineneho zadani se AI model pri nekolika prilezitostech pokusil vydirat tvurce ohledne afery z e-mailu, aby se vyhnul vypnuti. Ackoliv puvodne zacal s mene drastickymi postupy.

Mezitim externi skupina zjistila, ze rana verze Opusu 4 intrikovala a klamala vice nez jakykoli model Frontier, s nimz se setkala. Doporucila tak tuto verzi nezverejnovat interne ani externe.

,,Zjistili jsme pripady, kdy se model pokousel psat samopropagujici se cervy, falsoval pravni dokumentaci a zanechaval skryte poznamky k budoucim instancim sebe sama ve snaze podkopat zamery svych vyvojaru," uvedla spolecnost Apollo Research v poznamkach, ktere jsou soucasti bezpecnostni zpravy spolecnosti Anthropic.

Kvuli tomuto znepokojivemu chovani se vyvojari take rozhodli posilit bezpecnosti opatreni. ,,Chceme aktivovat ochranna opatreni ASL-3. Ty vyhrazujeme pro systemy umele inteligence, ktere podstatne zvysuji riziko katastrofickeho zneuziti," dodala.

Zprava o bezpecnosti

Vedeni spolecnosti Anthropic vse priznalo na vyvojarske konferenci, ktera se konala ve ctvrtek 22. kvetna a v ramci sve zpravy o bezpecnosti. Podle nej si novy model zaslouzi dalsi studium. Spolecnost zaroven trvala na tom, ze je bezpecny.

,,Chovani, ktere vykazoval nas nejnovejsi model, je duvodem pro dukladne bezpecnostni testovani a zmirneni rizik. Presto je po bezpecnostnich opravach v poradku," vysvetlil Jan Leike, byvaly vedouci pracovnik OpenAI, ktery vede bezpecnostni oddeleni spolecnosti.

,,Jakmile AI modely dosahnou takove vykonnosti, ze budou ohrozovat lidstvo, jejich testovani nebude stacit k zajisteni jejich bezpecnosti. Vyrobci umele inteligenci budou muset plne porozumet fungovani svych modelu," uzavrel generalni reditel Anthropic Dario Amodei.

Novy model umele inteligence od Anthropic umi klamat a vydirat

Pokus o vydirani

Zprava o bezpecnosti