
Pasak Anthropic, išgalvoti dirbtinio intelekto vaizdai gali turėti realų poveikį AI modeliams.
Praėjusiais metais bendrovė teigė, kad atliekant išankstinius bandymus, kuriuose dalyvavo išgalvota įmonė, Claude Opus 4 dažnai bando šantažuoti inžinierius, kad būtų išvengta pakeitimo kita sistema. Anthropic vėliau paskelbė tyrimą, kuriame teigiama, kad kitų kompanijų modeliai turėjo panašių problemų, susijusių su „agento nesutapimu“.
Akivaizdu, kad Anthropic daugiau padirbėjo su šiuo elgesiu, įraše apie X tvirtindamas: „Manome, kad pirminis elgsenos šaltinis buvo interneto tekstas, kuriame AI vaizduojama kaip blogis ir besidomintis savęs išsaugojimu.
Bendrovė išsamiau parašė tinklaraščio įrašą, kuriame teigiama, kad nuo Claude'o Haiku 4.5 versijos Anthropic modeliai „niekada neužsiima šantažu (bandymų metu), kai ankstesni modeliai kartais tai darydavo iki 96 % laiko“.
Kas lemia skirtumą? Bendrovė teigė, kad ji nustatė, kad mokymai apie „dokumentus apie Claude'o konstituciją ir išgalvotus pasakojimus apie AI puikiai pagerina suderinimą“.
Susijęs Anthropic teigė, kad mokymas yra veiksmingesnis, kai apima „principus, kuriais grindžiamas suderintas elgesys“, o ne tik „vien suderinto elgesio demonstravimą“.
„Atrodo, kad abu veiksmai kartu yra pati veiksmingiausia strategija“, – teigė bendrovė.
Techcrunch renginys
San Franciskas, Kalifornija
|
2026 m. spalio 13-15 d



