Antropikas sako, kad už Claude'o šantažo bandymus buvo kaltas „piktas“ AI vaizdavimas

Pasak Anthropic, išgalvoti dirbtinio intelekto vaizdai gali turėti realų poveikį AI modeliams.

Praėjusiais metais bendrovė teigė, kad atliekant išankstinius bandymus, kuriuose dalyvavo išgalvota įmonė, Claude Opus 4 dažnai bando šantažuoti inžinierius, kad būtų išvengta pakeitimo kita sistema. Anthropic vėliau paskelbė tyrimą, kuriame teigiama, kad kitų kompanijų modeliai turėjo panašių problemų, susijusių su „agento nesutapimu“.

Akivaizdu, kad Anthropic daugiau padirbėjo su šiuo elgesiu, įraše apie X tvirtindamas: „Manome, kad pirminis elgsenos šaltinis buvo interneto tekstas, kuriame AI vaizduojama kaip blogis ir besidomintis savęs išsaugojimu.

Bendrovė išsamiau parašė tinklaraščio įrašą, kuriame teigiama, kad nuo Claude'o Haiku 4.5 versijos Anthropic modeliai „niekada neužsiima šantažu (bandymų metu), kai ankstesni modeliai kartais tai darydavo iki 96 % laiko“.

Kas lemia skirtumą? Bendrovė teigė, kad ji nustatė, kad mokymai apie „dokumentus apie Claude'o konstituciją ir išgalvotus pasakojimus apie AI puikiai pagerina suderinimą“.

Susijęs Anthropic teigė, kad mokymas yra veiksmingesnis, kai apima „principus, kuriais grindžiamas suderintas elgesys“, o ne tik „vien suderinto elgesio demonstravimą“.

„Atrodo, kad abu veiksmai kartu yra pati veiksmingiausia strategija“, – teigė bendrovė.

Techcrunch renginys

San Franciskas, Kalifornija
|
2026 m. spalio 13-15 d

Source link

Susijusios istorijos

Pasiruoškite šnabždesio kupinam ateities biurui

Karščiausia vieta startuoliams sudaryti sandorį? F1 atrama

Balso AI Indijoje yra sunku. „Wispr Flow“ vis tiek stato dėl to.

Galbūt praleidote

Atotrūkis tarp širdžiai mielų AI skelbimų ir tikrojo tikslo: jūsų darbas

Ar tikrai Meta miršta?

Antropikas sako, kad už Claude'o šantažo bandymus buvo kaltas „piktas“ AI vaizdavimas

„Google Drops“ DUK Gausūs paieškos rezultatai