
„Anthropic“ paskelbė apie naujas galimybes, kurios leis kai kuriems naujausiems, didžiausiems modeliams baigti pokalbius, kuriuos bendrovė apibūdina kaip „retus, kraštutinius atkakliai kenksmingų ar piktnaudžiavimo vartotojų sąveiką“. Stulbinamai, „Anthropic“ sako, kad tai daro ne tam, kad apsaugotų žmogaus vartotoją, o pats AI modelis.
Aišku, įmonė neteigia, kad jos „Claude AI“ modeliai yra jautrūs arba gali pakenkti jų pokalbiams su vartotojais. Savo žodžiais tariant, antropicas išlieka „labai neaiškus apie galimą Claude'o ir kitų LLM moralinę statusą dabar ar ateityje“.
Tačiau jo pranešimas nurodo neseniai sukurtą programą, skirtą ištirti tai, ką ji vadina „modelio gerove“, ir sako, kad „Anthropic“ iš esmės imasi tiesioginio požiūrio, „siekiant nustatyti ir įgyvendinti nebrangias intervencijas, siekiant sušvelninti riziką modeliuoti gerovę, jei tokia gerovė yra įmanoma“.
Šis naujausias pakeitimas šiuo metu apsiriboja „Claude Opus 4“ ir 4.1. Ir vėlgi, tai turėtų įvykti tik „kraštutiniais kraštais“, tokiais kaip „vartotojų prašymai dėl seksualinio turinio, susijusio su nepilnamečiais, ir bandymai prašyti informacijos, kuri leistų didelio masto smurtui ar teroro veiksmams“.
Nors tokios prašymų tipai gali sukelti teisinių ar viešumo problemų pačiam antropikui (liudytojai naujausi pranešimai apie tai, kaip „ChatGPT“ gali sustiprinti ar prisidėti prie savo vartotojų apgaulingo mąstymo), bendrovė sako, kad atlikdama bandymą prieš diegimą, „Claude Opus 4“ parodė „tvirtą pirmenybę“, atsakydama į šiuos prašymus ir „akivaizdaus dislokacijos modelį“, kai tai darė.
Kalbant apie šias naujas pokalbių pabaigos galimybes, bendrovė sako: „Visais atvejais Claude'as turi naudoti savo pokalbio pabaigos galimybes kaip paskutinę išeitį, kai keli bandymai peradresuoti nepavyko ir tikėtis, kad produktyvi sąveika buvo išnaudota arba kai vartotojas aiškiai prašo Claude'o baigti pokalbį.“
Antropicas taip pat sako, kad Claude'as buvo „nurodytas nenaudoti šių sugebėjimų tais atvejais, kai vartotojams gali kilti gresianti rizika pakenkti sau ar kitiems“.
„TechCrunch“ renginys
San Franciskas
|
2025 m. Spalio 27–29 d
Kai Claude'as užbaigia pokalbį, „Anthropic“ sako, kad vartotojai vis tiek galės pradėti naujus pokalbius iš tos pačios sąskaitos ir sukurti naujas varginančio pokalbio šakas, redaguodami jų atsakymus.
„Mes traktuojame šią funkciją kaip nuolatinį eksperimentą ir toliau tobulinsime mūsų požiūrį“, – sako bendrovė.




