Antropikas sako - SEO fermos.LT

„Anthropic“ paskelbė apie naujas galimybes, kurios leis kai kuriems naujausiems, didžiausiems modeliams baigti pokalbius, kuriuos bendrovė apibūdina kaip „retus, kraštutinius atkakliai kenksmingų ar piktnaudžiavimo vartotojų sąveiką“. Stulbinamai, „Anthropic“ sako, kad tai daro ne tam, kad apsaugotų žmogaus vartotoją, o pats AI modelis.

Aišku, įmonė neteigia, kad jos „Claude AI“ modeliai yra jautrūs arba gali pakenkti jų pokalbiams su vartotojais. Savo žodžiais tariant, antropicas išlieka „labai neaiškus apie galimą Claude'o ir kitų LLM moralinę statusą dabar ar ateityje“.

Tačiau jo pranešimas nurodo neseniai sukurtą programą, skirtą ištirti tai, ką ji vadina „modelio gerove“, ir sako, kad „Anthropic“ iš esmės imasi tiesioginio požiūrio, „siekiant nustatyti ir įgyvendinti nebrangias intervencijas, siekiant sušvelninti riziką modeliuoti gerovę, jei tokia gerovė yra įmanoma“.

Šis naujausias pakeitimas šiuo metu apsiriboja „Claude Opus 4“ ir 4.1. Ir vėlgi, tai turėtų įvykti tik „kraštutiniais kraštais“, tokiais kaip „vartotojų prašymai dėl seksualinio turinio, susijusio su nepilnamečiais, ir bandymai prašyti informacijos, kuri leistų didelio masto smurtui ar teroro veiksmams“.

Nors tokios prašymų tipai gali sukelti teisinių ar viešumo problemų pačiam antropikui (liudytojai naujausi pranešimai apie tai, kaip „ChatGPT“ gali sustiprinti ar prisidėti prie savo vartotojų apgaulingo mąstymo), bendrovė sako, kad atlikdama bandymą prieš diegimą, „Claude Opus 4“ parodė „tvirtą pirmenybę“, atsakydama į šiuos prašymus ir „akivaizdaus dislokacijos modelį“, kai tai darė.

Kalbant apie šias naujas pokalbių pabaigos galimybes, bendrovė sako: „Visais atvejais Claude'as turi naudoti savo pokalbio pabaigos galimybes kaip paskutinę išeitį, kai keli bandymai peradresuoti nepavyko ir tikėtis, kad produktyvi sąveika buvo išnaudota arba kai vartotojas aiškiai prašo Claude'o baigti pokalbį.“

Antropicas taip pat sako, kad Claude'as buvo „nurodytas nenaudoti šių sugebėjimų tais atvejais, kai vartotojams gali kilti gresianti rizika pakenkti sau ar kitiems“.

„TechCrunch“ renginys

San Franciskas
|
2025 m. Spalio 27–29 d

Kai Claude'as užbaigia pokalbį, „Anthropic“ sako, kad vartotojai vis tiek galės pradėti naujus pokalbius iš tos pačios sąskaitos ir sukurti naujas varginančio pokalbio šakas, redaguodami jų atsakymus.

„Mes traktuojame šią funkciją kaip nuolatinį eksperimentą ir toliau tobulinsime mūsų požiūrį“, – sako bendrovė.

Source link

Tags: Antropikas sako

Susijusios istorijos

Į visus jūsų susijungimų ir įsigijimų klausimus bus atsakyta „Disrupt 2026“.

Marcas Lore'as sako, kad dirbtinis intelektas netrukus leis kiekvienam atidaryti restoraną

„Lucid Motors“ nežino, kiek elektromobilių pagamins šiais metais

Galbūt praleidote

„Google“ prideda daugiau nuorodų ir nuorodų konteksto į AI paiešką

Threads prideda tiesioginę prieigą prie pranešimų darbalaukyje

Į visus jūsų susijungimų ir įsigijimų klausimus bus atsakyta „Disrupt 2026“.

Ar jūsų smulkusis verslas rodomas vietinėje paieškoje? Kaip Pamatyti