
„Anthropic“ išleido „Claude Opus 4.1“ – savo pavyzdinio modelio atnaujinimą, kuris, kaip teigiama, suteikia geresnį kodavimo, samprotavimo ir autonominių užduočių tvarkymo rezultatą.
Naująjį modelį dabar galima įsigyti „Claude Pro“ vartotojams, „Claude Code“ abonentams ir kūrėjams, naudojantiems API, „Amazon Bedrock“ ar „Google Cloud“ viršūnių AI.
Našumo padidėjimas
„Claude Opus 4.1“ įvertina 74,5% „SWE-Bench“, patvirtintą, orientuotą realaus pasaulio kodavimo problemų etaloną, ir jis yra kaip „OPUS 4“ pakaitalas.
Modelis rodo pastebimus kelių failų kodo refaktavimo ir derinimo patobulinimus, ypač didelėse kodų bazėse. Anot „GitHub“ ir „Anthropic“ cituojamų įmonių atsiliepimų, daugumoje kodavimo užduočių jis pralenkia „OPus 4“.
„Rakuten“ inžinerijos komanda praneša, kad Claude 4.1 tiksliai nustato kodo pataisas, neįvedant nereikalingų pakeitimų. Kūrėjų platforma „Windsurf“ išmatavo vieno standartinio nuokrypio našumo padidėjimą, palyginti su „OPUS 4“, palyginamas su šuoliu iš „Claude Sonnet 3.7“ iki „Sonnet 4“.
Išplėstiniai naudojimo atvejai
„Anthropic“ apibūdina Claude 4.1 kaip hibridinį samprotavimo modelį, skirtą valdyti ir momentinius rezultatus, ir išplėstinį mąstymą. Kūrėjai gali tiksliai sureguliuoti „mąstymo biudžetus“ per API, kad subalansuotų išlaidas ir našumą.
Pagrindiniai naudojimo atvejai yra:
- AI agentai: Stiprūs „Tau-Bench“ ir tolimųjų horizonto užduočių rezultatai daro modelį tinkamu autonominėms darbo eigoms ir įmonių automatizavimui.
- Išplėstinis kodavimas: Palaikydamas 32 000 išvesties žetonų, „Claude 4.1“ tvarko sudėtingą refaktorą ir daugiapakopę generavimą, prisitaikydama prie kodavimo stiliaus ir konteksto.
- Duomenų analizė: Šis modelis gali sintetinti įžvalgas iš didelių struktūrizuotų ir nestruktūrizuotų duomenų, tokių kaip patentų padavimai ir tyrimų dokumentai.
- Turinio karta: „Claude 4.1“ sukuria daugiau natūralaus rašymo ir turtingesnės prozos nei ankstesnės versijos, turinčios geresnę struktūrą ir toną.
Saugos patobulinimai
„Claude 4.1“ ir toliau veikia pagal „Anthropic“ AI saugos lygio 3 standartą. Nors atnaujinimas laikomas laipsnišku, įmonė savanoriškai vykdė saugos vertinimus, kad užtikrintų, jog veiklos rezultatai neviršytų priimtinų rizikos ribų.
- Nekenksmingumas: Modelis atsisakė politikos pažeidimo užklausų 98,76% laiko, palyginti su 97,27% su „Opus 4“.
- Per didelis: Dėl gerybinių prašymų atsisakymo procentas išlieka mažas – 0,08%.
- Šališkumas ir vaiko saugumas: Vertinimai nerado reikšmingos politinio šališkumo, diskriminacinio elgesio ar vaiko saugumo reakcijų regresijos.
Antropicas taip pat išbandė modelio pasipriešinimą, kad būtų galima injekcija ir agentui piktnaudžiauti. Rezultatai parodė palyginamą ar patobulintą elgesį su „OPUS 4“, su papildomais mokymais ir apsaugos priemonėmis, siekiant sušvelninti kraštų atvejus.
Žvilgsnis į priekį
„Anthropic“ sako, kad didesni atnaujinimai yra horizonte, o Claude 4.1 buvo išdėstytas kaip į stabilumą orientuota laida prieš būsimus šuolius.
Komandoms, jau naudojančioms „Claude Opus 4“, atnaujinimo kelias yra sklandus, be API struktūros ar kainų pakeitimų.
Pateiktas vaizdas: „Ahyan Stock Studios“/„Shutterstock“



