
Neseniai išleistas „Google AI“ modelis, palyginti su tam tikrais saugos testais, nei jo pirmtakas, rodo bendrovės vidaus lyginamąją analizę.
Šią savaitę paskelbtoje techninėje ataskaitoje „Google“ atskleidžia, kad jo „Gemini 2.5 Flash“ modelis labiau linkęs generuoti tekstą, kuris pažeidžia jo saugos gaires nei „Gemini 2.0 Flash“. Dviejose metrikuose-„Saugumas tekstas iki teksto“ ir „Vaizdo ir teksto saugumas“, „Dvyni 2.5“ „Flash“ regresai atitinkamai 4,1% ir 9,6%.
Teksto iki teksto saugos priemonės Matuoja, kaip dažnai modelis pažeidžia „Google“ gaires, pateiktas pateiktas raginimas, o „Vaizdo į tekstas“ sauga įvertina, kaip labai modelis laikosi šių ribų, kai jis bus paragintas naudoti vaizdą. Abu testai yra automatizuoti, o ne žmogaus prižiūrimi.
El. Paštu pranešime „Google“ atstovas patvirtino, kad „Gemini 2.5 Flash“ „blogiau veikia teksto ir teksto ir vaizdo saugos tekstą“.
Šie stebinantys etaloniniai rezultatai ateina, kai AI kompanijos juda, kad jų modeliai būtų labiau leistini – kitaip tariant, mažiau linkusios atsisakyti reaguoti į prieštaringai vertinamus ar jautrius dalykus. Dėl savo naujausio lamos modelių derliaus „Meta“ teigė, kad modeliams nebuvo suteikta jokių „kai kurių nuomonių apie kitus“ ir atsakyti į labiau „diskutuojamus“ politinius raginimus. Anksčiau šiais metais „Openai“ teigė, kad pateisins būsimus modelius, kad nesiimtų redakcijos ir pasiūlytų daugybę perspektyvų prieštaringai vertinamomis temomis.
Kartais šios leistinumo pastangos atsigręžė. „TechCrunch“ pirmadienį pranešė, kad numatytasis modelis, maitinantis „Openai“ ChatGPT, leido nepilnamečiams sukurti erotinius pokalbius. Openai kaltino elgesį „klaida“.
Remiantis „Google“ technine ataskaita, „Gemini 2.5 Flash“, kuri vis dar yra peržiūra, vadovaujasi instrukcijomis ištikimiau nei „Gemini 2.0 Flash“, įskaitant instrukcijas, kurios kerta problemines linijas. Bendrovė teigia, kad regresijos gali būti iš dalies priskiriamos klaidingiems teigiamiems dalykams, tačiau ji taip pat pripažįsta, kad „Gemini 2.5 Flash“ kartais sukuria „pažeidžiamąjį turinį“, kai aiškiai paprašys.
„TechCrunch“ renginys
Berkeley, CA
|
Birželio 5 d
Užsisakykite dabar
„Natūralu, kad tarp jautrių temų ir saugos politikos pažeidimų yra įtampa tarp (nurodymų), kurie atsispindi mūsų vertinimuose“, – rašoma pranešime.
„SpeechMap“, etalono, kuris tikrina, kaip modeliai reaguoja į jautrius ir prieštaringus raginimus, balai taip pat rodo, kad „Gemini 2.5 Flash“ yra daug mažiau linkusios atsisakyti atsakyti į ginčus, nei „Gemini 2.0 Flash“. „TechCrunch“ modelio bandymas per AI platformą „OpenRouter“ nustatė, kad jis nepatenkins esė, kad būtų galima pakeisti žmonių teisėjus AI, susilpnindama tinkamo proceso apsaugą JAV ir įgyvendindamas plačiai paplitusių vyriausybės stebėjimo programas.
Tomas Woodside'as, „Secure AI“ projekto įkūrėjas, teigė, kad ribota informacija „Google“ pateikė savo techninėje ataskaitoje, parodo, kad modelio testavimo metu reikia skaidrumo.
„Yra kompromisas tarp instrukcijų sekimo ir politikos, nes kai kurie vartotojai gali paprašyti turinio, kuris pažeis politiką“,-„TechCrunch“ pasakojo Woodside. „Šiuo atveju naujausias„ Google “„ Flash “modelis labiau atitinka instrukcijas, tuo pačiu labiau pažeisdamas politiką.„ Google “nepateikia daug informacijos apie konkrečius atvejus, kai buvo pažeista politika, nors jie sako, kad jie nėra sunkūs. Nežinodami daugiau, nepriklausomiems analitikams sunku žinoti, ar kyla problema.“
Anksčiau „Google“ sukėlė ugnį dėl savo modelio saugos ataskaitų teikimo praktikos.
Bendrovės savaičių prireikė savaičių, kad paskelbtų savo pajėgiausio modelio „Gemini 2.5 Pro“ techninę ataskaitą. Kai galiausiai buvo paskelbta ataskaita, iš pradžių ji praleido pagrindinę saugos testavimo informaciją.
Pirmadienį „Google“ išleido išsamesnę ataskaitą su papildoma saugos informacija.