„Google“ tyrimai rodo, kaip galima aptikti AI šlamštą

„Google“ tyrėjai paskelbė naują dokumentą, kuriame išsamiai aprašomas naujas būdas sugauti nepageidaujamų el. pašto platintojus, kurie naudoja generatyvųjį AI, kad užtvindytų „Google“ platformą šlamštu ir priblokštų jos kokybės filtrus. Nors tyrimas sutelktas į vaizdo įrašų turinio šlamšto nustatymą, aprašyti metodai gali padėti suprasti metodus, kuriuos „Google“ galėtų naudoti žiniatinklio turinio šlamštui. Tiesą sakant, moksliniame darbe aptariama tekstu pagrįsta generacinė AI identifikavimo sistema.

Teigiama, kad naujoji sistema yra „labai tiksli apsauga“ nuo koordinuoto generatyvaus AI šlamšto, o tai reiškia, kad kažkas panašaus gali būti naudojama. Naujoji sistema vadinama Scalable Cluster Termination System (S-CTS), o mokslinis darbas, Keičiamas priešpriešinio sintetinio nuokrypio ir suderinto piktnaudžiavimo žiniasklaida aptikimas: daugiarūšė gynybos sistema su LoRA.

Turinys:

Ar ši sistema gali būti naudojama dirbtinio intelekto sugeneruotam šlamštui?

Sistema sėkmingai veikia, nes ji ieško organizacinės atakos struktūros, kuri yra masinis pakartotinis konkretaus semantinio pasakojimo šablono naudojimas, užuot vertinus atskirus vaizdo įrašus po vieną.

Tyrimo darbe taip pat aprašomas teksto įterpimas, svarbiausi terminai ir šabloniniai pasakojimai kaip turinio klasifikatoriaus dalis. Jei nustatoma, kad didelė dalis paskyrų infrastruktūros klasteryje naudoja tuos pačius AI sukurtus teksto / medijos šablonus, visas klasteris nutraukiamas.

Greitas prisitaikymas prie naujų AI šlamšto rūšių

Straipsnyje rašoma, kad kai užpuolikai priima naujus generatyvius modelius, „Google“ gali greičiau pritaikyti savo sintetinę šlamšto aptikimo sistemą, naudodama žemo lygio adaptaciją (LoRA) ir automatinį skubų optimizavimą (APO), užuot perkvalifikavusi didžiulį AI modelį.

Jie rašo:

„2 etapo klasifikatorius specializuojasi sintetinių tendencijų aptikimui naudojant parametrų efektyvaus tikslaus derinimo (PEFT) metodus, ypač žemo rango pritaikymą (LoRA) ir automatinį greitą optimizavimą (APO).
…Šis metodas leidžia efektyviai pritaikyti didelę patentuotą LLM (pvz., Gemini 2.0 Flash) be didelių skaičiavimo išlaidų, susijusių su visišku koregavimu. Konkrečiai, LoRA žymiai sumažina apmokomų parametrų skaičių ir žymiai sumažina atminties kiekį, todėl galima greitai, ekonomiškai vykdyti ir lygiagrečiai daryti išvadas apie keičiamo dydžio TPU infrastruktūrą.
…APO leidžia mums sukurti raginimus, kurie prisitaiko prie naujų „Slop“ tendencijų greičiau nei perkvalifikuojant tankų modelį. Galime greitai permokyti LoRA adapterį, kai užpuolikai išleidžia naują GenAI modelį (pvz., Sora ar Kling).

Sakinys-BERT (S-BERT) AI sukurtam tekstui identifikuoti

Tikriausiai labiausiai bus įdomu tai, kad mokslininkai pripažįsta sakinio-BERT (SBERT) naudojimą kaip būdą semantiškai panašiems sakiniams nustatyti.

Jie cituoja sakinį-BERT, kad patvirtintų pagrindinę savo darbo prielaidą: automatizuotas, dirbtinio intelekto sukurtas tekstas palieka aiškų matematinį pėdsaką („teksto įterpimas“), kurį galima aptikti.

Tada jie pasisuka nuo S-BERT, kad pabrėžtų, kodėl jų sistema (S-CTS) yra pažanga: nes ji neapsiriboja teksto įterpimo atitikimu. Jis išplečiamas iki daugiarūšės, dviejų pakopų LLM architektūros, kuri įvertina šiuos teksto šablonus kartu su infrastruktūros lygio robotų tinklo duomenimis.

Tyrėjai rašo:

„Tekstu pagrįsto turinio atveju tokie metodai kaip teksto įterpimai, sugeneruoti naudojant modelius, pvz., Sentence-BERT, naudojami scenarijų sudarytiems AI naratyvams aptikti. Daugialypės terpės atveju tradiciniai metodai apima suvokimo maišą. Tačiau generuojantis AI kelia unikalių iššūkių; mūsų sistemoje naudojami patentuoti algoritmai, analizuojantys tiek tekstinį, tiek daugialypės terpės turinį, kad nustatytų sintetinių kanalų bendrinamus žymenis.

Yra kitas mokslinis darbas apie Sentence-BERT (PDF) ir štai kaip jie paaiškina jo naudą:

„Šiame leidinyje pristatome Sentence-BERT (SBERT) – iš anksto parengto BERT tinklo modifikaciją, kuri naudoja Siamo ir tripletų tinklų struktūras, kad gautų semantiškai prasmingus sakinių įterpimus, kuriuos galima palyginti naudojant kosinuso panašumą. Tai sumažina pastangas rasti panašiausią porą nuo 65 valandų su BERT / RoBERTa iki maždaug 5 sekundžių išlaikant nuo SBERTura.
Mes vertiname SBERT ir SRoBERTa atlikdami įprastas STS užduotis ir perkeliame mokymosi užduotis, kur jos pranoksta kitus moderniausius sakinių įterpimo metodus.

Kalbant apie SEO, S-BERT paminėjimas, skirtas identifikuoti generatyvų AI tekstinį šlamštą, yra labai įdomus, nes SEO pramonė tikrai nežino apie tai. Tai praplečia mūsų žinias apie algoritmų tipus, kurie naudojami identifikuojant tekstinį generacinį AI šlamštą.

Štai įdomioji dalis: S-BERT gyvuoja jau septynerius metus, o SEO pramonė tikrai nežinojo apie tai, kaip apie tai, kas gali būti naudojama identifikuojant tekstinį šlamštą. Tai nereiškia, kad „Google“ ją naudoja septynerius metus. Atsižvelgiant į tai, kad generatyvinis AI buvo plačiai prieinamas tik keletą metų, gali būti, kad Sentence-BERT tik neseniai naudojo paieškos varikliai, pvz., „Google“, siekdami sugauti dirbtinio intelekto sukurtą tekstinį šlamštą.

Problema sprendžiama

Tyrėjai nustato tris priežastis, kodėl generatyvus AI šlamštas yra nekontroliuojamas, ir dabartiniai žemos kokybės turinio aptikimo metodai.

Žemos kokybės AI sukurto turinio problema tapo „eksponentiniu iššūkiu“ aptikti ir gaudyti.
Straipsnyje pripažįstami dabartinių švelninimo strategijų apribojimai.
Sutelkti dėmesį į AI sugeneruoto šlamšto aptikimą turinio lygiu vis dažniau nepavyksta dėl masto, skirto „perkrauti kokybės filtrus“.

Tyrėjai paaiškina:

„Internetinės vaizdo įrašų platformos susiduria su didžiuliu iššūkiu aptikdamos ir sušvelnindamos dirbtinio intelekto sukurto „nuokrypio“ ir sintetinio šlamšto potvynį, kurį tęsia koordinuoti kenkėjiški veikėjai.
Šis turinys vis labiau kuriamas siekiant išnaudoti tradicinės žiniasklaidos kriminalistikos apribojimus, dažnai naudojant generatyvųjį dirbtinį intelektą, kad būtų galima sukurti unikalius, lokalizuotus kenksmingos ar žemos kokybės medžiagos variantus.
Tradicinis į turinį orientuotas moderavimas neprieštarauja šiai koordinuotai, priešišką generavimo strategijai.

Ši frazė „lokalizuoti variantai“ yra įdomi, nes ji reiškia „unikalių pirštų atspaudų kūrimą funkciškai identiškam turiniui“.

Tyrimo darbe vartojamos tokios frazės:

„unikalūs, lokalizuoti variantai“
„funkciškai identiškas turinys“
„begaliniai, unikalūs funkciškai identiško šlamšto variantai“

Tai daugiau nei tik nedideli turinio pataisymai čia ir ten. Jie kalba apie šiukšlių siuntėjus, kurie diegia be galo unikalų turinį, kuris yra „funkciškai identiškas“, kaip būdą apeiti tradicines turinio analizės ir mažinimo strategijas. Būtent dėl šios priežasties jie sumažina mastelį, kad peržiūrėtų paskyrų grupes, kad nustatytų tikrus šiukšlių siuntėjų pirštų atspaudus arba jų automatizavimą.

Tyrime pagrindinis dėmesys skiriamas AI sukurto vaizdo šlamšto identifikavimui, tačiau kyla klausimas: ar kažkas panašaus gali būti naudojamas AI sugeneruotam teksto šlamštui nustatyti? Tai tikrai verta apsvarstyti.

Kaip AI-Slop gali įveikti kokybiškus filtrus

Įdomus faktas, kuriuo dalijasi tyrėjai, yra tai, kad didžiuliu mastu generuojamas AI nuokrypis gali užgožti kokybiškus filtrus. Tyrėjai taip pat atkreipia dėmesį į tai, kad šiukšlių siuntėjai naudoja „priešingą prisitaikymą“, kad galėtų apeiti kokybės filtrus. Konkurencinis pritaikymas reiškia nuolatinį jų šlamšto atnaujinimą, siekiant nustatyti šablonus, leidžiančius jam patekti žemiau platformos „pažeidimo slenksčio“.

Sprendimas

Tyrėjai siūlo sistemą, kuri nutolina nuo atskirų nepageidaujamo el. pašto incidentų nustatymo, kad būtų galima sutelkti dėmesį į nepageidaujamo pašto grupių, signalizuojančių apie bendrą kilmę, aptikimą.

Tyrėjai rašo:

„Šiame dokumente pristatoma nauja, keičiamo dydžio gynybos sistema, sukurta internetinėms vaizdo įrašų platformoms (OVP), siekiant nustatyti ir nutraukti suderintų paskyrų grupes, kuriose vyrauja priešiškas sintetinis turinys.

Ir tai, kaip jie tai daro, žiūri į tai dviem požiūriais:

Turinio modelio komponentas
Tai mašininio mokymosi komponentas, kuris nuskaito „pasikartojančius, šabloninius pasakojimus, įprastus dirbtinio intelekto sugeneruotuose „slopintuose“ ir „AI sugeneruotuose scenarijuose“ (reiškia tekstą / dialogą). Jie konkrečiai žiūri į skalę, nustatydami „automatiniams scenarijams būdingą nežmonišką, aukšto dažnio publikavimo elgesį“.
Infrastruktūros komponentas
Tai naudoja „Google“ algoritmus „patentuotos infrastruktūros signalams“ analizuoti, kad nustatytų paskyrų grupes, kurios statistiškai tikėtina, kad kilusios iš tos pačios organizacijos arba automatizavimo programinės įrangos scenarijaus.

Išsami informacija apie keičiamo dydžio grupių užbaigimo sistemą (S-CTS)

Užuot žiūrėjusi į vieną įtartiną vaizdo įrašą atskirai, sistema naudoja dvipusį mašininio mokymosi metodą, kad aptiktų ištisus automatizuotų paskyrų tinklus („bot-nets“), kurie platformą užtvindo žemos kokybės dirbtinio intelekto sukurtu šlamštu. Taigi tikslas keičiasi nuo atskirų nepageidaujamo pašto atvejų nustatymo iki kelių atskirų paskyrų, priklausančių tiems patiems šiukšlių siuntėjams, arba automatinių programinės įrangos scenarijų identifikavimo.

Sistema žiūri į „infrastruktūros lygio signalus ir neorganinius elgesio modelius“, kad sugrupuotų susijusias paskyras į „kartos grupes“. Generavimo grupės yra paskyrų grupės, kurios greičiausiai naudos tą patį API arba scenarijų.

Straipsnyje paaiškinama:

„Šis metodas naudoja daugialypę architektūrą, apimančią du pagrindinius mašininio mokymosi komponentus:
tvirtas koordinuotas „Bot-Net“ detektorius (per paskyros ryšį)
ir sintetinių raštų klasifikatorius.
Labai svarbu, kad mes pristatome pažangų dirbtinio intelekto patobulinimo sluoksnį, kuriame naudojami didelės kalbos modeliai (LLM), specializuoti naudojant žemo lygio adaptaciją (LoRA) ir automatinį greitą optimizavimą (APO), kad pasiektume greitą ir labai tikslų semantinį supratimą apie atsirandančias sintetinio šlamšto tendencijas.

Ar S-CTS veikia?

Taip, jų bandymų duomenys rodo, kad sistema daro „didelį poveikį“ gaudant „spam“ „grupes“ dideliu tikslumu (tikslumu).

Jie rašo:

„Bandymo duomenys rodo reikšmingą sistemos poveikį, dėl kurio sėkmingai užbaigiami didelio tikslumo klasteriai, sudaryti iš sintetinių šiukšlių generatorių kanalų.
Be to, LLM valdoma automatizacija žymiai pagerina veiklos efektyvumą, todėl žmogaus peržiūros efektyvumas gerokai padidėja. Šiame darbe išsamiai aprašomas kritinis sistemos dizainas, užtikrinantis esminį mastelio keitimą ir atsparumą priešiškai sudėtingoms generatyvinėms atakoms.

Išsinešti

Kai kurie įdomūs faktai šiame moksliniame darbe yra šie:

Kokybiški filtrai gali būti perpildyti šlamšto antplūdžiu.
Sakinys-BERT nurodomas kaip naudojamas AI sugeneruotam šlamštui gaudyti.
Scalable Cluster Termination System yra unikalus būdas identifikuoti nepageidaujamą el. pašto adresą klasterio lygiu.
„Google“ gali greitai prisitaikyti prie dirbtinio intelekto sukurto šlamšto, naudodama žemo rango pritaikymą (LoRA) ir automatinį raginimo optimizavimą (APO).

Šis tyrimas „Scalable Detection of Adversarial Synthetic Slop and Coordinated Media Abuse: A LoRA Enabled Multimodal Defense System“ (PDF) parodo įvairius metodus, kuriuos „Google“ aprašo, kad nustatytų dirbtinio intelekto sukurtą šlamštą, įskaitant tekstinį ir vaizdo šlamštą.

Teminis vaizdas, sukurtas „Shutterstock“ / „Shutterstock AI“.

Source link

Susijusios istorijos

AI režimas siunčia skirtingą lankytoją. Jūsų svetainė buvo sukurta ne jiems

Turinio sistema, kuri veikė 2019 m., dabar veikia prieš jus

Deindeksavimo ataskaitos vis ateina, „Google“ nemato nieko neįprasto

Galbūt praleidote

AI režimas siunčia skirtingą lankytoją. Jūsų svetainė buvo sukurta ne jiems

„In the Weights“ yra jūsų nauja į AI orientuota tuštybės paieška

Turinio sistema, kuri veikė 2019 m., dabar veikia prieš jus

„Snap“ atidaro išankstinius „Specs AR“ akinių užsakymus