Daugiau svetainių, blokuojančių LLM tikrinimą

„Hostinger“ išleido analizę, rodančią, kad įmonės blokuoja dirbtinio intelekto sistemas, naudojamas didelių kalbų modeliams mokyti, o AI padėjėjams leidžia toliau skaityti ir apibendrinti daugiau svetainių. Bendrovė ištyrė 66,7 milijardo robotų sąveikų 5 milijonuose svetainių ir nustatė, kad AI asistentai, naudojami tokių įrankių kaip ChatGPT, dabar pasiekia daugiau svetainių, net jei įmonės riboja kitas AI prieigos formas.

Turinys:

„Hostinger“ analizė

„Hostinger“ yra žiniatinklio priegloba ir be kodo, dirbtinio intelekto agentų valdoma platforma, skirta kurti internetines įmones. Bendrovė teigė, kad ji išanalizavo anoniminius svetainių žurnalus, siekdama įvertinti, kaip patikrintos tikrinimo programos pasiekia svetaines dideliu mastu, o tai leido palyginti pokyčius, kaip paieškos varikliai ir AI sistemos gauna internetinį turinį.

Jų paskelbta analizė rodo, kad AI padėjėjai per penkis mėnesius išplėtė savo pasiekiamumą įvairiose svetainėse. Duomenys buvo renkami per tris šešių dienų langus 2025 m. birželio, rugpjūčio ir lapkričio mėn.

„OpenAI SearchBot“ padidino aprėptį nuo 52 procentų iki 68 procentų svetainių, o „Applebot“ (kuris indeksuoja turinį, kad veiktų „Apple“ paieškos funkcijomis) padvigubėjo nuo 17 procentų iki 34 procentų. Per tą patį laikotarpį tradicinės paieškos robotai iš esmės išliko pastovūs. Duomenys rodo, kad AI padėjėjai prideda naują sluoksnį, kaip informacija pasiekia vartotojus, o ne visiškai pakeičia paieškos variklius.

Tuo pačiu metu duomenys rodo, kad įmonės smarkiai sumažino prieigą prie dirbtinio intelekto mokomųjų tikrintuvų. „OpenAI“ GPTBot rugpjūtį sumažėjo nuo 84 procentų svetainių iki 12 procentų lapkričio mėn. „Meta“ „ExternalAgent“ sumažėjo nuo 60 procentų iki 41 procento svetainės aprėpties. Šios tikrinimo programos laikui bėgant renka duomenis, kad patobulintų AI modelius ir atnaujintų savo parametrines žinias, tačiau daugelis įmonių juos blokuoja, siekdamos apriboti duomenų naudojimą arba bijodamos autorių teisių pažeidimo problemų.

Parametrinės žinios

Parametrinės žinios, taip pat žinomos kaip parametrinė atmintis, yra informacija, kuri treniruočių metu „užkoduojama“ modelyje. Ji vadinama „parametrine“, nes žinios saugomos modelio parametruose (svoriuose). Parametrinės žinios – tai ilgalaikė atmintis apie subjektus, pavyzdžiui, žmones, daiktus ir įmones.

Kai asmuo užduoda LLM klausimą, LLM gali atpažinti tokį subjektą kaip įmonė ir tada gauti susijusius vektorius (faktus), kuriuos sužinojo mokymosi metu. Taigi, kai įmonė ar įmonė savo svetainėje blokuoja mokymo robotą, jie neleidžia LLM nieko apie juos žinoti, o tai gali būti ne geriausias dalykas organizacijai, kuriai rūpi AI matomumas.

Leidžiant AI mokymo robotui aptikti įmonės svetainę, įmonė gali šiek tiek kontroliuoti, ką apie ją žino LLM, įskaitant tai, ką ji daro, prekės ženklo kūrimą ir viską, kas yra „Apie mus“, ir suteikia galimybę LLM sužinoti apie siūlomus produktus ar paslaugas. Informacinėje svetainėje gali būti naudinga gauti atsakymus.

Įmonės atsisako parametrinių žinių

„Hostinger“ analizė rodo, kad įmonės „agresyviai“ blokuoja dirbtinio intelekto mokymo robotus. Nors Hostinger tyrime apie tai neužsimenama, AI mokymo robotų blokavimo poveikis yra tas, kad įmonės iš esmės atsisako LLM parametrinių žinių, nes mokymosi metu LLM neleidžiama mokytis tiesiogiai iš pirmosios šalies turinio, todėl svetainė nebegali papasakoti savo istorijos ir LLM verčiama pasikliauti trečiųjų šalių duomenimis ar žinių diagramomis.

Hostinger tyrimai rodo:

„Remiantis 66,7 milijardo botų sąveikų stebėjimu 5 milijonuose svetainių, Hostinger atskleidė reikšmingą paradoksą:
Įmonės agresyviai blokuoja AI mokymo robotus – sistemas, kurios renka turinį, kad sukurtų AI modelius. Per tris mėnesius „OpenAI“ GPTBot sumažėjo nuo 84% iki 12% svetainių.
Tačiau AI asistentų tikrinimo programos – technologijos, kurias „ChatGPT“, „Apple“ ir kt. naudoja atsakydami į klientų klausimus, sparčiai plečiasi. OpenAI SearchBot išaugo nuo 52% iki 68% svetainių; Applebot padvigubėjo iki 34%.

Neseniai paskelbtame „Reddit“ įraše parodyta, kaip LLM prieigos prie turinio blokavimas normalizuojamas ir suprantamas kaip intelektinės nuosavybės (IP) apsauga.

Įrašas prasideda pradiniu klausimu, kuriame klausiama, kaip blokuoti AI:

„Noriu įsitikinti, kad mano svetainė ir toliau bus indeksuojama „Google“ paieškoje, bet nenoriu, kad „Gemini“, „ChatGPT“ ar kiti asmenys nuskaitytų ir naudotų mano turinį.
Koks geriausias būdas tai padaryti?”

„Reddit“ pokalbio ekrano kopija

Vėliau toje temoje kažkas paklausė, ar jie blokuoja LLM, kad apsaugotų savo intelektinę nuosavybę, o originalus plakatas atsakė teigiamai, kad tai buvo priežastis.

Diskusiją pradėjęs asmuo atsakė:

„Skelbiame unikalų turinį, kurio kitur iš tikrųjų nėra. LLM dažnai iš mūsų sužino apie dalykus, esančius šioje mažoje nišoje. Taigi mums reikia „Google” srauto, bet ne LLM.”

Tai gali būti pagrįsta priežastis. Svetainė, skelbianti unikalią mokomąją informaciją apie programinės įrangos produktą, kurio kitur nėra, gali norėti užblokuoti LLM indeksuoti savo turinį, nes jei jis to nepadarys, LLM galės atsakyti į klausimus ir taip pat pašalinti poreikį apsilankyti svetainėje.

Tačiau kitose svetainėse, kuriose yra ne toks unikalus turinys, kaip produktų apžvalgų ir palyginimo svetainė arba el. prekybos svetainė, gali būti ne geriausia strategija blokuoti LLM įtraukti informaciją apie šias svetaines į savo parametrinę atmintį.

Prekės ženklo pranešimai yra prarasti LLM

AI padėjėjai tiesiogiai atsako į klausimus, todėl naudotojai gali gauti informaciją nesilankę svetainėje. Tai gali sumažinti tiesioginį srautą ir apriboti įmonės kainodaros informacijos, produkto konteksto ir prekės ženklo pranešimų pasiekiamumą. Gali būti, kad kliento kelionė baigiasi AI sąsajoje, o įmonės, kurios neleidžia LLM įgyti žinių apie savo įmones ir pasiūlymus, iš esmės pasikliauja paieškos tikrintuvu ir paieškos indeksu, kad užpildytų šią spragą (o gal tai veikia?).

Vis didėjantis AI asistentų naudojimas daro įtaką rinkodarai ir apima pajamų prognozavimą. Kai dirbtinio intelekto sistemos apibendrina pasiūlymus ir rekomendacijas, LLM blokuojančios įmonės turi mažiau galimybių kontroliuoti, kaip atrodo kainodara ir vertė. Reklamos pastangos praranda matomumą anksčiau sprendimo priėmimo procese, o el. prekybos priskyrimas tampa sunkesnis, kai perkant atliekami dirbtinio intelekto atsakymai, o ne tiesioginiai apsilankymai svetainėje.

„Hostinger“ teigimu, kai kurios organizacijos vis labiau atrenka, koks turinys yra prieinamas AI, ypač AI padėjėjai.

„Hostinger“ AI vadovas Tomas Rasymas pakomentavo:

„AI padėjėjams vis dažniau atsakant į klausimus tiesiogiai, žiniatinklis pereina nuo paspaudimais pagrįsto modelio prie tarpininkaujančio agento modelio. Tikroji įmonėms kylanti rizika yra ne pati dirbtinio intelekto prieiga, o galimybė prarasti kontrolę, kaip priimant sprendimus pateikiamos kainos, padėtis ir vertė.

Išsinešti

Neleisti LLM naudoti svetainės duomenis mokymams iš tikrųjų nėra numatytoji pozicija, net jei daugelis žmonių jaučia tikrą pyktį ir susierzinimą dėl idėjos apie LLM mokymą apie jų turinį. Gali būti naudinga priimti labiau apgalvotą atsakymą, kuris pasveria naudą ir trūkumus, taip pat apsvarstyti, ar tie trūkumai yra tikri, ar numanomi.

Teminis vaizdas, kurį sukūrė „Shutterstock“ / „Lightspring“.

Source link

Susijusios istorijos

„Google“ nutraukia talpykloje aptarnaujamus AMP puslapius paieškoje

Paraiška dėl autorių teisių gali pašalinti jūsų puslapį iš „Google“ paieškos

Kur nukreipiami paspaudimai, kuriuos agentai praleidžia, kas palieka „Bing“.

Galbūt praleidote

Pranešama, kad „Alibaba“ uždraudžia darbuotojams naudotis Claude Code

„Google“ nutraukia talpykloje aptarnaujamus AMP puslapius paieškoje

Nauja „Google“ reklama įsivaizduoja Nepriklausomybės deklaraciją, parašytą padedant AI

Paraiška dėl autorių teisių gali pašalinti jūsų puslapį iš „Google“ paieškos