
Šią savaitę „Anthropic“ atnaujino tikrinimo programos dokumentus, oficialiai suskirstydama tris žiniatinklio tikrinimo programas ir jų individualius tikslus.
Dabar puslapyje „ClaudeBot“ (mokymo duomenų rinkimas), „Claude-User“ (puslapių gavimas, kai „Claude“ naudotojai užduoda klausimus) ir „Claude-SearchBot“ (paieškos rezultatų turinio indeksavimas) pateikiami kaip atskiri robotai, kurių kiekvienas turi savo robots.txt vartotojo agento eilutę.
Kiekvienas robotas gauna paaiškinimą „Kas atsitiks, kai jį išjungsite“. Claude-SearchBot, Anthropic tai parašė jos blokavimas „neleidžia mūsų sistemai indeksuoti jūsų turinio paieškos optimizavimui, o tai gali sumažinti jūsų svetainės matomumą ir tikslumą naudotojų paieškos rezultatuose“.
Claude-User kalba panaši. Ją užblokavus, sistema „negalima nuskaityti jūsų turinio atsakant į vartotojo užklausą, o tai gali sumažinti jūsų svetainės matomumą naudojant vartotoją nukreiptą žiniatinklio paiešką“.
Atnaujinimas įteisina modelį, kuris vis labiau paplitęs tarp AI paieškos produktų. OpenAI vykdo tą pačią trijų pakopų struktūrą su GPTBot, OAI-SearchBot ir ChatGPT-User. Perplexity veikia dviejų pakopų versija su PerplexityBot indeksavimui ir Perplexity-User paieškai.
Anthropic teigia, kad visi trys robotai gerbia robots.txt, įskaitant Claude-User. „OpenAI“ ir „Perplexity“ nubrėžia ryškesnę liniją naudotojo inicijuotiems gavusiesiems, įspėdami, kad robots.txt taisyklės gali būti netaikomos „ChatGPT-User“ ir paprastai netaikomos „Perplexity-User“. Jei naudojate Anthropic ir OpenAI, užblokavus mokomąjį robotą, neužblokuojamas paieškos robotas arba vartotojo užklaustas nešiklis.
Kas pasikeitė iš senojo puslapio
Ankstesnė „Anthropic“ tikrinimo puslapio versija nurodė tik „ClaudeBot“ ir naudojo platesnę kalbą apie duomenų rinkimą modelio kūrimui. Prieš ClaudeBot, Anthropic veikė pagal Claude-Web ir Anthropic-AI vartotojų agentus, kurie abu dabar nebenaudojami.
Perėjimas nuo vienos sąraše esančios tikrinimo programos prie trijų atspindi tai, ką OpenAI padarė 2024 m. pabaigoje, kai atskyrė GPTBot nuo OAI-SearchBot ir ChatGPT-User. „OpenAI“ dar kartą atnaujino tą dokumentaciją gruodžio mėn., pridėdama pastabą, kad „GPTBot“ ir „OAI-SearchBot“ dalijasi informacija, kad išvengtų dvigubo tikrinimo, kai abu leidžiami.
„OpenAI“ tame gruodžio mėnesio atnaujinime taip pat pažymėjo, kad „ChatGPT-User“, kuris tvarko vartotojo inicijuotą naršymą, gali būti nevaldomas robots.txt taip pat, kaip ir jo automatiniai tikrintuvai. Anthropic dokumentacijoje Claude-User nedaro panašaus skirtumo.
Kodėl tai svarbu
Bendra strategija „blokuoti AI tikrintuvus“, kurią daugelis svetainių priėmė 2024 m., nebeveikia taip, kaip veikė. Užblokavus ClaudeBot, sustabdomas mokymo duomenų rinkimas, bet nieko nedaroma apie Claude-SearchBot ar Claude-User. Tas pats pasakytina ir apie OpenAI pusę.
Sausio mėn. atliktame „BuzzStream“ tyrime nustatyta, kad 79 % geriausių naujienų svetainių blokuoja bent vieną AI mokymo robotą. Tačiau 71 % taip pat blokuoja bent vieną paieškos arba paieškos robotą, todėl gali būti pašalintas iš AI pagrįstų paieškos šaltinių.
Tai dabar svarbiau nei prieš metus. Hostinger atlikta 66,7 mlrd. robotų užklausų analizė parodė, kad OpenAI paieškos tikrinimo aprėptis išaugo nuo 4,7% iki daugiau nei 55% jų imtyje esančių svetainių, net jei jos mokomųjų tikrinimo programų aprėptis sumažėjo nuo 84% iki 12%. Svetainės leidžia paieškos robotus ir blokuoja mokomuosius robotus, o atotrūkis didėja.
Įspėjimai dėl matomumo skiriasi priklausomai nuo įmonės. „Anthropic“ teigia, kad „Claude-SearchBot“ blokavimas „gali sumažinti“ matomumą. „OpenAI“ yra tiesioginis, pranešdamas leidėjams, kad svetainės, kurios atsisakė „OAI-SearchBot“, nebus rodomos „ChatGPT“ paieškos atsakymuose, nors naršymo nuorodos vis tiek gali būti rodomos. Abu jie išdėsto savo paieškos tikrintuvus kartu su „Googlebot“ ir „Bingbot“, o ne kartu su savo mokomaisiais tikrintuvais.
Ką Tai Reiškia
Tvarkant robots.txt failus reikia patikrinti seną kopijavimo ir įklijavimo blokavimo sąrašą. Visas SEJ AI tikrinimo programų sąrašas apima patikrintas vartotojo agento eilutes visose įmonėse.
Strateginiam robots.txt dabar reikia bent jau atskirų mokymo ir paieškos robotų įrašų, turint omenyje, kad naudotojo inicijuoti siuntėjai gali nesilaikyti tų pačių taisyklių.
Žvilgsnis į priekį
Trijų lygių padalijimas sukuria naują leidėjo sprendimų kategoriją, kuri yra lygiagrečiai su tuo, ką „Google“ padarė prieš daugelį metų su „Google-Extended“. Šis naudotojo agentas leidžia svetainėms atsisakyti „Gemini“ mokymo ir likti „Google“ paieškos rezultatuose. Dabar „Anthropic“ ir „OpenAI“ siūlo tą patį savo platformų atskyrimą.
Dirbtinio intelekto pagrindu sukurta paieška didina persiuntimo srauto dalį, todėl didėja paieškos tikrintuvų blokavimo kaina. „Cloudflare“ metų apžvalgos duomenys, apie kuriuos pranešėme gruodžio mėn., parodė, kad dirbtinio intelekto tikrintuvai jau sudaro išmatuojamą žiniatinklio srauto dalį, o atotrūkis tarp tikrinimo apimties ir persiuntimo srauto išlieka didelis. Tai, kaip leidėjai naršo šiuos trijų krypčių sprendimus, priklausys, kiek žiniatinklio AI paieškos įrankių iš tikrųjų gali pasirodyti.




