„Google“ atskleidžia pagrindinį LLMs.txt trūkumą

„Google“ darbuotojai Johnas Muelleris ir Martinas Splittas kalbėjo apie LLMs.txt ir „markdown“, o Muelleris pateikė nuostabų faktą apie pradinę LLMs.txt paskirtį ir paaiškino, kodėl siūlomi standartai turi didelių trūkumų.

Turinys:

Kas yra atradimas ir kodėl tai svarbu

Informacijos gavimo (paieškos) kontekste atradimas reiškia, kad paieškos sistema atranda, kad egzistuoja konkretus tinklalapis. Atradimas yra bendros paieškos sistemos architektūros dalis.

Paieškos sistemos architektūra:

Atradimas
Atraskite URL (pridėkite jį prie tikrinimo).
Šliaužia
Turinio atsisiuntimas ir analizavimas.
Indeksavimas
Neapdorotų duomenų analizės ir saugojimo struktūrizuotoje duomenų bazėje procesas, optimizuotas paieškai.
Reitingavimas
Dalis, kuri domina visus.
Serviravimas
Tai paskutinis žingsnis, kurio metu paieškos rezultatuose pateikiami reitinguoti tinklalapiai.

Aukščiau pateikta supaprastinta paieškos apžvalga, o atradimas yra pati pirmoji proceso dalis, kuri galiausiai baigiasi reitinguojant ir pateikiant nuorodas į svetaines.

Svarbu tai, kad „Discovery“ yra svarbi dalis, norint, kad tinklalapis būtų tikrinamas, indeksuojamas, reitinguojamas ir galiausiai rodomas paieškos rezultatuose. Be Discovery tinklalapis yra nematomas.

Štai kodėl tai svarbu: „Discovery“ nėra siūlomo LLMs.txt standarto dalis. naudoti

Originalus LLMs.txt tikslas

Johnas Muelleris sakė susitikęs su vienu iš žmonių, atsakingų už LLMs.txt pasiūlymo kūrimą, ir pasakė, kad kūrėjas paaiškino, kad LLMs.txt niekada nebuvo skirtas padaryti svetainę aptinkamą, ji niekada neturėjo būti šio proceso dalimi.

Tai svarbus dalykas, nes daugelis svetainių savininkų praleidžia laiką, pinigus ir pastangas kurdami LLMs.txt, kad būtų atrasti ir įvertinti LLM. Tai reiškia, kad priežastis, dėl kurios žmonės naudoja LLMs.txt, prieštarauja tikram LLMs.txt tikslui, kuris neturi nieko bendra su Discovery.

Muelleris paaiškino:

„Taigi, manau, kalbėjausi su vienu iš žmonių, kurie kūrė šį pasiūlymą seniai. Ir iš tikrųjų mintis buvo ne sukurti kažką, kas palengvintų paieškos sistemoms ar LLM sistemoms atrasti visą jūsų turinį, bet beveik labiau, kad jei LLM jau žino apie jūsų svetainę ir nori sužinoti, kas čia dar yra, tai gali būti toks požiūris.
Ir aš manau, kad tai neturi prasmės naudoti kaip būdą optimizuoti AI sistemų „Discovery by AI“ arba „Discovery by Search Systems“.

Muelleris vėliau paaiškino, kad daugelis žmonių naudoja LLMs.txt, tikėdamiesi padėti atradimo procesui, nepaisant to, kad tai nėra LLMs.txt tikslas.

Tada jis atkreipė dėmesį į tai, kad LLMs.txt iš prigimties yra nepatikimi, nes svetainės savininkas nurodo, apie ką yra jų svetainės turinys, kuris gali atitikti faktinį HTML turinį arba neatitikti.

Jis tęsė:

„Kadangi iš esmės jūs sakote šioms sistemoms, pavyzdžiui, aš turiu geriausią visų laikų svetainę. Ir čia yra visi puslapiai, į kuriuos privalo eiti visi. Ir jūs turite nusipirkti visus mano produktus arba bet ką, ką ten įdedate.
Taigi LLM sistemoje ji… iš esmės pagal dizainą negali pasitikėti tuo, kas čia yra kaip būdas atskirti skirtingas svetaines.

Agento instrukcijos

Tada Muelleris sako, kad kai kurie iš šių standartų pasiūlymų gali būti naudingi padedant AI agentui, o tai atrodo, kad jis kalba apie žiniatinklio modelio konteksto protokolą (WebMCP).

Jis paaiškino:

„Jei kas nors jau yra jūsų svetainėje, galbūt praverstų kokia nors automatizuota sistema. Kur, jei ji eina, aš noriu nueiti į Martin's Splitt ir nusipirkti nuotrauką, tada LLM sistema gali patekti į jūsų svetainę ir apsižvalgyti, pavyzdžiui, kaip perkate nuotrauką? Galbūt jis turi kokių nors gairių man, kaip nuotraukų pirkimo agentui. Tai yra prasminga.
Bet išeidamas sakydamas: „Noriu nusipirkti nuotrauką, kurioje svetainėje ji tokia yra, sistema nenueis į jūsų svetainę ir dar penkis ir nesakys, kas turi automatizuotos informacijos? Tačiau jie bando rasti geriausią svetainę…

LLMs.txt nėra skirtas AI atrasti

Muelleris grįžo prie to, kaip žmonės klaidingai supranta LLMs.txt kaip būdą, kaip dirbtinio intelekto sistemas atrasti.

Jis samprotavo šiuo klausimu:

„Manau, kad šiuo požiūriu optimizavimas, kaip būdas būti atrastam, nėra prasminga.
Bet kas atsitinka, kai jūsų svetainėje yra agentas? Manau, kad šiuo metu tai taip pat atrodo atvira diskusijų sritis, nes čia yra LLMs.txt kaip pasiūlymas. Aptariami įvairūs JSON failai ir gerai žinomi failų tipai.
Yra WebMCP, kuris, manau, bando padaryti kažką panašaus, kur sakoma: na, jūs dabar esate šiame puslapyje, bet mes turime tam programinę sąsają, pridėtą konkretų URL arba konkretų mechanizmą.
Manau, kad tai yra beveik skirtingos diskusijos.

Atradimas ir reitingas vis dar susiję su HTML

Muelleris užbaigė savo mintį pabrėždamas, kad „Discovery“ yra HTML lygiu.

Jis paaiškino:

„Taigi bendras SEO požiūris, kaip rasti svetainę, kurioje man parduodama nuotrauka, bus beveik visiškai susietas su HTML puslapiais ir įprastais tinklalapiais.
Ir tada, jei vartotojas nusprendžia kreiptis į konkrečią paslaugą, tada toje paslaugoje yra šiek tiek daugiau vietos galbūt padėti agentui arba LLM sistemai rasti tinkamą požiūrį.
Bet įdomu, žinoma, yra daugybė idėjų. Ir nė vienas iš jų iš esmės nesikristalizavo kaip vienas dalykas, kurį naudos visi. Taigi esu tikras, kad per kitą, nežinau, pusmetį, metus, o gal ir ilgiau, tai užtruks šiek tiek. Ir kai kurios iš šių agentų sistemų suvienys standartinį failo tipą, mechanizmą ar dar ką nors.

Muelleris nesiūlė WebMCP standarto, bet jei AI agentai taps būdu, kuriuo vartotojai sąveikauja su svetainėmis, tai bus kažkas panašaus į WebMCP, o ne LLMs.txt, kuris bus naudingas svetainėms, ypač el. prekybos svetainėms.

„WebMCP“ natūraliai labiau tinka el. prekybai, nes jame pagrindinis dėmesys skiriamas AI agentams veiksmingų galimybių suteikimui, pvz., kaip filtruoti produktus, kaip ieškoti ir identifikuoti produktus, padeda palyginti skirtingus produktus ir padeda AI pridėti produktą į pirkinių krepšelį.

AI agentai gali naršyti naudodami žmonėms skirtą HTML svetainę. WebMCP palengvina AI agentams sėkmingą sąveiką su svetaine, o to nedaro LLMs.txt.

Nors nei LLMs.txt, nei WebMCP nepadeda AI aptikti svetainės, nė vienas iš jų nebuvo sukurtas tam tikslui. Atradimo dalis, pirmasis reitingavimo etapas, viskas vyksta naudojant HTML. Jei taip, koks jūsų kitas žingsnis?

Klausykite „Google“ paieškos „Off The Record“ 111 serijos