Kai kurie kūrėjai eksperimentavo su konkrečiam robotui pritaikytu Markdown pristatymu, kad sumažintų AI tikrintuvų žetonų naudojimą.
„Google“ paieškos advokatas Johnas Muelleris atmetė idėją teikti neapdorotus „Markdown“ failus LLM tikrintuvams, iškėlė techninius rūpesčius „Reddit“ ir pavadino „kvaila idėja“ „Bluesky“.
Kas vyksta
Kūrėjas paskelbė r/TechSEO, aprašydamas planus naudoti Next.js tarpinę programinę įrangą, kad būtų galima aptikti AI vartotojų agentus, tokius kaip GPTBot ir ClaudeBot. Kai tie robotai pasiekia puslapį, tarpinė programinė įranga perima užklausą ir pateikia neapdorotą Markdown failą, o ne visą React / HTML naudingą apkrovą.
Kūrėjas teigė, kad ankstyvieji etalonai parodė, kad žetonų naudojimas puslapyje sumažėjo 95 %, o tai, jų nuomone, turėtų padidinti svetainės paieškos papildytos kartos (RAG) robotų priėmimo pajėgumus.
Muelleris atsakė keliais klausimais.
„Ar esate tikri, kad jie netgi gali atpažinti MD svetainėje kaip bet ką kitą, o ne tekstinį failą? Ar jie gali analizuoti ir sekti nuorodas? Kas atsitiks su jūsų svetainės vidinėmis nuorodomis, antrašte, porašte, šonine juosta, naršymu? Vienas dalykas yra MD failą duoti rankiniu būdu, nes atrodo, kad labai skiriasi teksto failo pateikimas, kai jie ieško HTML puslapio.
„Bluesky“ Muelleris buvo tiesioginis. Atsakydamas techniniam SEO konsultantui Jono Aldersonui, kuris teigė, kad puslapių išlyginimas į Markdown panaikina prasmę ir struktūrą,
Muelleris rašė:
„Puslapių konvertavimas į žymėjimą yra tokia kvaila idėja. Ar žinojote, kad LLM gali skaityti vaizdus? KODĖL VISOS SVETAINĖS nepaversti VAIZDU?”
Aldersonas teigė, kad sutraukus puslapį į „Markdown“, pašalinamas svarbus kontekstas ir struktūra, o „Markdown“ gavimas įrėmintas kaip patogumo žaidimas, o ne ilgalaikė strategija.
Kiti balsai „Reddit“ gijoje pakartojo susirūpinimą. Vienas komentatorius suabejojo, ar pastangos galėtų apriboti šliaužiojimą, o ne jį sustiprinti. Jie pažymėjo, kad nėra įrodymų, kad LLM būtų išmokyti teikti pirmenybę dokumentams, kuriems analizuoti reikia mažiau išteklių.
Originalus plakatas gynė teoriją, teigdamas, kad LLM geriau analizuoja Markdown nei HTML, nes jie yra labai apmokyti dirbti su kodų saugyklomis. Tas teiginys nepatikrintas.
Kodėl tai svarbu
Muelleris buvo nuoseklus šiuo klausimu. Ankstesniuose mainuose jis atsakė į Lily Rayabout klausimą, sukurdamas atskirus Markdown arba JSON puslapius LLM. Tada jo padėtis buvo tokia pati. Jis sakė, kad reikia sutelkti dėmesį į švarų HTML ir struktūrinius duomenis, o ne kurti tik robotams skirtas turinio kopijas.
Šis atsakymas buvo atliktas po SE Ranking 300 000 domenų analizės, kuri nerado ryšio tarp llms.txt failo ir to, kaip dažnai domenas nurodomas LLM atsakymuose. Be to, Muelleris palygino llms.txt su raktinių žodžių metažyma – formato, kurio didžiosios platformos neįrodė, kaip tai, ką jie naudoja reitinguodami ar cituodami.
Iki šiol viešoji platformos dokumentacija neparodė, kad tik robotams skirti formatai, pvz., puslapių „Markdown“ versijos, pagerintų reitingą ar citatas. Muelleris iškėlė tuos pačius prieštaravimus keliose diskusijose, o SE reitingo duomenys nerado nieko kito.
Žvilgsnis į priekį
Kol AI platforma nepaskelbs specifikacijų, reikalaujančių tinklalapių „Markdown“ versijų, geriausia praktika išlieka tokia, kokia yra. Laikykite švarų HTML, sumažinkite nereikalingą „JavaScript“, kuris blokuoja turinio analizavimą, ir naudokite struktūrinius duomenis, kai platformos turi dokumentuotas schemas.


