„Google AI“ paieškos rezultatų pagrįstumas

Klausimai apie „Pew“ tyrimų centro naudojamą metodiką rodo, kad jos išvados apie „Google“ AI santraukas gali būti ydingos. Faktai apie tai, kaip kuriamos AI santraukos, imties dydis ir statistinis patikimumas ginčija rezultatų pagrįstumą.

Turinys:

Oficialus „Google“ pareiškimas

„Google“ atstovas susisiekė su oficialiu pareiškimu ir diskusija apie tai, kodėl „Pew“ tyrimų išvados neatspindi faktinių vartotojų sąveikos modelių, susijusių su AI santraukomis ir standartine paieška.

Pagrindiniai „Google“ paneigimo punktai yra šie:

Vartotojai vis dažniau ieško AI funkcijų
Jie užduoda daugiau klausimų
PG naudojimo tendencijos padidina turinio kūrėjų matomumą.
„Pew“ tyrimuose buvo naudojama ydinga metodika.

„Google“ bendra:

„Žmonės traukia į AI maitinamą patirtį, o paieškos AI funkcijos suteikia žmonėms galimybę užduoti dar daugiau klausimų, sukurdami naujas galimybes žmonėms susisiekti su svetainėmis.
Šiame tyrime naudojama ydinga metodika ir iškreiptas užklausa, kuri neatspindi paieškos srauto. Mes nuolat nukreipiame milijardus paspaudimų į svetaines kasdien ir nepastebėjome reikšmingų bendrojo interneto srauto kritimų, kaip siūloma. “

Imties dydis yra per mažas

Aš aptariau „Pew“ tyrimus su Duane Forrester (buvusi „Bing“, „LinkedIn“ profiliu) ir jis pasiūlė, kad tyrimo mėginių ėmimo dydis buvo per mažas, kad būtų prasmingas (900 ir daugiau suaugusiųjų ir 66 000 paieškos užklausų). Duane pasidalino šia nuomone:

„Iš beveik 500 milijardų užklausų per mėnesį„ Google “ir jie ištraukia įžvalgas pagal 0,0000134% imties dydį (66 000+ užklausų), tai yra labai mažas imtis.
Nepatariu, kad 66 000 kažko yra nereikšmingas, tačiau atsižvelgiant į bet kurį mėnesį, dieną, valandą ar minutę užklausų apimtį, tai labai techniškai nėra apvalinimo klaida ir, jei tai būtų mano tyrimas, turėčiau iškviesti, koks nepaprastai mažas yra imties dydis ir kad ji gali realiai neatspindėti tikrojo pasaulio “.

Kiek patikimas yra „Pew Center“ statistika?

Naudotos statistikos metodikos puslapis sąraše, kokia patikima statistika šioms amžiaus grupėms:

18–29 metų amžius buvo įvertintas plius/minuso 13,7 procentiniu punktu. Tai yra žemas patikimumo lygis.
30–49 metų amžius buvo įvertintas pliuso/minuso procentiniu punktu. Tai užima vidutinį, šiek tiek patikimą, bet vis tiek gana platų diapazoną.
50–64 metų amžius buvo įvertintas pliuso/minuso 8,9 procentinio punkto. Tai yra vidutinio sunkumo ir žemo patikimumo lygio.
65 metų ir vyresnis nei daugiau nei 10 metų amžiaus, 10,2 procentinio punkto, o tai tvirtai yra nedidelis patikimumo diapazonas.

Aukščiau pateikti patikimumo balai yra iš „Pew Research“ metodikos puslapio. Apskritai, visi šie rezultatai turi didelę klaidą, todėl jie tampa statistiškai nepatikimi. Geriausiu atveju jie turėtų būti vertinami kaip grubūs įvertinimai, nors, kaip sako Duane, imties dydis yra toks mažas, kad sunku pateisinti jį kaip atspindinčius realaus pasaulio rezultatus.

PEW tyrimų rezultatai palygina rezultatus skirtingais mėnesiais

Galvoję apie tai per naktį ir apžvelgdami metodiką, išsiskyrė „Pew“ tyrimų metodikos aspektas, kad kovo mėnesį jie palygino tikrasis vartotojų paieškos užklausas su tomis pačiomis užklausomis, kurias tyrėjai atliko per vieną savaitę balandžio savaitę.

Tai problematiška, nes „Google“ AI santraukos keičiasi iš mėnesio. Pvz., Tokie klausimai, sukeliantys PG apžvalgos pokyčius, kai AIOS tampa ryškesnės tam tikroms nišoms, o mažiau – kitoms temoms. Be to, vartotojo tendencijos gali paveikti tai, kas ieškoma, kuriai pati gali būti laikinas gaivumo atnaujinimas paieškos algoritmams, kuriems prioritetas teikia pirmenybę vaizdo įrašams ir naujienoms.

Pasirinkimas yra tas, kad palyginti paieškos rezultatus iš skirtingų mėnesių yra problematiška tiek standartinei paieškai, tiek AI santraukoms.

„Pew Research“ nepaisoma, kad AI paieškos rezultatai yra dinamiški

Kalbant apie AI apžvalgas ir suvestines, tai yra dar dinamiškesni, todėl gali pakeisti ne tik kiekvienam vartotojui, bet ir tam pačiam vartotojui.

Ieškant užklausos AI apžvalgose, tada pakartojant užklausą visiškai kitoje naršyklėje, bus skirtingas AI suvestinė ir visiškai skirtingas nuorodų rinkinys.

Esmė ta, kad „Pew“ tyrimų centro metodika, kai jie palygina vartotojo užklausas su išrintomis užklausomis po mėnesio, yra ydingi, nes negalima palyginti dviejų užklausų ir rezultatų rinkinių, jie iš esmės skiriasi dėl laiko, atnaujinimų ir dinaminio AI santraukų pobūdžio.

Šios ekrano kopijos yra užklausos nuorodos, nurodytos užklausos, Kas yra RLHF mokymai „Openai“?

„Google Aio“ per „Vivaldi“ naršyklę

Ekrano kopijoje rodomos nuorodos į „Amazon Web Services“, „Medium“ ir „Kili Technology“

„Google Aio“ per „Chrome Canary“ naršyklę

Ekrano kopijoje rodomos nuorodos į „Openai“, „Arize AI“ ir „Hugning Face“

Dešinėje pusėje esančios nuorodos yra ne tik skirtingos, bet ir suvestinės turinio ir nuorodos, įterptos į tą turinį, taip pat skiriasi.

Ar gali būti, kodėl leidėjai mato nenuoseklų srautą?

Leidėjai ir SEOS yra naudojami tam tikros paieškos užklausos paieškos rezultatams statinėms padėties pozicijoms. Tačiau „Google“ AI apžvalgos ir AI režimas rodo dinaminius paieškos rezultatus. Paieškos rezultatų ir rodomų nuorodų turinys yra dinamiškas, parodantis platų svetainių spektrą trijose trijose vietose tose pačiose užklausose. SEOS ir leidėjai paprašė „Google“ parodyti platesnį svetainių spektrą ir tai, matyt, daro tai, ką daro „Google“ AI funkcijos. Ar tai yra atvejis, kai būkite atsargūs dėl to, ko norite?

Teminis „Shutterstock“/„Stokkete“ vaizdas

Source link

Susijusios istorijos

A Third Of Fintech Is Invisible To AI Agents

81.8% Of My ‘AI Assistant’ Traffic Was Fake. The Googlebot Number Was Worse

„Google Desktop“ PR didėja, kol mobilusis smunka, praneškite apie radinius

Galbūt praleidote

A Third Of Fintech Is Invisible To AI Agents

„Meta“ planuoja 90% turinio peržiūros darbuotojų pakeisti dirbtiniu intelektu

Kodėl visi nuo „OpenAI“ iki „SpaceX“ kuria savo lustus (ir padidina „Nvidia“)

81.8% Of My ‘AI Assistant’ Traffic Was Fake. The Googlebot Number Was Worse