
„Google“ tyrėjai pristatė metodą, kaip pagerinti AI paiešką ir padėjėjus, pagerindami gavimo atvežamų kartos (RAG) modelių sugebėjimą atpažinti, kai gauta informacija trūksta pakankamai konteksto, kad atsakytų į užklausą. Jei jie bus įgyvendinti, šie duomenys galėtų padėti AI sukuriamiems atsakymams išvengti nepasikliaudymo neišsamios informacijos ir pagerinti atsakymo patikimumą. Šis poslinkis taip pat gali paskatinti leidėjus kurti turinį su pakankamu kontekstu, todėl jų puslapiai tampa naudingesni AI sukurtoms atsakymams.
Jų tyrimuose nustatyta, kad tokie modeliai kaip „Gemini“ ir „GPT“ dažnai bando atsakyti į klausimus, kai gautuose duomenyse yra nepakankamas kontekstas, todėl, užuot susilaikę, sukelia haliucinacijas. Norėdami tai išspręsti, jie sukūrė sistemą, skirtą sumažinti haliucinacijas, padėdami LLM nustatyti, kada gautame turinyje yra pakankamai informacijos atsakymui paremti.
Gauna Aktualios kartos (RAG) sistemos padidina LLM su išoriniu kontekstu, kad pagerintų klausimų atsakymo tikslumą, tačiau haliucinacijos vis dar vyksta. Nebuvo aiškiai suprantama, ar šios haliucinacijos kilo dėl klaidingo LLM interpretacijos, ar iš nepakankamo atgauto konteksto. Tyrimo dokumente pristatoma pakankamo konteksto koncepcija ir aprašomas metodas, skirtas nustatyti, kada yra pakankamai informacijos, kad būtų galima atsakyti į klausimą.
Jų analizėje nustatyta, kad patentuoti modeliai, tokie kaip „Gemini“, „GPT“ ir „Claude“, linkę pateikti teisingus atsakymus, kai pateikiami pakankamai konteksto. Tačiau kai konteksto nepakanka, jie kartais haliucinuoja, o ne susilaiko, tačiau jie taip pat teisingai atsako 35–65% laiko. Šis paskutinis atradimas prideda dar vieną iššūkį: žinant, kada įsikišti į priversti susilaikyti (neatsakyti) ir kada pasitikėti modeliu, kad jis būtų teisingas.
Apibrėžti pakankamą kontekstą
Tyrėjai apibūdina pakankamą kontekstą kaip reiškia, kad gautoje informaciją (iš RAG) yra visos reikalingos detalės, kad būtų galima gauti teisingą atsakymą. Klasifikacijai, kad kažkas turi pakankamai konteksto, nereikalauja, kad tai būtų patikrintas atsakymas. Tai tik įvertina, ar atsakymas gali būti tikimasi iš pateikto turinio.
Tai reiškia, kad klasifikacija nepatikrina teisingumo. Tai įvertina, ar gauta informacija suteikia pagrįstą pagrindą atsakyti į užklausą.
Nepakankamas kontekstas reiškia, kad gauta informacija yra neišsami, klaidinanti ar trūksta kritinių detalių, reikalingų atsakymui sukurti.
Pakanka konteksto autorater
Pakanka konteksto „Autorater“ yra LLM pagrįsta sistema, klasifikuojanti užklausų konteksto poras kaip pakankamą ar nepakankamą kontekstą. Geriausias autoratero modelis buvo „Gemini 1.5 Pro“ (1-shot), pasiekęs 93% tikslumo greitį, pralenkdamas kitus modelius ir metodus.
Mažinant haliucinacijas su selektyviu generavimu
Tyrėjai išsiaiškino, kad RAG pagrįsti LLM atsakymai galėjo teisingai atsakyti į klausimus 35–62% laiko, kai gauti duomenys turėjo nepakankamą kontekstą. Tai reiškė, kad pakankamas kontekstas ne visada buvo būtinas siekiant pagerinti tikslumą, nes modeliai galėjo grąžinti teisingą atsakymą be jo 35–62% laiko.
Jie pasinaudojo savo atradimu apie šį elgesį, kad sukurtų selektyvaus generavimo metodą, kuriame naudojami pasitikėjimo balai (savarankiškai įvertintos tikimybės, kad atsakymas gali būti teisingas) ir pakankami konteksto signalai, kad nuspręstų, kada generuoti atsakymą ir kada susilaikyti (siekiant išvengti neteisingų teiginių ir haliucinacijos). Tai pasiekia pusiausvyrą tarp leidimo LLM atsakyti į klausimą, kai yra tvirtas tikrumas, jis yra teisingas, tuo pačiu leidžiant susilaikyti, kai yra pakankamai ar nepakankamai konteksto atsakymui į klausimą.
Tyrėjai apibūdina, kaip tai veikia:
„… Mes naudojame šiuos signalus, kad išmokytume paprastą linijinį modelį, kad numatytume haliucinacijas, ir tada naudojame juos, kad nustatytumėte aprėpties tikslumo kompromiso ribas.
Šis mechanizmas skiriasi nuo kitų strategijų, kaip pagerinti susilaikymą dviem pagrindiniais būdais. Pirma, kadangi jis veikia nepriklausomai nuo kartos, jis sušvelnina nenumatytus pasroviui.
Takeaways
Prieš pradedant tvirtinti, kad konteksto pakankamumas yra reitingavimo veiksnys, svarbu pažymėti, kad tyrimo dokumente nenurodoma, kad AI visada teiks prioritetą gerai struktūruotiems puslapiams. Konteksto pakankamumas yra vienas iš veiksnių, tačiau naudojant šį konkretų metodą, pasitikėjimo balai taip pat daro įtaką AI generuojamoms reakcijoms, įsikišant į susilaikymo sprendimus. Susilaikymo slenksčiai dinamiškai koreguoja remiantis šiais signalais, tai reiškia, kad modelis gali pasirinkti neatsakyti, jei pasitikėjimas ir pakankamumas yra žemas.
Nors puslapiuose, kuriuose yra išsami ir gerai struktūruota informacija, labiau linkę į pakankamą kontekstą, kiti veiksniai, tokie kaip tai, kaip gerai AI pasirenka ir reitinguoja svarbią informaciją, sistema, nustatanti, kurie šaltiniai yra gauti, taip pat vaidina ir kaip LLM. Negalite atskirti vieno faktoriaus, neatsižvelgdami į platesnę sistemą, kuri nustato, kaip AI gauna ir generuoja atsakymus.
Jei šie metodai bus įdiegti į AI asistentą ar „Chatbot“, tai gali sukelti AI sukurtus atsakymus, kurie vis labiau remiasi tinklalapiais, kurie pateikia išsamią, gerai struktūrizuotą informaciją, nes juose labiau tikėtina, kad juose yra pakankamai konteksto, kad būtų galima atsakyti į užklausą. Svarbiausia yra pateikti pakankamai informacijos viename šaltinyje, kad atsakymas būtų prasmingas nereikalaujant papildomų tyrimų.
Kas yra puslapiai, kurių kontekstas nepakankamas?
- Trūksta pakankamai detalių, kad atsakytumėte už užklausą
- Klaidinantis
- Nepilnas
- Prieštaringas
- Neišsami informacija
- Turiniui reikia išankstinių žinių
Reikalinga informacija, kad atsakymas būtų baigtas, yra išsibarstęs skirtinguose skyriuose, o ne pateikta vieningu atsakymu.
„Google“ trečiųjų šalių kokybės vertintojų gairės (QRG) turi koncepcijas, panašias į konteksto pakankamumą. Pvz., QRG apibūdina žemos kokybės puslapius kaip tuos, kurie nesiekia savo tikslo, nes jie nepateikia reikiamos fono, informacijos ar svarbios informacijos šiai temai.
Ištraukos iš kokybės vertintojų gairių:
„Žemos kokybės puslapiai nesiekia savo tikslo, nes jiems trūksta svarbios dimensijos ar turi probleminį aspektą“.
„Puslapis pavadinimu„ Kiek centimetrų yra metre? “ Turint didelę dalį ne tokio ir nenaudingo turinio, kad sunku rasti labai nedidelį naudingos informacijos kiekį. “
„Vadovaujantis mokymo puslapis su instrukcijomis, kaip pagaminti pagrindinį amatą ir daugybę nenaudingų„ užpildų “viršuje, pavyzdžiui, dažniausiai žinomi faktai apie reikalingas reikmenis ar kitokią informaciją apie neskaidrią informaciją“.
„… didelis kiekis„ užpildo “ar beprasmio turinio…“
Net jei „Google“ „Gemini“ ar „AI“ apžvalgos neįgyvendina išradimų šiame tyrime, daugelyje joje aprašytų koncepcijų yra analogų „Google“ kokybės vertintojo gairėse, kuriose pačios aprašytos aukštos kokybės tinklalapių, kuriuos SEO ir leidėjai, kurie nori reitinguoti, sąvokas.
Perskaitykite tyrimo dokumentą:
Pakankamas kontekstas: naujas objektyvas, skirtas gauti papildytos kartos sistemas
Teminis „Shutterstock“/Chris Wm Willemsen vaizdas