
Naujame „Openai“ tyrime klausiama, kodėl dideli kalbų modeliai, tokie kaip GPT-5, ir tokių pokalbių programų, kaip „ChatGPT“ vis dar haliucinatas, ir ar galima ką nors padaryti norint sumažinti tas haliucinacijas.
Tinklaraščio įraše, kuriame apibendrintame dokumente, „Openai“ haliucinacijas apibūdina kaip „patikimus, bet klaidingus teiginius, kuriuos sukuria kalbos modeliai“, ir pripažįsta, kad nepaisant patobulinimų, haliucinacijos „išlieka pagrindiniu iššūkiu visiems dideliems kalbų modeliams“ – tokio, kuris niekada nebus visiškai pašalintas.
Norėdami iliustruoti esmę, tyrėjai sako, kad kai jie paklausė „plačiai naudojamo pokalbių programos“ apie Adomo Taumano Kalai daktaro laipsnį. Disertacija, jie gavo tris skirtingus atsakymus, visi jie neteisingi. (Kalai yra vienas iš popieriaus autorių.) Tada jie paklausė apie jo gimtadienį ir gavo tris skirtingas datas. Vėlgi, visi jie klydo.
Kaip pokalbių juosta gali būti tokia neteisinga – ir skambėti taip užtikrintai dėl savo neteisybės? Tyrėjai teigia, kad haliucinacijos iš dalies kyla dėl išankstinio proceso, kuriame pagrindinis dėmesys skiriamas modeliams teisingai numatyti kitą žodį be tikrų ar klaidingų etikečių, pridėtų prie mokymo teiginių: „Modelis mato tik teigiamus laisvai kalbų kalbos pavyzdžius ir turi apytiksliai suderinti bendrą pasiskirstymą“.
„Rašyba ir skliausteliuose yra nuoseklūs modeliai, todėl klaidos ten išnyksta su mastu“, – rašo jie. „Tačiau savavališki žemo dažnio faktai, pavyzdžiui, augintinio gimtadienis, negali būti prognozuojami vien tik iš modelių, todėl sukelia haliucinacijas“.
Tačiau siūlomame dokumento sprendime mažiau dėmesio skiriama pradiniam išankstinio proceso procesui ir daugiau į tai, kaip vertinami dideli kalbos modeliai. Ji teigia, kad dabartiniai vertinimo modeliai patys nesukelia haliucinacijų, tačiau jie „nustato neteisingas paskatas“.
Tyrėjai palygina šiuos vertinimus su tokio tipo kelių pasirinkimo testų, kaip atsitiktinis atspėjimas, turi prasmę, nes „jums gali pasisekti ir būti teisus“, palikdami atsakymą tuščią „garantuojančią nulį“.
„TechCrunch“ renginys
San Franciskas
|
2025 m. Spalio 27–29 d
„Lygiai taip pat, kai modeliai klasifikuojami tik pagal tikslumą, klausimų procentinė dalis jiems teisingai tinka, jie skatinami atspėti, o ne pasakyti„ aš nežinau “, – sako jie.
Taigi siūlomas sprendimas yra panašus į testus (pvz., SAT), į kuriuos įeina „neigiami (balai) už neteisingus atsakymus arba dalinį kreditą už tai, kad klausimai paliekami tuščia, kad atgrasytų nuo aklųjų spėlionių“. Panašiai, „Openai“ sako, kad modelio vertinimams reikia „nubausti pasitikinčias klaidas labiau nei jūs baudžiate netikrumą ir suteikiate iš dalies kreditą už tinkamą netikrumo išraišką“.
Ir tyrėjai teigia, kad nepakanka įvesti „keletą naujų neapibrėžtumo suvokimo testų šone“. Vietoj to, „Plačiai naudojamas, tikslumu pagrįstas EVAL turi būti atnaujinami taip, kad jų balai neskatintų atspėti“.
„Jei pagrindinės rezultatų suvestinės ir toliau teikia naudingus spėliones, modeliai ir toliau mokysis atspėti“, – sako tyrėjai.




