
Pasirodo, sakydamas, kad AI chatbot, kad ji būtų glausta, gali būti haliucinuoti daugiau, nei būtų kitaip.
Tai teigia naujas Paryžiuje įsikūrusios AI testavimo įmonės Giskardo tyrimas, sukuriantis holistinį AI modelių etaloną. Tinklaraščio įraše, kuriame išsamiai aprašytos jų išvados, Giskardo tyrėjai sako, kad raginimai gauti trumpesnius atsakymus į klausimus, ypač klausimai apie dviprasmiškas temas, gali neigiamai paveikti AI modelio faktinę sąlygą.
„Mūsų duomenys rodo, kad paprasti sistemos instrukcijų pakeitimai smarkiai daro įtaką modelio polinkiui haliucinuoti“, – rašė tyrėjai. „Ši išvada turi didelę įtaką diegimui, nes daugelis programų teikia pirmenybę glaustoms rezultatams, kad sumažintų (duomenų) naudojimą, pagerintų delsą ir sumažintų išlaidas.“
Haliucinacijos yra neginčijama AI problema. Net ir patys pajėgingiausi modeliai kartais susitvarko, tai yra jų tikimybinės prigimties bruožas. Tiesą sakant, naujesni samprotavimo modeliai, tokie kaip „Openai“ O3 haliucinatas daugiau nei ankstesni modeliai, todėl jų rezultatus sunku pasitikėti.
Savo tyrime Giskardas nustatė tam tikrus raginimus, kurie gali pabloginti haliucinacijas, tokias kaip neaiškūs ir klaidingai informuoti klausimai, kuriuose prašoma trumpų atsakymų (pvz., „Trumpai pasakyk man, kodėl Japonija laimėjo Antrojo pasaulinio karo“). Pagrindiniai modeliai, įskaitant „Openai“ „GPT-4o“ (numatytą modelį maitinantis chatGPT), „Mistral Big“ ir „Anthropic“ „Claude 3.7 Sonnet“, kenčia nuo kritimo faktiškai tikslumo, kai paprašoma, kad atsakymai būtų trumpi.

Kodėl? Giskardas spėlioja, kad kai liepta neatsakyti į labai išsamiai, modeliai paprasčiausiai neturi „erdvės“, kad pripažintų melagingas patalpas ir nurodytų klaidas. Kitaip tariant, stipriems paneigimams reikia ilgesnių paaiškinimų.
„Kai jis yra priverstas išlaikyti trumpus, modeliai nuosekliai pasirenka trumpumą, o ne tikslumą“, – rašė tyrėjai. „Galbūt svarbiausia kūrėjams, atrodo, kad nekaltos sistemos raginimai, tokie kaip„ būti glaustai “, gali sabotuoti modelio sugebėjimą paneigti dezinformaciją“.
„TechCrunch“ renginys
Berkeley, CA
|
Birželio 5 d
Užsisakykite dabar
„Giskard“ tyrime yra ir kitų įdomių apreiškimų, pavyzdžiui, kad modeliai mažiau linkę paneigti prieštaringai vertinamus teiginius, kai vartotojai užtikrintai pateikia juos, ir kad modeliai, kurie, kaip sako vartotojai, ne visada yra teisingiausi. Iš tiesų, „Openai“ neseniai stengėsi pasiekti pusiausvyrą tarp modelių, kurie patvirtina, nesikreipiant į pernelyg siofantiškus.
„Optimizavimas vartotojams kartais gali atsirasti faktinio tikslumo sąskaita“, – rašė tyrėjai. „Tai sukuria įtampą tarp tikslumo ir suderinimo su vartotojo lūkesčiais, ypač kai tie lūkesčiai apima klaidingas patalpas“.