„Meta AI“ saugumo tyrinėtojas sakė, kad „OpenClaw“ agentas apėmė jos pašto dėžutę

Dabar virusinis X įrašas iš Meta AI saugumo tyrinėtojo Summer Yue iš pradžių skamba kaip satyra. Ji liepė savo OpenClaw AI agentui patikrinti perpildytą el. pašto dėžutę ir pasiūlyti, ką ištrinti ar archyvuoti.

Agentas pradėjo siautėti. Ji pradėjo trinti visus jos el. laiškus „greitai“, nepaisydama jos telefono komandų, liepiančių jam sustoti.

„Turėjau BĖGTI prie savo Mac mini tarsi nukenksminčiau bombą“, – rašė ji, kaip kvitus paskelbdama ignoruojamų raginimų sustoti vaizdus.

„Mac Mini“ – įperkamas „Apple“ kompiuteris, sėdintis ant stalo ir telpantis į delną, šiais laikais tapo mėgstamiausiu įrenginiu „OpenClaw“ paleisti. („Mini“ parduoda „kaip karštus pyragus“, – vienas „supainiotas“ „Apple“ darbuotojas, matyt, sakė garsiajam dirbtinio intelekto tyrinėtojui Andrejui Karpathy, kai jis nusipirko „OpenClaw“ alternatyvą „NanoClaw“.)

Žinoma, „OpenClaw“ yra atvirojo kodo AI agentas, išgarsėjęs per „Moltbook“ – tik AI socialinį tinklą. „OpenClaw“ agentai buvo to dabar iš esmės demaskuoto „Moltbook“ epizodo centre, kuriame atrodė, kad AI rengia sąmokslą prieš žmones.

Tačiau „OpenClaw“ misija, pasak jos „GitHub“ puslapio, nėra orientuota į socialinius tinklus. Juo siekiama būti asmeniniu AI asistentu, kuris veikia jūsų įrenginiuose.

Silicio slėnio minia taip įsimylėjo „OpenClaw“, kad „letena“ ir „letena“ tapo populiariais žodžiais agentams, kurie dirba su asmenine aparatūra. Kiti tokie agentai yra ZeroClaw, IronClaw ir PicoClaw. „Y Combinator“ podcast'o komanda netgi pasirodė savo naujausiame epizode apsirengusi omarų kostiumais.

Techcrunch renginys

Bostonas, MA
|
2026 m. birželio 9 d

Tačiau Yue įrašas yra įspėjimas. Kaip pažymėjo kiti X, jei AI saugumo tyrinėtojas galėtų susidurti su šia problema, kokią viltį turi paprasti mirtingieji?

„Ar tyčia išbandėte jo apsauginius turėklus, ar padarėte naujoko klaidą? programinės įrangos kūrėjas paklausė jos X.

„Naujoko klaida tbh“, – atsakė ji. Ji išbandė savo agentą su mažesne „žaislų“ pašto dėžute, kaip ji vadino, ir ji puikiai veikė ne tokiais svarbiais el. Tai užsitarnavo jos pasitikėjimą, todėl ji manė, kad atsisakys tikrojo.

Yue mano, kad didelis duomenų kiekis jos tikrojoje pašto dėžutėje „suaktyvino sutankinimą“, rašė ji. Sutankinimas įvyksta, kai konteksto langas – einamasis įrašas visko, kas AI buvo pasakyta ir padaryta per seansą – išauga per didelis, todėl agentas pradeda apibendrinti, glaudinti ir valdyti pokalbį.

Tuo metu AI gali praleisti instrukcijas, kurias žmogus laiko gana svarbiomis.

Šiuo atveju jis galėjo praleisti paskutinį jos raginimą – kai ji liepė neveikti – ir grįžo prie instrukcijų iš „žaislų“ gautųjų.

Kaip pabrėžė keli kiti, esantys X, raginimais negalima pasitikėti, kad jie veiktų kaip apsauginiai turėklai. Modeliai gali juos neteisingai suprasti arba ignoruoti.

Įvairūs žmonės teikė pasiūlymus, pradedant nuo tikslios sintaksės, kurią Yue turėjo naudoti agentui sustabdyti, iki įvairių metodų, kaip užtikrinti geresnį apsauginių turėklų laikymąsi, pvz., rašyti instrukcijas į tam skirtus failus arba naudoti kitus atvirojo kodo įrankius.

Siekdama visiško skaidrumo, „TechCrunch“ negalėjo savarankiškai patikrinti, kas atsitiko Yue gautuosiuose. (Ji neatsakė į mūsų prašymą pakomentuoti, nors atsakė į daugelį klausimų, o komentarai buvo išsiųsti X.)

Bet tai tikrai nesvarbu.

Pasakos esmė ta, kad agentai, skirti žinių darbuotojams, esant dabartiniam jų vystymosi etapui, yra rizikingi. Žmonės, kurie sako, kad juos sėkmingai naudoja, derina būdus, kaip apsisaugoti.

Vieną dieną, galbūt netrukus (iki 2027? 2028 m.?), jie gali būti paruošti plačiai naudoti. Dievas žino, kad daugelis iš mūsų norėtų padėti el. paštu, užsakyti bakalėjos prekes ir planuoti susitikimus su odontologu. Bet ta diena dar neatėjo.

Source link