
Ilgus metus „Big Tech“ generaliniai direktoriai nurodė AI agentų vizijas, kurios gali savarankiškai naudoti programinės įrangos programas, kad užpildytų užduotis žmonėms. Tačiau paimkite šiandieninius vartotojų AI agentus, kad jie galėtų nugrimzti, nesvarbu, ar tai „Openai“ pokalbių agentas, ar pasipiktinimo kometa, ir greitai suprasite, kokia vis dar ribota technologija. Padarę AI agentus tvirtesni, tai gali užtrukti naują metodų rinkinį, kurį pramonė vis dar atranda.
Vienas iš šių metodų yra kruopščiai imituojant darbo vietas, kuriose agentai gali būti mokomi atlikti kelių žingsnių užduotis-žinomus kaip sustiprinimo mokymosi (RL) aplinka. Panašiai kaip pažymėti duomenų rinkiniai, maitinami paskutine AI banga, RL aplinka pradeda atrodyti kaip kritinis agentų kūrimo elementas.
AI tyrėjai, įkūrėjai ir investuotojai sako „TechCrunch“, kad pirmaujančios AI laboratorijos dabar reikalauja daugiau RL aplinkos, ir netrūksta startuolių, tikinčių jas tiekti.
„Visos didžiosios AI laboratorijos kuria RL aplinką viduje“,-interviu „TechCrunch“ sakė Jennifer Li, „Andreessen Horowitz“ generalinis partnerė. „Tačiau, kaip jūs galite įsivaizduoti, sukurti šiuos duomenų rinkinius yra labai sudėtinga, todėl AI laboratorijos taip pat žiūri į trečiųjų šalių pardavėjus, kurie gali sukurti aukštos kokybės aplinką ir vertinimus. Visi žiūri į šią erdvę.“
„RL Environments“ postūmis pakvietė naują gerai finansuojamų startuolių klasę, tokią kaip mechanizuotas darbas ir „Prime Intelektas“, kuriais siekiama vadovauti erdvei. Tuo tarpu didelės duomenų žymėjimo duomenų žymėjimo įmonės, tokios kaip „Mercor“ ir „Surge“, sako, kad daugiau investuoja į RL aplinką, kad neatsiliktų nuo pramonės pokyčių nuo statinių duomenų rinkinių prie interaktyvių modeliavimo. Pagrindinės laboratorijos taip pat svarsto galimybę investuoti taip pat: remiantis informacija, „Anthropic“ lyderiai kitais metais aptarė daugiau nei 1 milijardo JAV dolerių išleidimą RL aplinkai.
Investuotojų ir įkūrėjų viltis yra ta, kad vienas iš šių startuolių tampa „aplinkos masto AI“, nurodant 29 milijardų dolerių vertės duomenų žymėjimo jėgainę, kuri varė „Chatbot“ erą.
Kyla klausimas, ar RL aplinka tikrai pastums AI progreso ribą.
„TechCrunch“ renginys
San Franciskas
|
2025 m. Spalio 27–29 d
Kas yra RL aplinka?
Iš esmės RL aplinka yra mokymo pagrindai, modeliuojantys, ką AI agentas veiktų realioje programinėje įrangoje. Vienas įkūrėjas pastatė juos neseniai paskelbtame interviu „kaip sukurti labai nuobodų vaizdo žaidimą“.
Pvz., Aplinka galėtų imituoti „Chrome“ naršyklę ir užduotį AI agentui, įsigijusi porą kojinių „Amazon“. Agentas yra įvertintas pagal savo našumą ir, kai jam pavyks (šiuo atveju pirkti vertą kojinių porą, siunčiamas atlygio signalas).
Nors tokia užduotis skamba gana paprastai, yra daugybė vietų, kur AI agentas galėtų sutramdyti. Tai gali pasiklysti naršyti po tinklalapio išskleidžiamąjį meniu arba nusipirkti per daug kojinių. Ir kadangi kūrėjai negali tiksliai numatyti, kokį neteisingą pasukimą imsis agentas, pati aplinka turi būti pakankamai tvirta, kad būtų galima užfiksuoti netikėtą elgesį, ir vis tiek pateikti naudingų atsiliepimų. Dėl to statybų aplinka yra daug sudėtingesnė nei statinis duomenų rinkinys.
Kai kurios aplinkos yra gana tvirtos, leidžiančios AI agentams naudotis įrankiais, pasiekti internetą arba naudoti įvairias programinės įrangos programas, kad atliktų nurodytą užduotį. Kiti yra siauresni, skirti padėti agentui išmokti konkrečių užduočių įmonės programinės įrangos programose.
Nors RL aplinka šiuo metu yra karštas dalykas Silicio slėnyje, ši technika naudoja daug precedento. Vienas iš pirmųjų „Openai“ projektų dar 2016 m. Buvo „RL Gyms“ statyba, kurie buvo gana panašūs į šiuolaikinę aplinkos sampratą. Tais pačiais metais „Google Deepmind“ treniravo „Alphago“ – AI sistemą, kuri stalo žaidime galėtų įveikti pasaulio čempioną, „Go“ – naudodama RL techniką modeliuojamoje aplinkoje.
Išskirtinė šiandienos aplinka yra ta, kad tyrėjai bando sukurti kompiuteriu naudojančius AI agentus su dideliais transformatorių modeliais. Skirtingai nuo „Alphago“, kuri buvo specializuota AI sistema, dirbanti uždaroje aplinkoje, šiandienos AI agentai yra mokomi turėti bendresnes galimybes. Šiandien AI tyrėjai turi stipresnį atspirties tašką, tačiau taip pat yra sudėtingas tikslas, kai daugiau gali suklysti.
Perkrautas laukas
AI duomenų žymėjimo įmonės, tokios kaip „Scale AI“, „Surge“ ir „Mercor“, bando įvykdyti akimirką ir sukurti RL aplinką. Šios įmonės turi daugiau išteklių nei daugelis startuolių erdvėje, taip pat gilius ryšius su AI laboratorijomis.
„Surge“ generalinis direktorius Edwinas Chenas sako, kad „TechCrunch“ neseniai matė „reikšmingą RL aplinkos paklausos padidėjimą AI laboratorijoje. Pasak jo, jis teigė, kad pernai iš darbo su AI laboratorijomis, kurios, kaip pranešama, uždirbo 1,2 milijardo dolerių pajamų pernai iš darbo su AI laboratorijomis, tokiomis kaip „Openai“, „Google“, „Anthropic“ ir „Meta“ – jis neseniai sukūrė naują vidinę organizaciją, kuriai specialiai pavesta sukurti RL aplinką.
Netoli viršįtampio yra „Mercor“, startuoliai, kurių vertė siekia 10 milijardų dolerių, kuris taip pat dirbo su „Openai“, „Meta“ ir „Anthropic“. Remiantis „TechCrunch“ matyta rinkodaros medžiaga, „Mercor“ verčia investuotojus investuotojams į savo verslo statybą RL aplinkai, skirtas konkrečioms domenų užduotims, tokioms kaip kodavimas, sveikatos priežiūra ir įstatymai.
„Mercor“ generalinis direktorius Brendanas Foody interviu sakė „TechCrunch“, kad „nedaugelis supranta, kokia didelė galimybė aplink RL aplinką iš tikrųjų yra“.
„Scale AI“ dominavo duomenų žymėjimo erdvėje, tačiau prarado pagrindą nuo tada, kai „Meta“ investavo 14 milijardų dolerių ir pasamdė savo generalinį direktorių. Nuo to laiko „Google“ ir „Openai“ sumažino mastelio AI kaip klientą, o startuolis netgi susiduria su konkurencija dėl duomenų ženklinimo darbų meta viduje. Tačiau vis dėlto mastelis bando įvykdyti akimirką ir sukurti aplinką.
„Tai tik verslo pobūdis (AI mastelio), – sakė Chetan Rane,„ Scale AI “produkto vadovas agentams ir RL aplinkoje. „Mastelis įrodė savo sugebėjimą greitai prisitaikyti. Mes tai padarėme pirmosiomis autonominių transporto priemonių, mūsų pirmojo verslo padalinio, dienomis. Kai pasirodė„ ChatGpt “,„ Scale AI “pritaikytas prie to. Ir dabar mes dar kartą prisitaikome prie naujų pasienio erdvių, tokių kaip agentai ir aplinka.”
Kai kurie naujesni žaidėjai nuo pat pradžių sutelkia dėmesį tik į aplinką. Tarp jų yra „Mechanize Work“, startuolį, įkurtą maždaug prieš šešis mėnesius, turint drąsų tikslą „automatizuoti visus darbus“. Tačiau vienas iš įkūrėjų Matthew Barnett pasakoja „TechCrunch“, kad jo įmonė pradeda nuo RL aplinkos AI kodavimo agentams.
„Mechanize Work“ siekiama tiekti AI laboratorijas su nedideliu kiekiu patikimos RL aplinkos, sako Barnett, o ne didesnės duomenų firmos, sukuriančios platų paprastų RL aplinkos asortimentą. Iki šiol „Startup“ siūlo programinės įrangos inžinieriams 500 000 USD atlyginimus RL aplinkai – kur kas didesnė nei valandinis rangovas galėtų uždirbti dirbdami AI mastelio arba antplūdyje.
„Mechanize Work“ jau bendradarbiauja su „Anthropic“ RL aplinkoje. „TechCrunch“ pasakojo du šaltiniai, susipažinę su šiuo klausimu. Mechanizuoti darbą ir antropiką atsisakė komentuoti partnerystę.
Kiti startuoliai lažinasi, kad RL aplinka turės įtakos už AI laboratorijų ribų. „Prime Intelektas“ – startuolio, kurį palaiko AI tyrėjas Andrejas Karpathy, įkūrėjų fondas ir „Menlo Ventures“ – nukreipia mažesnius kūrėjus su savo RL aplinka.
Praėjusį mėnesį „Prime Intelektas“ pradėjo „RL Environments Hub“, kurio tikslas – būti „apkabinančiu veidą RL aplinkai“. Idėja yra suteikti atvirojo kodo kūrėjams prieigą prie tų pačių išteklių, kuriuos turi didelės AI laboratorijos, ir parduoti tiems kūrėjams prieigą prie skaičiavimo išteklių.
Pasak „Prime Intelekto tyrinėtojo Will Brown“, mokymai paprastai gali būti skaičiuojami brangiai nei ankstesni AI treniruočių metodai, kurie gali būti skaičiuojami brangesni nei ankstesni AI treniruočių metodai. Kartu su pradedančiaisiais RL aplinka kuria RL aplinką, yra dar viena galimybė GPU teikėjams, kurie gali valdyti procesą.
„RL aplinka bus per didelė, kad bet kuri įmonė dominuotų“, – interviu sakė Brownas. „Dalis to, ką mes darome, yra tik bandyti sukurti gerą atvirojo kodo infrastruktūrą aplink ją. Mūsų parduodama paslauga yra apskaičiuota, todėl patogu naudoti GPU, tačiau mes apie tai daugiau galvojame ilgą laiką.“
Ar tai bus mastelio?
Atviras klausimas aplink RL aplinką yra tas, ar technika bus didesnė kaip ankstesni AI mokymo metodai.
Stiprinimo mokymasis per pastaruosius metus sukėlė keletą didžiausių AI šuolių, įskaitant tokius modelius kaip „Openai's O1“ ir „Anthropic“ „Claude Opus 4“. Tai ypač svarbūs proveržiai, nes anksčiau AI modeliams anksčiau naudojami metodai rodo mažėjančią grąžą.
Aplinka yra didesnio „AI Labs“ lažybų dėl RL dalis, kuri, daugelio manymu, ir toliau skatins pažangą, nes jie pridės daugiau duomenų ir skaičiavimo išteklių. Kai kurie „Openai“ tyrėjai, esantys O1, anksčiau sakė „TechCrunch“, kad įmonė iš pradžių investavo į AI samprotavimo modelius, kurie buvo sukurti investuojant į RL ir testų ir laiko komputaciją, nes, jų manymu, tai gražiai padidės.
Geriausias būdas maskuoti RL išlieka neaiškus, tačiau aplinka atrodo kaip perspektyvus varžovas. Užuot tiesiog apdovanoję pokalbių programas už teksto atsakymus, jie leido agentams veikti modeliuodami su įrankiais ir kompiuteriais. Tai daug daugiau išteklių reikalaujanti, tačiau galbūt labiau naudinga.
Kai kurie skeptiškai vertina, kad visos šios RL aplinkos išsiaiškins. Ross Taylor, buvęs AI tyrimų vadovas su „Meta“, kuris kartu sukūrė bendrą samprotavimą, sako „TechCrunch“, kad RL aplinka yra linkusi į atlygio įsilaužimą. Tai procesas, kurio metu AI modeliai apgaudinėja norėdami gauti atlygį, iš tikrųjų neatlikdamas užduoties.
„Manau, kad žmonės nuvertina, kaip sunku maskuoti aplinką“, – sakė Taylor. „Net geriausi viešai prieinami (RL aplinka) paprastai neveikia be rimtų modifikacijų“.
„Openai“ inžinerijos vadovas savo API verslui Sherwin Wu neseniai paskelbtame podcast'e teigė, kad jis yra „trumpas“ RL aplinkos startuoliuose. Wu pažymėjo, kad tai yra labai konkurencinga erdvė, bet ir tai, kad AI tyrimai vystosi taip greitai, kad sunku gerai tarnauti AI laboratorijoms.
„Karppathy“, „Prime Intelekto“ investuotojas, kuris RL aplinką pavadino potencialiu proveržiu, taip pat išreiškė atsargumą RL erdvei plačiau. Įraše apie X jis iškėlė susirūpinimą dėl to, kiek AI pažangą galima išspausti iš RL.
„Aš esu linkęs į aplinką ir agentinę sąveiką, tačiau aš būnu būtent dėl pastiprinimo mokymosi“, – sakė Karpathy.



