LLM „neegzistuotų“ be „Reddit“ duomenų

„Reddit“ generalinis direktorius Steve'as Huffmanas teigė, kad be „Reddit“ turinio didelių kalbų modelių „neegzistuotų, kaip mes juos žinome“. Jis pavadino platformos naudotojų sukurtus duomenis „šiuolaikine nafta“, skirta AI.

Huffmanas išsakė komentarus per interviu „Fast Company“ inovatyviausių įmonių aukščiausiojo lygio susitikime.

Turinys:

Ką Huffmanas pasakė apie „Reddit“ vertę AI

Huffmanas apibūdino Reddit duomenų poziciją AI ekosistemoje.

Huffmanas pasakė:

„Mūsų žinomų LLM nebūtų be Reddit. Reddit yra vienas didžiausių LLM mokymo duomenų šaltinių, o Reddit tebėra vienas iš pagrindinių mokymo duomenų šaltinių, be to, mes taip pat esame daugiausiai cituojamų, dažniausiai cituojamų platformų visuose modeliuose.

Citavimo teiginį jis priskyrė „Profound“, įmonei, sekančiai AI citavimo duomenis.

Huffmanas paaiškino, kodėl AI įmonės priklauso nuo turinio.

„Nėra dirbtinio intelekto be tikrojo intelekto. Galų gale, šie modeliai yra gana paprasti. Jie visiškai masiškai atgauna tai, ką jie suvartojo kitur, o didžioji šio vartojimo dalis iš tikrųjų yra tik žmonių pokalbis Reddit, nes tai natūralu ir apima iš esmės visas įmanomas temas.”

Vieniems pasiūlymai, kitiems – ieškiniai

„Reddit“ paskelbė apie duomenų licencijavimo sutartis su „Google“ ir „OpenAI“ 2024 m. Huffmanas jas nurodė kaip du „Reddit“ AI duomenų sandorius ir neskelbė jokių papildomų susitarimų.

„Nuo tada, kai sudarėme du pirminius sandorius su Google ir OpenAI, tai buvo daugiau nei prieš dvejus metus, todėl mes daug išmokome. Jie daug išmoko. Visas pasaulis daug išmoko. Konkrečiai, kokie vertingi yra Reddit duomenys ir kokie jie naudingi. Taigi, manau, mes ten elgiamės labai apgalvotai ir selektyviai. Bet taip, mes esame atviri ir atviri verslui.”

Įmonėms, kurios nesutiko su licencijavimo sąlygomis, „Reddit“ ėmėsi teisinių veiksmų. Bendrovė padavė Anthropic į teismą Kalifornijos aukštesniajame teisme, kaltindama neteisėtą Reddit turinio naudojimą ir Reddit sąlygų pažeidimus. „Reddit“ pateikė federalinį ieškinį „Perplexity“ pietiniame Niujorko rajone kartu su trimis duomenų rinkimo įmonėmis, kaltindama DMCA apsaugos nuo apėjimo pažeidimus ir susijusius reikalavimus.

Huffmanas nubrėžė liniją tarp dviejų grupių.

„Tokios įmonės kaip „Google“ ir „OpenAI“, kuriose turėjome gerus santykius, iš tikrųjų galime sudaryti sandorį ir uždėti tam tikrus apsauginius turėklus naudoti ir pasiekti savo duomenis savo vartotojų vardu, bet tada bendradarbiauti kurdami produktus naujos kartos internetui.

Jis pridūrė, kad „ne kiekviena įmonė nori būti bendradarbiavimo partneriu, todėl, deja, turime eiti kitu keliu – ieškiniais“.

Huffmanas pasakė auditorijai, kad „Reddit“ pozicija dėl komercinio naudojimo yra paprasta. „Komerciniam mūsų duomenų naudojimui reikalingos komercinės sąlygos“, – sakė jis. „Reddit“ pradėjo apmokestinti už komercinę API prieigą 2023 m., o tai buvo žingsnis prieš dabartinius licencijavimo sandorius.

Huffmanas sakė, kad „Reddit“ mokslininkams ir universitetams vis dar suteikia nemokamą prieigą prie duomenų ir stengiasi išlikti lankstus nekomerciniam naudojimui.

Kas pakeitė „Reddit“ atvirumą

Huffmano teigimu, Reddit noras laisvai dalytis duomenimis pasikeitė, kai dirbtinio intelekto pramonė atsitraukė nuo atvirų tyrimų. Kaip SEJ anksčiau pranešė, „Reddit“ apribojo daugelio paieškos sistemų tikrintuvų prieigą, o „Google“ liko išimtimi.

„Istoriškai „Reddit“ buvo tarsi gimę iš atviro interneto, o „Reddit“ buvo atvira ir labai leido prieiti prie savo duomenų. Ir nuoširdžiai manau, kad šiandien būtume kitokioje padėtyje, jei dirbtinio intelekto įmonės iš esmės vis dar būtų atviros, atvirojo kodo ir atliktų atvirus tyrimus.

Huffmanas teigė, kad problema buvo ta, kad „Reddit“ nebegalėjo sekti, kaip naudojami jo duomenys. „Žmonės naudojasi mūsų duomenimis, o mes nežinome, kam jie buvo naudojami“, – sakė jis auditorijai.

Be komercinių terminų, Huffmanas teigė, kad „Reddit“ nori neleisti, kad jos duomenys būtų naudojami naudotojams identifikuoti, nukreipti juos į skelbimus arba pakeisti platformą arba ją išjungti.

Reddit's Own AI pastangos

Huffmanas pripažino tai, ką pavadino „paradoksu“. „Reddit“ turinys palaiko išorines AI sistemas, tačiau bendrovė taip pat naudoja AI visoje savo platformoje.

Labiausiai matomas produktas yra „Reddit Answers“, LLM pagrįsta paieškos funkcija. Jis skaito įrašus ir komentarus, tada suskirsto juos į atsakymus, sudarytus iš pažodinių vartotojų citatų. Huffmanas pažymėjo, kad jis skirtas klausimams be galutinių atsakymų.

„Reddit Answers daro keletą dalykų, kurie yra unikalūs Reddit. Pirma, jis iš esmės atsako tik pažodinėmis citatomis iš tikrų žmonių. O antras dalykas, kurį ji daro, yra tai, kad bando pateikti kelias perspektyvas, nes jei esate Reddit, jums reikia žmogaus perspektyvos.

Užkulisiuose „Reddit“ naudoja AI turiniui moderuoti ir klasifikuoti. LLM gali įvertinti, ar komentaras netaikomas patyčioms, kurias Huffmanas anksčiau apibūdino kaip sudėtingą dėl subjektyvumo.

Huffmanas AI moderavimą pristatė kaip būdą sumažinti blogiausio turinio poveikį, o ne kaip „Reddit“ bendruomenės moderavimo modelio pakaitalą.

„Blogiausias darbas internete buvo žiūrėti į blogiausią turinį internete ir nuspręsti, ar jis gali būti internete, ar ne“, – sakė Huffmanas. „Tas darbas tiesiog išnyksta“.

AI rašytų pranešimų pilkoji sritis

Huffmanas taip pat sprendė iššūkį, susijusį su vartotojų rašymo turiniu su AI įrankiais ir įklijavimo į Reddit problemas. Jis pabrėžė, kad tai skiriasi nuo automatizuotos robotų veiklos.

„Labiausiai erzinantis dalykas, kurį matau ne tik „Reddit”, bet ir visame internete, yra kažkas, kas parašė savo įrašą ar komentarą naudodamas ChatGPT, o tada įklijavo jį į Reddit. Pavyzdžiui, ar tai botas? Tikrai jaučiuosi kaip robotas, bet už idėjos slypi žmogus.

Huffmanas šią problemą laikė tyčia. „Mums labai svarbu, kad už idėjos, už turinio, už raginimo būtų žmogus“, – sakė Huffmanas. Tačiau jis taip pat pažymėjo, kad „rašymas blogas“, kai vartotojai, kurdami savo įrašus, pasikliauja dirbtiniu intelektu.

Užuot sukūręs politiką šiai problemai spręsti, Huffmanas nurodė, kad „Reddit“ leis savo bendruomenei spręsti problemą. Vartotojai jau neigiamai vertina dirbtinio intelekto parašytą turinį ir komentuoja tai komentaruose. Huffmanas sakė, kad „Reddit“ suteiks vartotojams daugiau galimybių, o subredditams – tiesiog visiškai atmesti tokio pobūdžio turinį.

Jis palygino platesnį klausimą su skaičiuotuvais matematikos klasėje. „Šiais laikais vaikai tik mokosi rašyti naudojant AI. Ką mes su tuo darysime? pasakė jis. „Manau, kad mes turime mokytis kartu su visais kitais.

Kodėl tai svarbu

Huffmano komentarai sustiprina „Reddit“ teiginį, kad jos vartotojų diskusijos yra pagrindinė AI sistemų indėlis.

AI parašyto turinio problema, kurią apibūdino Huffmanas, yra viena iš SEJ, kuriai taikomas platesnis „YouTube“ dirbtinio intelekto tyrimas. „Reddit“ sprendimas leisti bendruomenės balsavimui tvarkyti AI generuojamus įrašus, o ne kurti aptikimo įrankius, yra kitoks kelias nei platformose, kuriose įdiegtas automatinis ženklinimas.

Žvilgsnis į priekį

Huffmanas sakė „Fast Company“, kad „Reddit“ „rinkoje nuolat kalbasi su žmonėmis“ apie naujus duomenų sandorius, nors jis neužsiminė apie trečiąjį susitarimą.

„Reddit“ ieškiniai prieš Anthropic ir Perplexity tęsiasi. Antropinė byla kovo mėnesį buvo federalinio teismo kardomosios priemonės posėdyje.

Source link

Susijusios istorijos

Matavimo sistemos kūrimas prieš paliečiant GA4

Teismas atmeta „Google“ DMCA pretenzijas prieš „SerpApi“.

„Google“ AI paieškos duomenys auga, tačiau spragų išlieka

Galbūt praleidote

Matavimo sistemos kūrimas prieš paliečiant GA4

Neigiamos nuotaikos kelia grėsmę dirbtinio intelekto akinių stūmimui

„WhatsApp“ prideda „Apple CarPlay“ ir „Android Auto“ atnaujinimus, „iPad“ prisiregistravimus ir dar daugiau

Teismas atmeta „Google“ DMCA pretenzijas prieš „SerpApi“.