„Eleutherai“ išleidžia didžiulį Licencijuoto ir atviro domeno teksto AI mokymo duomenų rinkinį

„Eleutherai“, AI tyrimų organizacija, išleido tai, kas, jos teigimu, yra viena didžiausių licencijuoto ir atviro domeno teksto kolekcijai mokant AI modelius.

Duomenų rinkinys, vadinamas „Common Pile V0.1“, užtruko maždaug dvejus metus, kad baigtų bendradarbiavimą su AI startuoliais baseine, apkabinančiu veidą ir kitus, kartu su keliomis akademinėmis institucijomis. Sveriant 8 terabaitų dydžiu, bendras „Pile V0.1“ buvo naudojamas treniruotis dviem naujiems AI modeliams iš „Eleutherai“, „Comma V0.1-1T“ ir „Comma V0.1-2T“, kuriuos Eleutherai teigia, kad veikia modelius, sukurtus naudojant nelikacinius, autorių teises duomenis.

PG kompanijos, įskaitant „Openai“, yra įtrauktos į ieškinius dėl savo AI mokymo praktikos, kuri remiasi žiniatinklio, įskaitant autorių teisių saugomą medžiagą, tokią kaip knygos, ir tyrimų žurnalai, kuriant modelio mokymo duomenų rinkinius. Nors kai kurios PG įmonės turi licencijavimo priemones su tam tikrais turinio tiekėjais, dauguma teigia, kad JAV teisinė sąžiningo naudojimo doktrina jas apsaugo nuo atsakomybės tais atvejais, kai jie mokė autorių teisių saugomą darbą be leidimo.

Eleutherai teigia, kad šie ieškiniai „drastiškai sumažino“ AI kompanijų skaidrumą, kuris, pasak organizacijos, pakenkė platesnei AI tyrimų sričiai, todėl buvo sunkiau suprasti, kaip modeliai veikia ir kokie gali būti jų trūkumai.

„(Autorių teisės) ieškiniai reikšmingai nepakeitė duomenų tiekimo praktikos (modelio) mokymuose, tačiau jie drastiškai sumažino skaidrumo įmonių bendroves“, – ankstyvą penktadienį „Eleutherai“ vykdomasis direktorius Stella Biderman rašė Stella Biderman. „Kai kurių kompanijų tyrėjai, apie kuriuos mes kalbėjome, taip pat konkrečiai cituoja ieškinius kaip priežastį, kodėl jie negalėjo atlikti tyrimų, kuriuos jie atlieka labai į duomenis orientuotose srityse.“

Bendras „Pile V0.1“, kurį galima atsisiųsti iš „Hugging Face“ AI Dev platformos ir „GitHub“, buvo sukurtas konsultuojantis su teisės ekspertais, ir jame remiasi šaltiniai, įskaitant 300 000 viešųjų domenų knygų, suskaitmenintų Kongreso bibliotekoje ir interneto archyve. „Eleutherai“ taip pat panaudojo „Whisper“, „Openai“ atvirojo kodo kalbos ir teksto modelį, norėdamas perrašyti garso turinį.

„Eleutherai“ teigia, kad „Comma V0.1-1T“ ir „Comma V0.1-2T“ yra įrodymas, kad bendras „Pile V0.1“ buvo pakankamai kruopščiai kuruojamas, kad kūrėjai galėtų kurti modelius, konkurencingus su patentuotomis alternatyvomis. Anot Eleutherai, modeliai, kurie abu yra 7 milijardai parametrų, ir buvo išmokyti tik nedidelę dalį bendrojo „Pile V0.1“, konkuruojančių modelių, tokių kaip „Meta“ pirmasis LLAMA AI modelis, skirtas kodavimui, vaizdų supratimui ir matematikai.

Parametrai, kartais vadinami svoriais, yra vidiniai AI modelio komponentai, kurie vadovauja jo elgesiui ir atsakymams.

„Apskritai manome, kad bendra idėja, kad nelicencijuotas tekstas skatina našumą, yra nepagrįsta“, – savo įraše rašė Bidermanas. „Augant prieinamų atvirai licencijuotų ir viešosios srities duomenims, galime tikėtis, kad pagerės atvirai licencijuoto turinio modelių kokybė.“

Panašu, kad bendras „Pile v0.1“ iš dalies yra pastangos teisingai Eleutherai istorinėms klaidoms. Prieš daugelį metų bendrovė išleido „The Pole“ – atvirą mokymo teksto kolekciją, kurioje yra autorių teisių saugoma medžiaga. PG įmonės sukėlė ugnį ir teisinį spaudimą, kad galėtų naudoti krūvą modeliams treniruoti.

„Eleutherai“ įsipareigoja kurti atvirų duomenų rinkinius, bendradarbiaudamas su savo tyrimų ir infrastruktūros partneriais.

Source link

Susijusios istorijos

„Truecaller“ susirėmė su Indijos telekomunikacijų reguliavimo institucija dėl antispam taisyklių

„SpaceXAI“ išleidžia „Grok 4.5“, kurį Elonas apibūdina kaip „Opus klasės modelį“.

Karštas prancūzų startuolis ZML išleidžia nemokamą produktą, kad pagreitintų išvadas apie daugybę AI lustų

Galbūt praleidote

„YouTube“ lenkia „Spotify“ kaip geriausia JK podcast'o paslauga

X praneš DM naudotojams apie bendruomenės pastabų atnaujinimus

„Truecaller“ susirėmė su Indijos telekomunikacijų reguliavimo institucija dėl antispam taisyklių

Kaip SEO komandos žino, kurios AI paieškos strategijos pasiteisino