
Atrodo, kad tai savaitė mažiems AI modeliams.
Ketvirtadienį, ne pelno siekiantis AI tyrimų institutas AI2, išleido „OLMO 2 1B“-1 milijardo parametrų modelį, kuris, AI2 teigimu, įveikia panašaus dydžio modelius iš „Google“, „Meta“ ir „Alibaba“ keliuose etalonuose. Parametrai, kartais vadinami svoriais, yra vidiniai modelio komponentai, kurie vadovauja jo elgesiui.
„OLMO 2 1B“ galima įsigyti pagal leistiną „Apache 2.0“ licenciją „AI Dev“ platformoje, apkabinančioje veidą. Skirtingai nuo daugelio modelių, „Olmo 2 1B“ galima atkartoti nuo nulio; AI2 pateikė kodus ir duomenų rinkinius (OLMO-MIX-1124, Dolmino-MIX-1124), naudojamas jį sukurti.
Maži modeliai gali būti ne tokie pajėgūs kaip jų „Behemoth“ kolegos, tačiau, svarbiausia, jiems nereikia paleisti raumeningos techninės įrangos. Tai daro juos daug prieinamesnius kūrėjams ir mėgėjams, kovojantiems su žemesnės klasės ir vartotojų mašinų apribojimais.
Per pastarąsias kelias dienas buvo daug mažų modelių paleidimų, pradedant „Microsoft“ „Phi 4“ samprotavimų šeima ir baigiant Qwen 2,5 „Omni 3B“. Daugelis jų – ir „OLMO 2 1B“ – gali lengvai paleisti moderniame nešiojamajame kompiuteryje ar net mobiliajame įrenginyje.
AI2 sako, kad OLMO 2 1B buvo išmokytas 4 trilijonų žetonų duomenų rinkinyje iš viešai prieinamų, AI sukurtų ir rankiniu būdu sukurtų šaltinių. Žetonai yra neapdoroti duomenų modelių, kuriuos galima nurijuoti ir generuoti – 1 milijonas žetonų yra lygus maždaug 750 000 žodžių.
Esant etalonui, matuojant aritmetinius pagrindus, GSM8K, OLMO 2 1B – geriau nei „Google's Gemma 3 1B“, „Meta's Lama 3.2 1B“ ir „Alibaba's Qwen 2,5 1,5b“. „OLMO 2 1B“ taip pat užtemdo tų trijų modelių „SantulfulQA“ veikimą – testą faktiniam tikslumui įvertinti.
„TechCrunch“ renginys
Berkeley, CA
|
Birželio 5 d
Užsisakykite dabar
AI2 perspėja, kad OLMO 2 1B vis dėlto kelia riziką. Kaip ir visi AI modeliai, jis gali sukurti „probleminius rezultatus“, įskaitant kenksmingą ir „jautrų“ turinį, sako organizacija, taip pat faktiškai netikslūs teiginiai. Dėl šių priežasčių AI2 rekomenduoja nediegti OLMO 2 1B komercinėmis aplinkybėmis.