
„Openai“ sukūrė naują vaizdo generavimo sistemą, tiesiogiai integruotą su GPT-4o. Ši sistema leidžia AI pasiekti savo žinių bazę ir pokalbio kontekstą kuriant vaizdus.
Sakoma, kad ši integracija įgalina kontekstines ir tikslias vaizdines išvestis.
„Openai“ pranešime rašoma:
„GPT -4o vaizdų generavimas pasižymi tiksliai pateikiant tekstą, tiksliai sekdami raginimus ir panaudojant 4o prigimtinę žinių bazę ir pokalbių kontekstą, įskaitant keičiant įkeltus vaizdus arba naudojant juos kaip vaizdinį įkvėpimą. Šios galimybės palengvina tiksliau sukurtą vaizdą, padedant efektyviau bendrauti per vaizdinius vaizdus ir tobulinant vaizdą į praktinę priemonę praktinėje priemonėje.
Štai visa kita, ką reikia žinoti.
Techninės galimybės
„Openai“ pabrėžia šias naujos vaizdo generavimo sistemos galimybes:
- Tai tiksliai pateikia tekstą vaizduose.
- Tai leidžia vartotojams patobulinti vaizdus per pokalbį, išlaikant nuoseklų stilių.
- Tai palaiko sudėtingus raginimus, turinčius iki 20 skirtingų objektų.
- Tai gali generuoti vaizdus, remiantis įkeltomis nuorodomis.
- Tai sukuria vaizdus naudojant informaciją iš „GPT-4o“ mokymo duomenų.
„Openai“ savo pranešime teigia:
„Kadangi vaizdų generavimas dabar yra gimtoji GPT -4o, galite patobulinti vaizdus per natūralų pokalbį.„ GPT -4o “gali remtis vaizdais ir tekstu pokalbių kontekste, užtikrindami nuoseklumą visame pasaulyje. Pavyzdžiui, jei kuriate vaizdo žaidimo personažą, veikėjo išvaizda išlieka nuosekli keliose iteracijose, kai patobulinate ir eksperimentuojate.“
Pavyzdžiai
Parodyti charakterio nuoseklumasštai pavyzdys, kuriame parodyta katė, o paskui ta pati katė su skrybėle ir monokle.

Čia yra praktiškesnis pavyzdys rinkodaros specialistams, demonstruojančiam teksto generavimas: Visas restorano meniu, sugeneruotas su išsamia raginimu.

„Openai“ pranešime yra dar dešimtys pavyzdžių, iš kurių daugelyje yra keletas raginimų ir tolesnių veiksmų.
Apribojimai
Openai prisipažįsta:
„Mūsų modelis nėra tobulas. Šiuo metu mes žinome apie kelis apribojimus, kuriuos stengsimės spręsti atlikdami modelio patobulinimus po pirminio paleidimo.”
Bendrovė atkreipia dėmesį į šiuos naujos vaizdo generavimo sistemos apribojimus:
- Apkarpymas: „GPT-4o“ kartais paslėpia ilgus vaizdus, pavyzdžiui, plakatus, per daug artimai apačioje.
- Haliucinacijos: Šis modelis gali sukurti klaidingą informaciją, ypač su neaiškiais raginimais.
- Aukštos maišymo problemos: Ji stengiasi tiksliai pavaizduoti daugiau nei 10–20 sąvokų vienu metu, pavyzdžiui, visą periodinę lentelę.
- Daugiakalbis tekstas: Modelyje gali kilti problemų, rodančių ne lotynų simbolius, todėl atsiranda klaidų.
- Redagavimas: Prašymai redaguoti konkrečias vaizdo dalis gali pakeisti kitas sritis arba sukurti naujas klaidas. Tai taip pat stengiasi, kad veidai būtų pastovūs įkeltuose vaizduose.
- Informacijos tankis: Modeliui sunku parodyti išsamią informaciją apie mažus dydžius.
Paieškos pasekmės
Šis atnaujinimas keičia AI vaizdo generavimą nuo daugiausia dekoratyvinių naudojimo būdų iki praktinių funkcijų versle ir komunikacijoje.
Svetainėse gali būti naudojami AI sukurti vaizdai, tačiau su svarbiais aspektais.
„Google“ gairės nedraudžia AI sukurtų vaizdų, o ne daugiausia dėmesio skiria tai, ar turinys suteikia vertę, neatsižvelgiant į tai, kaip jis gaminamas.
Rekomenduojama sekti šią geriausią praktiką:
- Naudojant C2PA metaduomenis (kuris GPT-4o prideda automatiškai), kad išlaikytumėte skaidrumą
- Pridedant tinkamą ALT tekstą prieinamumui ir indeksavimui
- Vaizdų užtikrinimas tarnauja vartotojui, o ne tik užpildyti erdvę
- Sukurti unikalius vaizdus, o ne bendrus AI šablonus
„Google“ paieškos advokatas Johnas Muelleris išreiškė neigiamą nuomonę apie AI sukurtus vaizdus. Nors jo asmeninės nuostatos neturi įtakos „Google“ algoritmams, jie gali nurodyti, kaip kiti jaučiasi dėl AI vaizdų.

Atminkite, kad „Google“ įgyvendina priemones, skirtas AI sukurtų vaizdų etiketėms pažymėti paieškos rezultatuose.
Prieinamumas
Dabar šią funkciją galima „pabendrauti“ vartotojams, turintiems „Plus“, „Pro“, „Team“ ar „Free“ planus. Greitai bus prieinama prieiga prie įmonės ir EDU vartotojų.
Kūrėjai gali tikėtis prieigos API artimiausiomis savaitėmis. Dėl didesnių apdorojimo poreikių vaizdo generavimas vidutiniškai trunka maždaug vieną minutę.
Pateiktas vaizdas: Patrickassale/Shutterstock