Ce este Dalle-mini și cum funcționează?

Dalle-mini este un model de învățare profundă care poate genera imagini de înaltă calitate din textul introdus de utilizator. Se bazează pe modelul DALL-E, pe care OpenAI l-a lansat în ianuarie 2021. DALL-E înseamnă „ Limbajul dezlegat și expresia latentă ” este o rețea neuronală bazată pe transformator care poate codifica text și imagini într-un spațiu latent comun și apoi le poate decoda înapoi în oricare dintre modalități.

Acest articol va explica următorul conținut:

Ce este Dalle-mini?

Dă-i-mini este o versiune mai mică și mai rapidă a DALL-E, care a fost creată de EleutherAI, un colectiv de cercetare open-source. Dalle-mini folosește doar 6 miliarde de parametri, comparativ cu cei 12 miliarde ai DALL-E, și poate rula pe un singur GPU. Dalle-mini utilizează, de asemenea, un tokenizer și un vocabular diferit pentru introducerea textului, ceea ce îl face mai compatibil cu diferite limbi și domenii:

Notă : Utilizatorii pot genera imagini gratuite folosind Dalle-mini urmând legătură .

Care este funcționarea lui Dalle-mini?

Ideea principală din spatele lui Dalle-mini este puterea transformatoarelor, care sunt rețele neuronale. Ei pot învăța dependențe pe termen lung și modele complexe în date secvențiale, cum ar fi text sau imagini.

Transformatoarele constau din două părți majore: un codificator și un decodor. Prima parte preia o intrare (o descriere text) și o transformă în vectori ascunși. După aceea, decodorul îl ia și generează o ieșire (o imagine) care este relevantă pentru intrare.

Care este diferența dintre Dalle-mini și DALL-E?

Dalle-mini și DALL-E folosesc o arhitectură de codificator-decodor partajat atât pentru text, cât și pentru imagini. Ei pot codifica și decoda ambele modalități folosind aceeași rețea. Acest lucru le permite să învețe un spațiu latent comun care surprinde relația semantică dintre text și imagini. După aceea, le permite să efectueze generarea intermodală, cum ar fi crearea de imagini din text sau invers.

Cum funcționează Dalle-mini?

Pentru a genera o imagine dintr-o descriere a textului, Dalle-mini mai întâi tokenizează textul utilizând un algoritm de codificare perechi de octeți (BPE), care împarte textul în unități de subcuvinte pe baza frecvenței și apariției lor:

Să trecem la detalii despre funcționarea internă a lui Dalle-mini:

Funcționarea internă a lui Dalle-mini

Să presupunem că cuvântul „ joc ” ar putea fi împărțit în ” pla ' și ' ying ”. Jetoanele sunt apoi mapate la ID-uri numerice folosind un vocabular de 8192 de jetoane. ID-urile sunt introduse în codificator, producând o reprezentare latentă de dimensiunea 256 x 64:

Decodorul preia apoi reprezentarea latentă și generează o imagine cu dimensiunea de 256 x 256 pixeli. Decodorul folosește un proces autoregresiv, ceea ce înseamnă că generează fiecare pixel unul câte unul, condiționat de pixelii anteriori și de reprezentarea latentă.

Cum se generează o imagine din descrierea textului utilizând Dalle-mini?

Pentru a genera o descriere text dintr-o imagine folosind Dalle-mini, introduceți textul în fereastra de prompt. De exemplu, tastați „ Un tablou cu flori aleatorii ” în prompt și apăsați pe „ Alerga butonul ”:

Rezultatul arată că Dalle-mini a generat imagini relevante conform textului introdus.

Concluzie

Dalle-mini este un model remarcabil care demonstrează potențialul transformatoarelor pentru generarea intermodală. Ei pot crea imagini realiste și diverse din descrieri în limbaj natural, precum și texte coerente și relevante din imagini. De asemenea, pot gestiona compoziții complexe, cum ar fi combinarea mai multor obiecte sau atribute într-o singură imagine sau text. Acest articol a explicat în detaliu Dalle-mini și funcționarea acestuia.

Ce este Dalle-mini și cum funcționează?