Hva er Dalle-mini og hvordan fungerer den?

Hva Er Dalle Mini Og Hvordan Fungerer Den



Dalle-mini er en dyplæringsmodell som kan generere bilder av høy kvalitet fra brukerinndata. Den er basert på DALL-E-modellen, som OpenAI lanserte i januar 2021. DALL-E står for “ Utviklet språk og latent uttrykk ” er et transformatorbasert nevralt nettverk som kan kode tekst og bilder til et felles latent rom, og deretter dekode dem tilbake til begge modaliteter.

Denne artikkelen vil forklare følgende innhold:







Hva er Dalle-mini?

Gi henne-mini er en mindre og raskere versjon av DALL-E, som ble laget av EleutherAI, et forskningskollektiv med åpen kildekode. Dalle-mini bruker bare 6 milliarder parametere, sammenlignet med DALL-Es 12 milliarder, og den kan kjøre på en enkelt GPU. Dalle-mini bruker også en annen tokenizer og vokabular for tekstinndata, noe som gjør den mer kompatibel med forskjellige språk og domener:




Merk : Brukere kan generere gratis bilder ved å bruke Dalle-mini ved å følge link .



Hvordan fungerer Dalle-mini?

Hovedideen bak Dalle-mini er kraften til transformatorer, som er nevrale nettverk. De kan lære langsiktige avhengigheter og komplekse mønstre i sekvensielle data, for eksempel tekst eller bilder.





Transformatorer består av to hoveddeler: en koder og en dekoder. Den første delen tar et input (en tekstbeskrivelse) og endrer det til skjulte vektorer. Etter det tar dekoderen den og genererer en utgang (et bilde) som er relevant for inngangen.

Hva er forskjellen mellom Dalle-mini og DALL-E?

Dalle-mini og DALL-E bruker en delt koder-dekoder-arkitektur for både tekst og bilder. De kan kode og dekode begge modaliteter ved å bruke samme nettverk. Dette lar dem lære et felles latent rom som fanger det semantiske forholdet mellom tekst og bilder. Deretter kan de utføre cross-modal generering, for eksempel å lage bilder fra tekst eller omvendt.



Hvordan fungerer Dalle-mini?

For å generere et bilde fra en tekstbeskrivelse, tokeniserer Dalle-mini først teksten ved hjelp av en byte-pair encoding (BPE) algoritme, som deler opp teksten i underordsenheter basert på deres frekvens og samtidig forekomst:


La oss gå til detaljert intern arbeid i Dalle-mini:

Internt arbeid i Dalle-mini

La oss anta at ordet ' spiller ' kan deles inn i ' pla ' og ' ying '. Tokenene blir deretter kartlagt til numeriske ID-er ved å bruke et vokabular på 8192 tokens. ID-ene mates inn i koderen, og produserer en latent representasjon av størrelsen 256 x 64:


Dekoderen tar deretter den latente representasjonen og genererer et bilde med størrelsen 256 x 256 piksler. Dekoderen bruker en autoregressiv prosess, som betyr at den genererer hver piksel en etter en, betinget av de forrige piksler og den latente representasjonen.

Hvordan generere bilde fra tekstbeskrivelse ved å bruke Dalle-mini?

For å generere en tekstbeskrivelse fra et bilde ved hjelp av Dalle-mini, skriv inn teksten i ledetekstvinduet. Skriv for eksempel ' Et maleri av tilfeldige blomster ' i ledeteksten og trykk ' Løpe ”-knapp:


Utgangen viser at Dalle-mini har generert relevante bilder i henhold til inputteksten.

Konklusjon

Dalle-mini er en bemerkelsesverdig modell som demonstrerer potensialet til transformatorer for tverrmodal generering. De kan lage realistiske og mangfoldige bilder fra naturspråklige beskrivelser, samt sammenhengende og relevante tekster fra bilder. De kan også håndtere komplekse komposisjoner, for eksempel å kombinere flere objekter eller attributter i ett bilde eller en tekst. Denne artikkelen har forklart Dalle-mini og hvordan den fungerer i detalj.