Hvordan bruke rørledninger på et datasett i transformatorer?

Hvordan Bruke Rorledninger Pa Et Datasett I Transformatorer



Funksjonen pipeline() er en integrert del av Transformer-biblioteket. Det krever flere innganger der vi kan definere en slutningsoppgave, modeller, tokeniseringsmekanisme osv. En pipeline()-funksjon brukes hovedsakelig til å utføre NLP-oppgaver på en eller flere tekster. Den utfører forbehandling av input og etterbehandling basert på modellen for å generere menneskelesbare utdata og nøyaktig prediksjon med maksimal nøyaktighet.

Denne artikkelen dekker følgende aspekter:







Hva er Hugging Face Dataset Library?

Et Hugging Face datasettbibliotek er et API som inneholder flere offentlige datasett og gir en enkel måte å laste dem ned på. Dette biblioteket kan importeres og installeres i applikasjonen ved å bruke ' pip ' kommando. For en praktisk demonstrasjon for å laste ned og installere datasett fra Hugging Face-biblioteket, besøk denne Google Colab-lenke. Du kan laste ned flere datasett fra Hugging Face Dataset Hub.



Lær mer om funksjonen til pipeline()-funksjonen ved å referere til denne artikkelen ' Hvordan bruke Pipeline()-funksjonen i transformatorer? '.



Hvordan bruke rørledninger på et datasett i Hugging Face?

Hugging Face gir flere forskjellige offentlige datasett som enkelt kan installeres ved å bruke én-linjes kode. I denne artikkelen vil vi se en praktisk demonstrasjon av bruk av rørledninger på disse datasettene. Det er to måter som rørledninger kan implementeres på datasettet.





Metode 1: Bruke iterasjonsmetoden

Funksjonen pipeline() kan også itereres over et datasett og en modell. For dette formålet, følg trinnene nedenfor:

Trinn 1: Installer Transformer Library

For å installere Transformer-biblioteket, oppgi følgende kommando:



!pip installer transformatorer

Trinn 2: Importer rørledninger

Vi kan importere rørledningen fra Transformer-biblioteket. For dette formålet, oppgi følgende kommando:

fra transformatorer import rørledning

Trinn 3: Implementer Pipeline

Her er pipeline()-funksjonen implementert på modellen ' gpt2 '. Du kan laste ned modeller fra Hugging Face Model Hub:

def imp_pipeline():
for x i området(1000):
yield f'Implementeringsdatasett{x}'


gener_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
for utdata i gener_pipeline(imp_pipeline()):
gen_char += len(utdata[0]['generert_tekst'])

I denne koden er ' generere_pipeline ' er en variabel som inneholder pipeline()-funksjonen med modellen ' gpt2 '. Når det kalles med ' imp_pipeline() ”-funksjonen, gjenkjenner den automatisk dataene som økes med området spesifisert til 1000:

Dette vil ta litt tid å trene. Linken til Google Co er også gitt.

Metode 2: Bruke datasettbibliotek

I denne metoden vil vi demonstrere implementering av rørledningen ved å bruke 'datasett'-biblioteket:

Trinn 1: Installer Transformer

For å installere Transformer-biblioteket, oppgi følgende kommando:

!pip installer transformatorer

Trinn 2: Installer Dataset Library

Som ' datasett ” biblioteket inneholder alle de offentlige datasettene, vi kan installere det ved å bruke følgende kommando. Ved å installere ' datasett ”-bibliotek, kan vi importere ethvert datasett direkte ved å oppgi navnet:

!pip installer datasett

Trinn 3: Datasettrørledning

For å bygge en pipeline på datasettet, bruk følgende kode. KeyDataset er en funksjon som bare gir ut de verdiene som interesserer brukeren:

fra transformers.pipelines.pt_utils importer KeyDataset
fra transformatorer import rørledning
fra datasett importer load_dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]')for utdata i gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Skriver ut nå')
skrive ut ('----------------')
print (utgang)

Utgangen av koden ovenfor er gitt nedenfor:

Det er alt fra denne guiden. Linken til Google Co er også nevnt i denne artikkelen

Konklusjon

For å bruke pipelines på datasettet, kan vi enten iterere over et datasett ved å bruke en pipeline()-funksjon eller bruke ' datasett ' bibliotek. Hugging Face gir GitHub-depotkoblingen til brukerne for både datasett og modeller som kan brukes basert på kravene. Denne artikkelen har gitt en omfattende veiledning for bruk av rørledninger på et datasett i Transformers.