Hvordan bruke rørledninger på et datasett i transformatorer?

Funksjonen pipeline() er en integrert del av Transformer-biblioteket. Det krever flere innganger der vi kan definere en slutningsoppgave, modeller, tokeniseringsmekanisme osv. En pipeline()-funksjon brukes hovedsakelig til å utføre NLP-oppgaver på en eller flere tekster. Den utfører forbehandling av input og etterbehandling basert på modellen for å generere menneskelesbare utdata og nøyaktig prediksjon med maksimal nøyaktighet.

Denne artikkelen dekker følgende aspekter:

Hva er Hugging Face Dataset Library?
Hvordan bruke rørledninger på et datasett i Hugging Face?

Hva er Hugging Face Dataset Library?

Et Hugging Face datasettbibliotek er et API som inneholder flere offentlige datasett og gir en enkel måte å laste dem ned på. Dette biblioteket kan importeres og installeres i applikasjonen ved å bruke ' pip ' kommando. For en praktisk demonstrasjon for å laste ned og installere datasett fra Hugging Face-biblioteket, besøk denne Google Colab-lenke. Du kan laste ned flere datasett fra Hugging Face Dataset Hub.

Lær mer om funksjonen til pipeline()-funksjonen ved å referere til denne artikkelen ' Hvordan bruke Pipeline()-funksjonen i transformatorer? '.

Hvordan bruke rørledninger på et datasett i Hugging Face?

Hugging Face gir flere forskjellige offentlige datasett som enkelt kan installeres ved å bruke én-linjes kode. I denne artikkelen vil vi se en praktisk demonstrasjon av bruk av rørledninger på disse datasettene. Det er to måter som rørledninger kan implementeres på datasettet.

Metode 1: Bruke iterasjonsmetoden
Metode 2: Bruk av datasettbibliotek

Metode 1: Bruke iterasjonsmetoden

Funksjonen pipeline() kan også itereres over et datasett og en modell. For dette formålet, følg trinnene nedenfor:

Trinn 1: Installer Transformer Library

For å installere Transformer-biblioteket, oppgi følgende kommando:

!pip installer transformatorer

Trinn 2: Importer rørledninger

Vi kan importere rørledningen fra Transformer-biblioteket. For dette formålet, oppgi følgende kommando:

fra transformatorer import rørledning

Trinn 3: Implementer Pipeline

Her er pipeline()-funksjonen implementert på modellen ' gpt2 '. Du kan laste ned modeller fra Hugging Face Model Hub:

def imp_pipeline():
for x i området(1000):
yield f'Implementeringsdatasett{x}'

gener_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
for utdata i gener_pipeline(imp_pipeline()):
gen_char += len(utdata[0]['generert_tekst'])

I denne koden er ' generere_pipeline ' er en variabel som inneholder pipeline()-funksjonen med modellen ' gpt2 '. Når det kalles med ' imp_pipeline() ”-funksjonen, gjenkjenner den automatisk dataene som økes med området spesifisert til 1000:

Dette vil ta litt tid å trene. Linken til Google Co er også gitt.

Metode 2: Bruke datasettbibliotek

I denne metoden vil vi demonstrere implementering av rørledningen ved å bruke 'datasett'-biblioteket:

Trinn 1: Installer Transformer

For å installere Transformer-biblioteket, oppgi følgende kommando:

!pip installer transformatorer

Trinn 2: Installer Dataset Library

Som ' datasett ” biblioteket inneholder alle de offentlige datasettene, vi kan installere det ved å bruke følgende kommando. Ved å installere ' datasett ”-bibliotek, kan vi importere ethvert datasett direkte ved å oppgi navnet:

!pip installer datasett

Trinn 3: Datasettrørledning

For å bygge en pipeline på datasettet, bruk følgende kode. KeyDataset er en funksjon som bare gir ut de verdiene som interesserer brukeren:

fra transformers.pipelines.pt_utils importer KeyDataset
fra transformatorer import rørledning
fra datasett importer load_dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]')for utdata i gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Skriver ut nå')
skrive ut ('----------------')
print (utgang)

Utgangen av koden ovenfor er gitt nedenfor:

Det er alt fra denne guiden. Linken til Google Co er også nevnt i denne artikkelen

Konklusjon

For å bruke pipelines på datasettet, kan vi enten iterere over et datasett ved å bruke en pipeline()-funksjon eller bruke ' datasett ' bibliotek. Hugging Face gir GitHub-depotkoblingen til brukerne for både datasett og modeller som kan brukes basert på kravene. Denne artikkelen har gitt en omfattende veiledning for bruk av rørledninger på et datasett i Transformers.

Hvordan bruke rørledninger på et datasett i transformatorer?

Hva er Hugging Face Dataset Library?

Hvordan bruke rørledninger på et datasett i Hugging Face?

Metode 1: Bruke iterasjonsmetoden

Trinn 1: Installer Transformer Library

Trinn 2: Importer rørledninger

Trinn 3: Implementer Pipeline

Metode 2: Bruke datasettbibliotek

Trinn 1: Installer Transformer

Trinn 2: Installer Dataset Library

Trinn 3: Datasettrørledning

Konklusjon

Kategori

Populære Innlegg

Hvordan endre det eksterne depotet for en Git-undermodul?

Hva er forskjellen mellom Docker Import og Load?

Hva er Discords 'Se sammen' nye funksjon utgitt

C++ rint() funksjon

Hvordan sjekke og redusere høy minnebruk i Windows 11?

Hvordan åpne .URL-filer (Internett-snarveier) ved hjelp av forskjellige nettlesere fra høyreklikkmenyen - Winhelponline

Hvordan definere Amazon ECS-oppgavedefinisjoner?

Hvordan installere VMware Workstation 17 Player på Linux Mint 21

Hvordan lage hemmelig TLS i Kubernetes

Hva er Tilbakestill eller glemt passord-alternativet i Discord-påloggingen

Hvordan koble til MySQL ved hjelp av kommandolinje?

Slik slår du av RetroPie trygt

Serial.readBytesUntil()-funksjon i Arduino-programmering

Slik kjører du macOS Ventura på AWS EC2-forekomst

Hva er skrivematriser i TypeScript

Hvordan lese påfølgende innganger med Node.js Readline Module?

Hvordan redigere videoer på iPhone - En grunnleggende veiledning

Hva er ulempene ved å bruke bærbar datamaskin på vekselstrøm og ta ut batteri?

Parse en streng med komma til et tall i JavaScript

Hvordan bygge en discord-velkomstopplevelse