Hvordan bruke tokenizers i Hugging Face Transformers?

Hvordan Bruke Tokenizers I Hugging Face Transformers



Natural Language Processing (NLP) opererer på den rå formen til dataene. Maskinlæringsmodeller er trent på komplekse data, men de kan ikke forstå rådata. Denne råformen for data må ha en numerisk verdi knyttet til seg. Denne verdien bestemmer verdien og betydningen av ordet i dataene, og på dette grunnlaget utføres beregninger.

Denne artikkelen gir en trinnvis veiledning om bruk av Tokenizers i Hugging Face Transformers.

Hva er en Tokenizer?

Tokenizer er et viktig konsept for NLP, og hovedmålet er å oversette den rå teksten til tall. Det finnes ulike teknikker og metoder for dette formålet. Det er imidlertid verdt å merke seg at hver teknikk tjener et bestemt formål.
Hvordan bruke tokenizers i Hugging Face Transformers?







Hvordan bruke tokenizers i Hugging Face Transformers?

Tokenizer-biblioteket må først installeres før du bruker det og importerer funksjoner fra det. Deretter trener du en modell ved hjelp av AutoTokenizer, og gir deretter inndata for å utføre tokenisering.



Hugging Face introduserer tre hovedkategorier av tokenisering som er gitt nedenfor:



  • Ordbasert Tokenizer
  • Karakterbasert Tokenizer
  • Underord-basert Tokenizer

Her er en trinn-for-trinn-guide for å bruke Tokenizers i Transformers:





Trinn 1: Installer Transformers
For å installere transformatorer, bruk pip-kommandoen i følgende kommando:

! pip installere transformatorer



Trinn 2: Importer klasser
Fra transformatorer, import rørledning , og AutoModelForSequenceClassification bibliotek for å utføre klassifisering:

fra transformatorer import pipeline, AutoModelForSequenceClassification

Trinn 3: Importer modell
« AutoModelForSequenceClassification ” er en metode som tilhører Auto-Class for tokenisering. De from_pretrained() metoden brukes for å returnere riktig modellklasse basert på modelltypen.

Her har vi gitt navnet på modellen i ' modell navn variabel:

modell navn = 'distilbert-base-uncased-finetuned-sst-2-engelsk'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modell navn )

Trinn 4: Importer AutoTokenizer
Oppgi følgende kommando for å generere tokens ved å sende ' modell navn ' som argumentet:

fra transformatorer importerer AutoTokenizer

det genererte tokenet =AutoTokenizer.from_pretrained ( modell navn )

Trinn 5: Generer token
Nå vil vi generere tokens på en setning “Jeg elsker god mat” ved å bruke ' det genererte tokenet variabel:

ord =generertoken ( 'Jeg elsker god mat' )
skrive ut ( ord )

Utgangen er gitt som følger:

Koden til ovenstående Google Co er gitt her.

Konklusjon

For å bruke Tokenizers i Hugging Face, installer biblioteket ved å bruke pip-kommandoen, tren en modell ved å bruke AutoTokenizer, og gi deretter inndata for å utføre tokenisering. Ved å bruke tokenisering, tilordne vekter til ordene basert på de er sekvensert for å beholde betydningen av setningen. Denne poengsummen bestemmer også verdien for analyse. Denne artikkelen er en detaljert veiledning om hvordan du bruker Tokenizers i Hugging Face Transformers.