Hvordan bruke tokenizers i Hugging Face Transformers?

Natural Language Processing (NLP) opererer på den rå formen til dataene. Maskinlæringsmodeller er trent på komplekse data, men de kan ikke forstå rådata. Denne råformen for data må ha en numerisk verdi knyttet til seg. Denne verdien bestemmer verdien og betydningen av ordet i dataene, og på dette grunnlaget utføres beregninger.

Denne artikkelen gir en trinnvis veiledning om bruk av Tokenizers i Hugging Face Transformers.

Hva er en Tokenizer?

Tokenizer er et viktig konsept for NLP, og hovedmålet er å oversette den rå teksten til tall. Det finnes ulike teknikker og metoder for dette formålet. Det er imidlertid verdt å merke seg at hver teknikk tjener et bestemt formål.
Hvordan bruke tokenizers i Hugging Face Transformers?

Hvordan bruke tokenizers i Hugging Face Transformers?

Tokenizer-biblioteket må først installeres før du bruker det og importerer funksjoner fra det. Deretter trener du en modell ved hjelp av AutoTokenizer, og gir deretter inndata for å utføre tokenisering.

Hugging Face introduserer tre hovedkategorier av tokenisering som er gitt nedenfor:

Ordbasert Tokenizer
Karakterbasert Tokenizer
Underord-basert Tokenizer

Her er en trinn-for-trinn-guide for å bruke Tokenizers i Transformers:

Trinn 1: Installer Transformers
For å installere transformatorer, bruk pip-kommandoen i følgende kommando:

! pip installere transformatorer

Trinn 2: Importer klasser
Fra transformatorer, import rørledning , og AutoModelForSequenceClassification bibliotek for å utføre klassifisering:

fra transformatorer import pipeline, AutoModelForSequenceClassification

Trinn 3: Importer modell
« AutoModelForSequenceClassification ” er en metode som tilhører Auto-Class for tokenisering. De from_pretrained() metoden brukes for å returnere riktig modellklasse basert på modelltypen.

Her har vi gitt navnet på modellen i ' modell navn variabel:

modell navn = 'distilbert-base-uncased-finetuned-sst-2-engelsk'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modell navn )

Trinn 4: Importer AutoTokenizer
Oppgi følgende kommando for å generere tokens ved å sende ' modell navn ' som argumentet:

fra transformatorer importerer AutoTokenizer

det genererte tokenet =AutoTokenizer.from_pretrained ( modell navn )

Trinn 5: Generer token
Nå vil vi generere tokens på en setning “Jeg elsker god mat” ved å bruke ' det genererte tokenet variabel:

ord =generertoken ( 'Jeg elsker god mat' )
skrive ut ( ord )

Utgangen er gitt som følger:

Koden til ovenstående Google Co er gitt her.

Konklusjon

For å bruke Tokenizers i Hugging Face, installer biblioteket ved å bruke pip-kommandoen, tren en modell ved å bruke AutoTokenizer, og gi deretter inndata for å utføre tokenisering. Ved å bruke tokenisering, tilordne vekter til ordene basert på de er sekvensert for å beholde betydningen av setningen. Denne poengsummen bestemmer også verdien for analyse. Denne artikkelen er en detaljert veiledning om hvordan du bruker Tokenizers i Hugging Face Transformers.

Hvordan bruke tokenizers i Hugging Face Transformers?

Hva er en Tokenizer?

Hvordan bruke tokenizers i Hugging Face Transformers?

Konklusjon

Kategori

Populære Innlegg

Hva er en betongklasse i Java

Hvordan finne ut ChatGPTs nåværende status?

Hvilken størrelse på harddisken trenger jeg til den bærbare datamaskinen min?

Slik endrer du tekstboblefarge på Android

Windows 10 systemkrav og kompatibilitetstest

Hvordan fungerer Windows Defender Cloud Block Feature “Block at First Sight”? - Winhelponline

Er det noen metode for å angre lokale endringer i Git?

Hvordan gå gjennom en USB i VirtualBox?

Topp 7 beste apper for utskifting av oppringer for Android

Hvordan installere Conda Command Line i Ubuntu Linux

Plotly.io.to_templated

Spesialtegn i C++

Hva er trinnene for å gi nytt navn til en fil i Git?

Hvordan bruke retrievere i LangChain?

Hva står Vcc for i Arduino

Hvordan installere CUDA på Ubuntu 20.04 LTS

PostgreSQL Gi alle privilegier på skjema til brukeren

Hvordan gjøre en matrise til en kolonnevektor i MATLAB

Hvordan installere Rust på Debian 12 Bookworm

Beste dekal-ID-er Roblox – 2023