Hugging Face Filter() Metode

Hugging Face Filter Metode



Hugging Face har flere modeller og datasett for naturlig språkbehandling (NLP). Disse enorme datasettene inneholder mye informasjon som hjelper til med å trene modellen nøyaktig. Noen ganger trenger vi imidlertid ikke hele datasettet fordi vi bare trenger en liten del av det for å dekke våre nåværende behov. Hvis vi ønsker å bruke samme datasett som vanlig med all informasjon, tar modellopplæringen og optimaliseringen mye tid som er bortkastet tid.

Så vi trenger en slags metode eller pakke som kan trekke ut relevant informasjon fra datasettene. På enkelt språk kan vi si at vi trenger et ekstra filteralternativ for å filtrere datasettene i henhold til våre krav.

Hugging Face gir forskjellige alternativer for å filtrere datasettene som hjelper brukerne med å lage de tilpassede datasettene som kun inneholder eksempler eller informasjon som oppfyller spesifikke betingelser.







Velg() metode

Denne metoden fungerer på en liste med indekser som betyr at vi må definere en liste. Inne i den listen må vi nevne alle radenes indeksverdier som vi ønsker å trekke ut. Men denne metoden fungerer bare for små datasett og ikke for store datasett, siden vi ikke kan se hele datasettet hvis det er i GBs (giga bytes) eller TBs (tera bytes).



Eksempel :

nytt_datasett = datasett. plukke ut ( [ 0 , elleve , tjueen , Fire fem , femti , 55 ] )

skrive ut ( bare ( nytt_datasett ) )

I dette eksemplet brukte vi 'velg'-metoden for å filtrere den nødvendige informasjonen fra datasettet.



Filter() metode

Filter()-metoden overvinner select()-prosessproblemene siden det ikke er noen spesifikk betingelse. Filter()-metoden returnerer alle radene som samsvarer med en bestemt situasjon eller betingelse.





Eksempel: Vi lagrer dette Python-programmet med navnet 'test.py'.

fra datasett import last_datasett

# Trinn 1: Last inn datasettet
datasett = last_datasett ( 'imdb' )

# Trinn 2: Definer filtreringsfunksjonen
def tilpasset_filter ( eksempel ) :
'''
En tilpasset filtreringsfunksjon for å beholde eksempler med positive
sentiment (etikett == 1).
'''

komme tilbake eksempel [ 'merkelapp' ] == 1

# Trinn 3: Bruk filteret for å lage et nytt filtrert datasett
filtrert_datasett = datasett. filter ( tilpasset_filter )

# Trinn 4: Sjekk de tilgjengelige kolonnenavnene i det filtrerte datasettet
skrive ut ( 'Tilgjengelige kolonner i det filtrerte datasettet:' ,
filtrert_datasett. kolonnenavn )

# Trinn 5: Få tilgang til informasjon fra det filtrerte datasettet
filtrerte_eksempler = filtrert_datasett [ 'tog' ]
num_filtred_examples = bare ( filtrerte_eksempler )

# Trinn 6: Skriv ut det totale antallet filtrerte eksempler
skrive ut ( 'Totalt filtrerte eksempler:' , num_filtred_examples )

Produksjon:



Forklaring:

Linje 1: Vi importerer den nødvendige load_dataset-pakken fra datasettene.

Linje 4: Vi laster «imdb»-datasettet ved hjelp av load_dataset.

Linje 7 til 12: Vi definerer den tilpassede filtreringsfunksjonen ' tilpasset_filter ' å beholde eksemplene med positiv følelse (etikett == 1). Denne funksjonen returnerer bare de radene hvis etikettverdi er 1.

Linje 15: Denne linjen viser at datasettet har 'imdb'-filmomtaledata. Vi bruker nå filterfunksjonen på denne databasen for å skille de positive anmeldelsene fra databasen som er videre lagret i 'filtered_dataset.'

Linje 18 og 19: Nå sjekker vi hvilke kolonnenavn som er tilgjengelige i filtered_dataset. Så «filtered_dataset.column_names»-koden gir detaljene om kravene våre.

Linje 22 og 23: I disse linjene filtrerer vi 'tog'-kolonnen i filtered_dataset og skriver ut det totale antallet (lengden) av togkolonnen.

Linje 26: I denne siste linjen skriver vi ut resultatet fra linje nummer 23.

Filter() med indekser

Filter()-metoden kan også brukes med indekser som vist i select()-modusen. Men for det må vi nevne at nøkkelordet 'with_indices=true' må spesifiseres utenfor filter()-metoden som vist i følgende eksempel:

odd_datasett = datasett. filter ( lambda eksempel , idx: idx % 2 != 0 , med_indekser = ekte )

skrive ut ( bare ( odd_datasett ) )

I dette eksemplet brukte vi filter()-metoden for å filtrere den nødvendige informasjonen fra datasettet, inkludert bare de radene som er odde.

De fullstendige detaljene for hver parameter for filter()-metoden finner du her link .

Konklusjon

Hugging Face datasettbiblioteket gir et kraftig og brukervennlig verktøysett for å effektivt arbeide med ulike datasett, spesielt i sammenheng med Natural Language Processing (NLP) og maskinlæringsoppgaver. Filter()-funksjonen som presenteres i programmet lar forskerne og praktikerne trekke ut relevante delmengder av data ved å definere de brukerdefinerte filtreringskriteriene. Ved å bruke denne funksjonaliteten kan brukerne enkelt lage nye datasett som oppfyller spesifikke forhold som å opprettholde positive følelser i filmanmeldelser eller trekke ut spesifikke tekstdata.

Denne trinnvise demonstrasjonen illustrerer hvor enkelt det er å laste et datasett, bruke de tilpassede filterfunksjonene og få tilgang til de filtrerte dataene. I tillegg tillater fleksibiliteten til funksjonsparametrene tilpassede filtreringsoperasjoner, inkludert støtte for flere behandlinger for store datasett. Med Hugging Face datasettbiblioteket kan brukerne strømlinjeforme dataene sine.