Så vi trenger en slags metode eller pakke som kan trekke ut relevant informasjon fra datasettene. På enkelt språk kan vi si at vi trenger et ekstra filteralternativ for å filtrere datasettene i henhold til våre krav.
Hugging Face gir forskjellige alternativer for å filtrere datasettene som hjelper brukerne med å lage de tilpassede datasettene som kun inneholder eksempler eller informasjon som oppfyller spesifikke betingelser.
Velg() metode
Denne metoden fungerer på en liste med indekser som betyr at vi må definere en liste. Inne i den listen må vi nevne alle radenes indeksverdier som vi ønsker å trekke ut. Men denne metoden fungerer bare for små datasett og ikke for store datasett, siden vi ikke kan se hele datasettet hvis det er i GBs (giga bytes) eller TBs (tera bytes).
Eksempel :
nytt_datasett = datasett. plukke ut ( [ 0 , elleve , tjueen , Fire fem , femti , 55 ] )skrive ut ( bare ( nytt_datasett ) )
I dette eksemplet brukte vi 'velg'-metoden for å filtrere den nødvendige informasjonen fra datasettet.
Filter() metode
Filter()-metoden overvinner select()-prosessproblemene siden det ikke er noen spesifikk betingelse. Filter()-metoden returnerer alle radene som samsvarer med en bestemt situasjon eller betingelse.
Eksempel: Vi lagrer dette Python-programmet med navnet 'test.py'.
fra datasett import last_datasett# Trinn 1: Last inn datasettet
datasett = last_datasett ( 'imdb' )
# Trinn 2: Definer filtreringsfunksjonen
def tilpasset_filter ( eksempel ) :
'''
En tilpasset filtreringsfunksjon for å beholde eksempler med positive
sentiment (etikett == 1).
'''
komme tilbake eksempel [ 'merkelapp' ] == 1
# Trinn 3: Bruk filteret for å lage et nytt filtrert datasett
filtrert_datasett = datasett. filter ( tilpasset_filter )
# Trinn 4: Sjekk de tilgjengelige kolonnenavnene i det filtrerte datasettet
skrive ut ( 'Tilgjengelige kolonner i det filtrerte datasettet:' ,
filtrert_datasett. kolonnenavn )
# Trinn 5: Få tilgang til informasjon fra det filtrerte datasettet
filtrerte_eksempler = filtrert_datasett [ 'tog' ]
num_filtred_examples = bare ( filtrerte_eksempler )
# Trinn 6: Skriv ut det totale antallet filtrerte eksempler
skrive ut ( 'Totalt filtrerte eksempler:' , num_filtred_examples )
Produksjon:
Forklaring:
Linje 1: Vi importerer den nødvendige load_dataset-pakken fra datasettene.
Linje 4: Vi laster «imdb»-datasettet ved hjelp av load_dataset.
Linje 7 til 12: Vi definerer den tilpassede filtreringsfunksjonen ' tilpasset_filter ' å beholde eksemplene med positiv følelse (etikett == 1). Denne funksjonen returnerer bare de radene hvis etikettverdi er 1.
Linje 15: Denne linjen viser at datasettet har 'imdb'-filmomtaledata. Vi bruker nå filterfunksjonen på denne databasen for å skille de positive anmeldelsene fra databasen som er videre lagret i 'filtered_dataset.'
Linje 18 og 19: Nå sjekker vi hvilke kolonnenavn som er tilgjengelige i filtered_dataset. Så «filtered_dataset.column_names»-koden gir detaljene om kravene våre.
Linje 22 og 23: I disse linjene filtrerer vi 'tog'-kolonnen i filtered_dataset og skriver ut det totale antallet (lengden) av togkolonnen.
Linje 26: I denne siste linjen skriver vi ut resultatet fra linje nummer 23.
Filter() med indekser
Filter()-metoden kan også brukes med indekser som vist i select()-modusen. Men for det må vi nevne at nøkkelordet 'with_indices=true' må spesifiseres utenfor filter()-metoden som vist i følgende eksempel:
odd_datasett = datasett. filter ( lambda eksempel , idx: idx % 2 != 0 , med_indekser = ekte )skrive ut ( bare ( odd_datasett ) )
I dette eksemplet brukte vi filter()-metoden for å filtrere den nødvendige informasjonen fra datasettet, inkludert bare de radene som er odde.
De fullstendige detaljene for hver parameter for filter()-metoden finner du her link .
Konklusjon
Hugging Face datasettbiblioteket gir et kraftig og brukervennlig verktøysett for å effektivt arbeide med ulike datasett, spesielt i sammenheng med Natural Language Processing (NLP) og maskinlæringsoppgaver. Filter()-funksjonen som presenteres i programmet lar forskerne og praktikerne trekke ut relevante delmengder av data ved å definere de brukerdefinerte filtreringskriteriene. Ved å bruke denne funksjonaliteten kan brukerne enkelt lage nye datasett som oppfyller spesifikke forhold som å opprettholde positive følelser i filmanmeldelser eller trekke ut spesifikke tekstdata.
Denne trinnvise demonstrasjonen illustrerer hvor enkelt det er å laste et datasett, bruke de tilpassede filterfunksjonene og få tilgang til de filtrerte dataene. I tillegg tillater fleksibiliteten til funksjonsparametrene tilpassede filtreringsoperasjoner, inkludert støtte for flere behandlinger for store datasett. Med Hugging Face datasettbiblioteket kan brukerne strømlinjeforme dataene sine.