Hvordan bruke Hugging Face-datasett

Hvordan Bruke Hugging Face Datasett



Anvendeligheten og brukervennligheten til Machine Learning-modeller testes på data. Påliteligheten til testene avhenger i stor grad av mengden og kvaliteten på dataene som disse modellene brukes på. Det er en komplett oppgave i seg selv å lage, skaffe og rense et passe stort datasett for å teste ' Naturlig språkbehandling (NLP) ' Machine Learning-modell.

Hugging Face tilbyr en ryddig løsning for dette med sitt eksepsjonelt store bibliotek med datasett å velge mellom og finne den som passer perfekt til dine behov. Her vil vi vise deg hvordan du finner det ideelle datasettet og forbereder det for å teste modellen din på en tilstrekkelig måte.







Hvordan bruke Hugging Face-datasett?

Vi vil vise deg hvordan du bruker Hugging Face-datasett ved å bruke eksemplet med ' TinyStories ” Datasett fra Hugging Face.



Eksempel

TinyStories-datasettet har mer enn 2 millioner rader med data i togdelingen, og det har mer enn 2 tusen nedlastinger på Hugging Face-plattformen. Vi vil bruke den i koden i Google Colab gitt nedenfor:



! pip installere transformatorer
! pip installere datasett

fra datasett importer load_dataset

datasett = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
eksempelstreng = datasett [ 'tog' ] [ TinyStories_Story ] [ 'tekst' ]

skrive ut ( eksempelstreng )


I denne koden, vurder trinnene nedenfor:





Trinn 01 : Det første trinnet er ' installasjon ” av transformatordatasett.

Trinn 02 : Deretter importerer du det nødvendige datasettet, ' TinyStories ' inn i prosjektet ditt.



Trinn 03 : Deretter laster du det valgte datasettet ved å bruke ' last_datasett() ' funksjon.

Trinn 04 : Nå spesifiserer vi historienummeret vi ønsker fra TinyStories-datasettet. Vi har spesifisert tallet 03 i vårt kodeeksempel.

Trinn 05 : Til slutt vil vi bruke 'print()'-metoden for å vise utdataene.

Produksjon



Merk: Koden og utdataene kan også sees direkte i vår Google Colab .

Konklusjon

' Kommende ansikt-datasett ” gjør det utrolig effektivt for brukere å teste sine Machine Learning-modeller mens de direkte importerer store datasett fra nettbiblioteket deres. Som et resultat har anvendelsen av NLP-algoritmer blitt enklere og raskere ettersom programmerere kan få sine prosjekter testet mot et datasett som har både kvalitet og kvantitet.