Hvordan bruke Hugging Face-datasett

Hvordan Bruke Hugging Face Datasett

Anvendeligheten og brukervennligheten til Machine Learning-modeller testes på data. Påliteligheten til testene avhenger i stor grad av mengden og kvaliteten på dataene som disse modellene brukes på. Det er en komplett oppgave i seg selv å lage, skaffe og rense et passe stort datasett for å teste ' Naturlig språkbehandling (NLP) ' Machine Learning-modell.

Hugging Face tilbyr en ryddig løsning for dette med sitt eksepsjonelt store bibliotek med datasett å velge mellom og finne den som passer perfekt til dine behov. Her vil vi vise deg hvordan du finner det ideelle datasettet og forbereder det for å teste modellen din på en tilstrekkelig måte.

Hvordan bruke Hugging Face-datasett?

Vi vil vise deg hvordan du bruker Hugging Face-datasett ved å bruke eksemplet med ' TinyStories ” Datasett fra Hugging Face.

Eksempel

TinyStories-datasettet har mer enn 2 millioner rader med data i togdelingen, og det har mer enn 2 tusen nedlastinger på Hugging Face-plattformen. Vi vil bruke den i koden i Google Colab gitt nedenfor:

! pip installere transformatorer
! pip installere datasett

fra datasett importer load_dataset

datasett = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
eksempelstreng = datasett [ 'tog' ] [ TinyStories_Story ] [ 'tekst' ]

skrive ut ( eksempelstreng )

I denne koden, vurder trinnene nedenfor:

Trinn 01 : Det første trinnet er ' installasjon ” av transformatordatasett.

Trinn 02 : Deretter importerer du det nødvendige datasettet, ' TinyStories ' inn i prosjektet ditt.

Trinn 03 : Deretter laster du det valgte datasettet ved å bruke ' last_datasett() ' funksjon.

Trinn 04 : Nå spesifiserer vi historienummeret vi ønsker fra TinyStories-datasettet. Vi har spesifisert tallet 03 i vårt kodeeksempel.

Trinn 05 : Til slutt vil vi bruke 'print()'-metoden for å vise utdataene.

Produksjon

Merk: Koden og utdataene kan også sees direkte i vår Google Colab .

Konklusjon

' Kommende ansikt-datasett ” gjør det utrolig effektivt for brukere å teste sine Machine Learning-modeller mens de direkte importerer store datasett fra nettbiblioteket deres. Som et resultat har anvendelsen av NLP-algoritmer blitt enklere og raskere ettersom programmerere kan få sine prosjekter testet mot et datasett som har både kvalitet og kvantitet.

Hvordan bruke Hugging Face-datasett

Hvordan bruke Hugging Face-datasett?

Eksempel

Produksjon

Konklusjon

Kategori

Populære Innlegg

Bruke ActiveX-filtrering i Internet Explorer 9 - Winhelponline

Fiks Windows 10 Update Error 0x8007007e

Hvordan gi plass mellom to lenker i HTML og CSS?

Hvordan kan jeg bruke Git lokalt?

Hvordan AWS brukte ML for å hjelpe Amazon Fulfillment Centers med å redusere nedetid?

Hva er Math.Max()-metoden i C#

Hvordan endre størrelsen på et bilde til en bestemt størrelse i PyTorch?

Slik sletter du en katalog i Linux

Hvordan lage flere NetworkManager-tilkoblingsprofiler for samme nettverksgrensesnitt på Linux og bytte mellom dem

Git Commit Forfatter: Hvordan endre det?

Java Catch flere unntak

Slik installerer du VirtIO-drivere og QEMU Guest Agent på Windows 10/11 Proxmox VE virtuelle maskiner

Hvorfor bør jeg bruke core.autocrlf=true i Git?

Hvordan administrere roller i Discord

SQL Subquery Join med Outer Query

Matematiske funksjoner i C – Komplett veiledning

Hvordan bruke date_sub()-funksjonen i PHP

Hvordan bruke Java Enums i Switch Statements

Konvertering av PySpark DataFrame til JSON

WMP overskriver albumbilder og mapper. Hvordan stoppe det? - Winhelponline