Tesseract er et fritt tilgjengelig åpen kildekode-tekstgjenkjenningsverktøy også kjent som OCR (Optisk tegngjenkjenning). Den brukes først og fremst til å identifisere og trekke ut tekst fra bilder. Den vil lese tekst fra bildedata og skrive utdata i en ny .txt-fil. Tesseract jobber også under Python, da det hovedsakelig brukes til å gjenkjenne håndskrift fra bilder. Den bruker LSTR-modellen (Long short-term memory). Tesseract jobber under Apache 2.0-lisensen.
Vi vil utdype metoden for å installere Tesseract på Windows i denne bloggen.
Så la oss komme i gang!
Hvordan installerer jeg Tesseract på Windows?
Tesseract er et kommandolinjeverktøy som brukes til tekstutvinning fra bilder. For å installere Tesseract på Windows, må du følge opp instruksjonene nedenfor.
Trinn 1: Last ned Tesseract Installer
Først, naviger til lenken nedenfor og last ned Tesseract-installasjonsprogrammet i henhold til systemspesifikasjonen din:
https: // github.com / UB-Mannheim / tesseract / uke
Trinn 2: Kjør Tesseract Installer
Besøk ' Nedlastinger ”-katalogen hvor Tesseract-installasjonsprogrammet er lastet ned. For å installere Tesseract på Windows, kjør Tesseract-installasjonsprogrammet ved å dobbeltklikke på det:
Trinn 3: Velg språk
Mange språk støttes av Tesseract-installasjonsprogrammet. For å samhandle med installasjonsgrensesnittet, velg ' Engelsk ' som ditt språk og klikk på ' OK ':
Trinn 4: Installer Tesseract
Når du gjør det, vil Tesseract OCR-oppsettveiviseren vises på skjermen. For å starte Tesseract-installasjonen, trykk på ' Neste ”-knapp:
For å godta ' Lisensavtale ', Klikk på ' Jeg er enig ”-knapp:
Velg ' Installer for alle som bruker denne datamaskinen '-alternativet og trykk på ' Neste ”-knapp:
Hvis du vil legge til skriptdata eller inkludere et annet språk, merk av for deres respektive avmerkingsbokser og trykk på ' Neste '-knappen. Siden vi ikke ønsker noe ekstra dataskript eller språk, vil vi fortsette med standardvalgte alternativer:
Velg installasjonsstedet og klikk på ' Neste ”-knapp:
Hvis du ikke ønsker å lage en snarvei i Start-menyen, merker du ' Ikke lag snarveier ' avmerkingsboksen og trykk på ' Installere ”-knapp:
Etter det vil Tesseract-installasjonen startes. Vent til installasjonen er fullført og trykk på ' Neste ”-knapp:
Til slutt klikker du på ' Bli ferdig ”-knapp:
Trinn 5: Angi miljøvariabel
Etter installasjonen må du angi miljøvariabelen til Tesseract. For å gjøre det, gå først til katalogen der du har installert Tesseract og kopier stien fra ' Adresse ” bar:
Foreta et søk etter ' Miljøvariabler ' i ' Oppstart '-menyen og åpne ' Rediger systemmiljøvariablene ':
Inne i innstillingene, naviger til ' Avansert ' innstillingsmenyen og klikk på ' Miljøvariabler ”-knapp:
Velg ' Sti ' Variabel fra ' Systemvariabler '-panelet, og trykk på ' Redigere ”-knapp:
Etter det ' Rediger miljøvariabel ”-vinduet vises på skjermen. Trykk ' Ny ”-knappen og lim inn den kopierte Tesseract-installasjonskatalogbanen her. Til slutt klikker du på ' OK ”-knapp:
Trinn 6: Bekreft Tesseract-installasjonen
For å bekrefte Tesseract-installasjonen, åpne Windows-kommandoprompten ved å søke ' Ledeteksten ' i ' Oppstart ' Meny:
Sjekk ut Tesseract-versjonen ved å bruke den medfølgende kommandoen:
> tesseract --versjon
Utdataene nedenfor indikerer at vi har installert Tesseract-versjonen ' v5.2.0 ' på Windows:
La oss gå videre for å sjekke ut hvordan du bruker Tesseract på Windows.
Hvordan bruke Tesseract på Windows?
Tesseract brukes til å lese håndskrift eller trekke ut tekst fra bilder. La oss se hvordan det fungerer:
Trinn 1: Velg bilde
Velg bildet du vil trekke ut tekst fra. Som vi har valgt ' 1.png ':
Trinn 2: Trekk ut tekst fra bildet
Når CMD er åpnet. Bruk ' cd ” kommando for å endre katalogen der bildet er lagret. Kjør deretter ' tesseract ' kommandoen og definer bildefilnavnet slik vi har spesifisert ' 1.png '. « Tekst ” parameter viser angir navnet på utdatafilen:
> cd C:\Users\anuma\OneDrive\Pictures\Lagrede bilder> tesseract 1 .png 'Tekst'
Trinn 3: Bekreft tekstutvinning
For å bekrefte tekstutvinningen, naviger i katalogen der bildefilen finnes. Du kan se at utdatafilen ' Tekst ” er også lagret her. Dobbeltklikk på utdatafilen for å sjekke om tesseracten har trukket ut teksten fra bildet eller ikke:
Du kan se at vi har trukket ut teksten med Tesseract-kommandolinjeverktøyet:
Vi har demonstrert teknikken for å installere og bruke Tesseract på Windows.
Konklusjon
For å installere Tesseract på Windows, er det nødvendig å laste ned Tesseract-installasjonsprogrammet. For dette formålet, følg den første økten i denne artikkelen. Sett deretter Path-miljøvariabelen for å bruke og få tilgang til Tesseract fra Windows-ledeteksten. Velg deretter bildefilen og bruk ' Tesseract ” kommando for å gjenkjenne og trekke ut teksten fra bildet. Her har du lært å installere og bruke ' Tesseract ' på vinduer.