Cum se instalează Tesseract pe Windows

Cum Se Instaleaza Tesseract Pe Windows



Tesseract este un instrument de recunoaștere a textului open source disponibil gratuit, cunoscut și sub numele de OCR (recunoaștere optică a caracterelor). Este folosit în principal pentru a identifica și extrage text din imagini. Acesta va citi textul din datele imaginii și va scrie rezultatul într-un nou fișier .txt. Tesseract funcționează și sub Python, deoarece este folosit în principal pentru a recunoaște scrisul de mână din imagini. Utilizează modelul LSTR (memorie pe termen lung). Tesseract funcționează sub licența Apache 2.0.

Vom detalia metoda de instalare a Tesseract pe Windows în acest blog.







Deci sa începem!



Cum se instalează Tesseract pe Windows?

Tesseract este un instrument de linie de comandă care este utilizat pentru extragerea textului din imagini. Pentru a instala Tesseract pe Windows, trebuie să urmați instrucțiunile de mai jos.



Pasul 1: Descărcați Tesseract Installer





În primul rând, navigați la linkul furnizat mai jos și descărcați programul de instalare Tesseract conform specificațiilor sistemului dvs.:

https: // github.com / UB-Mannheim / tesseract / săptămână



Pasul 2: Rulați Tesseract Installer

Viziteaza ' Descărcări ” directorul de unde este descărcat programul de instalare Tesseract. Pentru a instala Tesseract pe Windows, executați programul de instalare Tesseract făcând dublu clic pe acesta:

Pasul 3: Selectați limba

Multe limbi sunt acceptate de programul de instalare Tesseract. Pentru a interacționa cu interfața de instalare, alegeți „ Engleză ” ca limba dvs. și faceți clic pe „ O.K ”:

Pasul 4: Instalați Tesseract

După ce faceți acest lucru, pe ecran va apărea vrăjitorul de configurare Tesseract OCR. Pentru a începe instalarea Tesseract, apăsați butonul „ Următorul butonul ”:

Pentru a accepta „ Acord de licențiere ', apasă pe ' Sunt de acord butonul ”:

Selectează ' Instaleaza pentru oricine care foloseste acest calculator ” și apăsați butonul „ Următorul butonul ”:

Dacă doriți să adăugați date de script sau să includeți o altă limbă, bifați casetele respective și apăsați pe „ Următorul butonul ”. Deoarece nu dorim niciun script de date sau limbă suplimentară, vom continua cu opțiunile implicite selectate:

Alegeți locația de instalare și faceți clic pe „ Următorul butonul ”:

Dacă nu doriți să creați o comandă rapidă în meniul Start, marcați „ Nu creati scurtaturi ” și apăsați pe „ Instalare butonul ”:

După aceea, instalarea Tesseract va fi pornită. Așteptați până când instalarea se va finaliza și apăsați butonul „ Următorul butonul ”:

În cele din urmă, faceți clic pe „ finalizarea butonul ”:

Pasul 5: Setați variabila de mediu

După instalare, trebuie să setați variabila de mediu a Tesseract. Pentru a face acest lucru, mai întâi vizitați directorul în care ați instalat Tesseract și copiați calea din „ Abordare ' bar:

Căutați „ variabile de mediu ' în ' Lansare meniul ” și deschideți ” Editați variabilele de mediu ale sistemului ”:

În interiorul setărilor, navigați la „ Avansat ” meniul de setare și faceți clic pe „ variabile de mediu butonul ”:

Alege ' cale ” Variabila de la “ Variabile de sistem ” și apăsați pe „ Editați | × butonul ”:

Dupa aceea ' Editați variabila de mediu ” va apărea pe ecran. Apasă pe ' Nou ” și inserați aici calea directorului de instalare Tesseract copiată. În cele din urmă, faceți clic pe „ O.K butonul ”:

Pasul 6: Verificați instalarea Tesseract

Pentru a verifica instalarea Tesseract, deschideți linia de comandă Windows căutând „ Prompt de comandă ' în ' Lansare ' meniul:

Verificați versiunea Tesseract folosind comanda furnizată:

> tesseract --versiune

Rezultatul de mai jos indică faptul că am instalat cu succes versiunea Tesseract „ v5.2.0 ” pe Windows:

Să mergem mai departe pentru a vedea cum să folosiți Tesseract pe Windows.

Cum se utilizează Tesseract pe Windows?

Tesseract este folosit pentru a citi scrisul de mână sau pentru a extrage text din imagini. Să vedem cum funcționează:

Pasul 1: Selectați imaginea

Selectați imaginea din care doriți să extrageți text. Așa cum am ales „ 1.png ”:

Pasul 2: Extrageți textul din imagine

Odată ce CMD este deschis. Utilizați „ CD ” pentru a schimba directorul în care este stocată imaginea. Apoi rulați „ tesseract ” și definiți numele fișierului imagine așa cum am specificat “ 1.png ”. „ Text ” parametrul arată denotă numele fișierului de ieșire:

> CD C:\Utilizatori\anuma\OneDrive\Pictures\Saved Pictures
> tesseract 1 .png 'Text'

Pasul 3: Verificați extragerea textului

Pentru a verifica extragerea textului, navigați în directorul în care există fișierul imagine. Puteți vedea că fișierul de ieșire „ Text ” se salvează și aici. Faceți dublu clic pe fișierul de ieșire pentru a verifica dacă tesseract a extras textul din imagine sau nu:

Puteți vedea că am extras cu succes textul folosind instrumentul de linie de comandă Tesseract:

Am demonstrat tehnica de instalare și utilizare Tesseract pe Windows.

Concluzie

Pentru a instala Tesseract pe Windows, este necesar să descărcați programul de instalare Tesseract. În acest scop, urmați prima sesiune a acestui articol. Apoi setați variabila de mediu Path pentru a utiliza și accesa Tesseract din linia de comandă Windows. Apoi, selectați fișierul imagine și utilizați „ Teseract ” comandă pentru a recunoaște și extrage textul din imagine. Aici, ați învățat să instalați și să utilizați „ Teseract ” pe ferestre.