Cum să utilizați tokenizatoarele în Hugging Face Transformers?

Procesarea limbajului natural (NLP) operează pe forma brută a datelor. Modelele de învățare automată sunt antrenate pe date complexe, dar nu pot înțelege datele brute. Această formă brută de date trebuie să aibă o valoare numerică asociată cu ea. Această valoare determină valoarea și importanța cuvântului în date și pe această bază se efectuează calcule.

Acest articol oferă un ghid pas cu pas despre utilizarea Tokenizerelor în Hugging Face Transformers.

Ce este un Tokenizer?

Tokenizer este un concept important al NLP, iar obiectivul său principal este de a traduce textul brut în numere. Există diverse tehnici și metodologii prezente în acest scop. Cu toate acestea, merită remarcat faptul că fiecare tehnică servește un scop specific.
Cum să utilizați tokenizatoarele în Hugging Face Transformers?

Cum să utilizați tokenizatoarele în Hugging Face Transformers?

Biblioteca tokenizer trebuie mai întâi instalată înainte de a o utiliza și de a importa funcții din ea. După aceea, antrenați un model folosind AutoTokenizer și apoi furnizați intrarea pentru a efectua tokenizarea.

Hugging Face introduce trei categorii majore de tokenizare, care sunt prezentate mai jos:

Tokenizer bazat pe cuvinte
Tokenizer bazat pe caractere
Tokenizer bazat pe subcuvinte

Iată un ghid pas cu pas pentru a utiliza Tokenizer în Transformers:

Pasul 1: Instalați transformatoare
Pentru a instala transformatoare, utilizați comanda pip din următoarea comandă:

! pip instalare transformatoare

Pasul 2: importați clase
De la transformatoare, import conductă , și AutoModelForSequenceClassification bibliotecă pentru a efectua clasificarea:

din conducta de import de transformatoare, AutoModelForSequenceClassification

Pasul 3: importați modelul
„ AutoModelForSequenceClassification ” este o metodă care aparține Auto-Class pentru tokenizare. The from_pretrained() metoda este utilizată pentru a returna clasa de model corectă pe baza tipului de model.

Aici am furnizat numele modelului în „ numele modelului ' variabil:

numele modelului = „distilbert-base-uncased-finetuned-sst-2-english”
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( numele modelului )

Pasul 4: importați AutoTokenizer
Furnizați următoarea comandă pentru a genera jetoane prin trecerea „ numele modelului ” ca argument:

din transformatoare import AutoTokenizer

jetonul generat =AutoTokenizer.from_pretrained ( numele modelului )

Pasul 5: Generați Token
Acum, vom genera jetoane pe o propoziție „Îmi place mâncarea bună” prin utilizarea „ jetonul generat ' variabil:

cuvinte =generatetoken ( „Îmi place mâncarea bună” )
imprimare ( cuvinte )

Ieșirea este dată după cum urmează:

Codul de mai sus Google Colab este dat aici.

Concluzie

Pentru a utiliza Tokenizer în Hugging Face, instalați biblioteca folosind comanda pip, antrenați un model folosind AutoTokenizer și apoi furnizați intrarea pentru a efectua tokenizarea. Folosind tokenizarea, atribuiți ponderi cuvintelor pe baza cărora sunt ordonate pentru a păstra sensul propoziției. Acest scor determină și valoarea lor pentru analiză. Acest articol este un ghid detaliat despre cum să utilizați Tokenizatoarele în Hugging Face Transformers.

Cum să utilizați tokenizatoarele în Hugging Face Transformers?

Ce este un Tokenizer?

Cum să utilizați tokenizatoarele în Hugging Face Transformers?

Concluzie

Categorie

Posturi Populare

Ce este un Roblox Noob

Cum să extrageți gratuit fișierele RAR pe Windows și Mac?

Cum să creați diferite variante ale imaginilor AI folosind MidJourney?

Cum să recuperați fotografiile șterse pe Android

Cum să construiți un calculator de bază în C++

SQL Server Obțineți definiția vizualizării

Ce sunt blocurile statice în Java

Cum să actualizați un singur pachet cu comanda apt-get în Debian

Comanda Groupmod în Linux

Cum să configurați HAProxy ca proxy invers

Variabila membru în C++

Cum se instalează C# pe Linux

Utilizarea PowerShell pentru a citi fișiere text și a înlocui text

Care este utilizarea stocării efemere?

Înlocuiți un șir în SQL

Cum să stilați tabelul cu CSS

Cum să găsiți ce versiune de Git rulați

Unde să plasați JavaScript într-un fișier HTML

Cum se instalează și se instalează MySQL Workbench pe Fedora Linux

Cum să vă alăturați două tabele în MySQL fără a utiliza Join?