Cum să utilizați tokenizatoarele în Hugging Face Transformers?

Cum Sa Utilizati Tokenizatoarele In Hugging Face Transformers



Procesarea limbajului natural (NLP) operează pe forma brută a datelor. Modelele de învățare automată sunt antrenate pe date complexe, dar nu pot înțelege datele brute. Această formă brută de date trebuie să aibă o valoare numerică asociată cu ea. Această valoare determină valoarea și importanța cuvântului în date și pe această bază se efectuează calcule.

Acest articol oferă un ghid pas cu pas despre utilizarea Tokenizerelor în Hugging Face Transformers.

Ce este un Tokenizer?

Tokenizer este un concept important al NLP, iar obiectivul său principal este de a traduce textul brut în numere. Există diverse tehnici și metodologii prezente în acest scop. Cu toate acestea, merită remarcat faptul că fiecare tehnică servește un scop specific.
Cum să utilizați tokenizatoarele în Hugging Face Transformers?







Cum să utilizați tokenizatoarele în Hugging Face Transformers?

Biblioteca tokenizer trebuie mai întâi instalată înainte de a o utiliza și de a importa funcții din ea. După aceea, antrenați un model folosind AutoTokenizer și apoi furnizați intrarea pentru a efectua tokenizarea.



Hugging Face introduce trei categorii majore de tokenizare, care sunt prezentate mai jos:



  • Tokenizer bazat pe cuvinte
  • Tokenizer bazat pe caractere
  • Tokenizer bazat pe subcuvinte

Iată un ghid pas cu pas pentru a utiliza Tokenizer în Transformers:





Pasul 1: Instalați transformatoare
Pentru a instala transformatoare, utilizați comanda pip din următoarea comandă:

! pip instalare transformatoare



Pasul 2: importați clase
De la transformatoare, import conductă , și AutoModelForSequenceClassification bibliotecă pentru a efectua clasificarea:

din conducta de import de transformatoare, AutoModelForSequenceClassification

Pasul 3: importați modelul
AutoModelForSequenceClassification ” este o metodă care aparține Auto-Class pentru tokenizare. The from_pretrained() metoda este utilizată pentru a returna clasa de model corectă pe baza tipului de model.

Aici am furnizat numele modelului în „ numele modelului ' variabil:

numele modelului = „distilbert-base-uncased-finetuned-sst-2-english”
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( numele modelului )

Pasul 4: importați AutoTokenizer
Furnizați următoarea comandă pentru a genera jetoane prin trecerea „ numele modelului ” ca argument:

din transformatoare import AutoTokenizer

jetonul generat =AutoTokenizer.from_pretrained ( numele modelului )

Pasul 5: Generați Token
Acum, vom genera jetoane pe o propoziție „Îmi place mâncarea bună” prin utilizarea „ jetonul generat ' variabil:

cuvinte =generatetoken ( „Îmi place mâncarea bună” )
imprimare ( cuvinte )

Ieșirea este dată după cum urmează:

Codul de mai sus Google Colab este dat aici.

Concluzie

Pentru a utiliza Tokenizer în Hugging Face, instalați biblioteca folosind comanda pip, antrenați un model folosind AutoTokenizer și apoi furnizați intrarea pentru a efectua tokenizarea. Folosind tokenizarea, atribuiți ponderi cuvintelor pe baza cărora sunt ordonate pentru a păstra sensul propoziției. Acest scor determină și valoarea lor pentru analiză. Acest articol este un ghid detaliat despre cum să utilizați Tokenizatoarele în Hugging Face Transformers.