Cum să aplicați conducte pe un set de date în Transformers?

Funcția pipeline() este o parte integrantă a bibliotecii Transformer. Este nevoie de mai multe intrări în care putem defini o sarcină de inferență, modele, mecanism de tokenizare etc. O funcție pipeline() este utilizată în principal pentru a efectua sarcini NLP pe unul sau mai multe texte. Efectuează pre-procesare la intrare și post-procesare pe baza modelului pentru a genera rezultate care pot fi citite de om și predicție precisă cu acuratețe maximă.

Acest articol acoperă următoarele aspecte:

Ce este Biblioteca de seturi de date Hugging Face?
Cum să aplicați conducte pe un set de date în Hugging Face?

Ce este Hugging Face Dataset Library?

O bibliotecă de date Hugging Face este un API care conține mai multe seturi de date publice și oferă o modalitate ușoară de a le descărca. Această bibliotecă poate fi importată și instalată în aplicație utilizând „ pip ” comanda. Pentru o demonstrație practică pentru descărcarea și instalarea seturilor de date ale bibliotecii Hugging Face, vizitați aceasta Link Google Colab. Puteți descărca mai multe seturi de date din Hugging Face Dataset Hub.

Aflați mai multe despre funcționarea funcției pipeline() consultând acest articol „ Cum se utilizează funcția Pipeline() în transformatoare? ”.

Cum să aplicați conducte pe un set de date în Hugging Face?

Hugging Face oferă mai multe seturi de date publice diferite care pot fi instalate cu ușurință folosind codul dintr-o singură linie. În acest articol, vom vedea o demonstrație practică a aplicării conductelor la aceste seturi de date. Există două moduri în care conductele pot fi implementate pe setul de date.

Metoda 1: Utilizarea metodei de iterație
Metoda 2: Utilizarea Bibliotecii de set de date

Metoda 1: Utilizarea metodei de iterație

Funcția pipeline() poate fi iterată și peste un set de date și model. În acest scop, urmați pașii menționați mai jos:

Pasul 1: Instalați Transformer Library

Pentru a instala biblioteca Transformer, furnizați următoarea comandă:

!pip instalează transformatoare

Pasul 2: importați conducte

Putem importa conducta din biblioteca Transformer. În acest scop, furnizați următoarea comandă:

din conducta de import transformatoare

Pasul 3: Implementați Pipeline

Aici, funcția pipeline() este implementată pe modelul „ gpt2 ”. Puteți descărca modele din Hugging Face Model Hub:

def imp_pipeline():
pentru x în interval (1000):
randament f'Setul de date de implementare{x}'

generate_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
pentru ieșire în generate_pipeline(imp_pipeline()):
gen_char += len(ieșire[0]['generated_text'])

În acest cod, „ generate_pipeline ” este o variabilă care conține funcția pipeline() cu modelul ” gpt2 ”. Când este numit cu „ imp_pipeline() ”, recunoaște automat datele care sunt mărite cu intervalul specificat la 1000:

Acest lucru va dura ceva timp pentru a se antrena. Link-ul către Google Colab este de asemenea dat.

Metoda 2: Utilizarea Bibliotecii de seturi de date

În această metodă, vom demonstra implementarea conductei folosind biblioteca „seturi de date”:

Pasul 1: Instalați Transformer

Pentru a instala biblioteca Transformer, furnizați următoarea comandă:

!pip instalează transformatoare

Pasul 2: Instalați Biblioteca de set de date

Dupa cum ' seturi de date ” biblioteca conține toate seturile de date publice, o putem instala folosind următoarea comandă. Prin instalarea „ seturi de date ”, putem importa direct orice set de date furnizând numele acestuia:

!pip instalează seturi de date

Pasul 3: Setul de date Pipeline

Pentru a construi o conductă pe setul de date, utilizați următorul cod. KeyDataset este o caracteristică care scoate numai acele valori care interesează utilizatorul:

din transformers.pipelines.pt_utils import KeyDataset
din conducta de import transformatoare
din seturi de date import load_dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') pentru ieșire în gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Iesirea de tiparire acum')
imprimare ('----------------')
imprimare (ieșire)

Rezultatul codului de mai sus este prezentat mai jos:

Asta este tot din acest ghid. Link-ul către Google Colab este menționat și în acest articol

Concluzie

Pentru a aplica conducte pe setul de date, putem fie să iterăm peste un set de date utilizând o funcție pipeline(), fie să folosim „ seturi de date ” bibliotecă. Hugging Face oferă utilizatorilor săi linkul de depozit GitHub atât pentru seturi de date, cât și pentru modele, care pot fi utilizate în funcție de cerințe. Acest articol a oferit un ghid cuprinzător pentru aplicarea conductelor pe un set de date în Transformers.

Cum să aplicați conducte pe un set de date în Transformers?

Ce este Hugging Face Dataset Library?

Cum să aplicați conducte pe un set de date în Hugging Face?

Metoda 1: Utilizarea metodei de iterație

Pasul 1: Instalați Transformer Library

Pasul 2: importați conducte

Pasul 3: Implementați Pipeline

Metoda 2: Utilizarea Bibliotecii de seturi de date

Pasul 1: Instalați Transformer

Pasul 2: Instalați Biblioteca de set de date

Pasul 3: Setul de date Pipeline

Concluzie

Categorie

Posturi Populare

Cum se instalează Ubuntu pe WSL 2 pe Windows

Cum să opriți aplicațiile care rulează în fundal Android?

Cum se instalează AWS CLI pe Ubuntu 24.04

Enumerați procesele care rulează și timpul lor de creație - Winhelponline

Ce este int în programarea C, C++ și C#?

Cum se creează partiții manuale în Pop!_OS

De ce Docker Build nu afișează nicio ieșire de la comenzi?

Cum să aplicați decorarea textului cu Tailwind Hover, Focus și Active States

Cum să vă conectați la baza de date MongoDB pe AWS

Pandas Groupby Agregat

Cum să rezolvi codul de eroare 43 în Windows și să remediezi un GPU care funcționează defectuos

Ce sunt constantele clasei OOP în PHP?

Cum se instalează Armitage pe Kali Linux

Cum se instalează Weaviate CLI

Cum se instalează GVim pe Linux Mint 21

Metoda JavaScript Promise.race().

Pentru ce este folosit AWS Kinesis?

Ce este Minecraft Sniffer

Cum să utilizați MFA cu AWS CLI

Concatenarea șirurilor PostgreSQL