Cum să aplicați conducte pe un set de date în Transformers?

Cum Sa Aplicati Conducte Pe Un Set De Date In Transformers



Funcția pipeline() este o parte integrantă a bibliotecii Transformer. Este nevoie de mai multe intrări în care putem defini o sarcină de inferență, modele, mecanism de tokenizare etc. O funcție pipeline() este utilizată în principal pentru a efectua sarcini NLP pe unul sau mai multe texte. Efectuează pre-procesare la intrare și post-procesare pe baza modelului pentru a genera rezultate care pot fi citite de om și predicție precisă cu acuratețe maximă.

Acest articol acoperă următoarele aspecte:







Ce este Hugging Face Dataset Library?

O bibliotecă de date Hugging Face este un API care conține mai multe seturi de date publice și oferă o modalitate ușoară de a le descărca. Această bibliotecă poate fi importată și instalată în aplicație utilizând „ pip ” comanda. Pentru o demonstrație practică pentru descărcarea și instalarea seturilor de date ale bibliotecii Hugging Face, vizitați aceasta Link Google Colab. Puteți descărca mai multe seturi de date din Hugging Face Dataset Hub.



Aflați mai multe despre funcționarea funcției pipeline() consultând acest articol „ Cum se utilizează funcția Pipeline() în transformatoare? ”.



Cum să aplicați conducte pe un set de date în Hugging Face?

Hugging Face oferă mai multe seturi de date publice diferite care pot fi instalate cu ușurință folosind codul dintr-o singură linie. În acest articol, vom vedea o demonstrație practică a aplicării conductelor la aceste seturi de date. Există două moduri în care conductele pot fi implementate pe setul de date.





Metoda 1: Utilizarea metodei de iterație

Funcția pipeline() poate fi iterată și peste un set de date și model. În acest scop, urmați pașii menționați mai jos:

Pasul 1: Instalați Transformer Library

Pentru a instala biblioteca Transformer, furnizați următoarea comandă:



!pip instalează transformatoare

Pasul 2: importați conducte

Putem importa conducta din biblioteca Transformer. În acest scop, furnizați următoarea comandă:

din conducta de import transformatoare

Pasul 3: Implementați Pipeline

Aici, funcția pipeline() este implementată pe modelul „ gpt2 ”. Puteți descărca modele din Hugging Face Model Hub:

def imp_pipeline():
pentru x în interval (1000):
randament f'Setul de date de implementare{x}'


generate_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
pentru ieșire în generate_pipeline(imp_pipeline()):
gen_char += len(ieșire[0]['generated_text'])

În acest cod, „ generate_pipeline ” este o variabilă care conține funcția pipeline() cu modelul ” gpt2 ”. Când este numit cu „ imp_pipeline() ”, recunoaște automat datele care sunt mărite cu intervalul specificat la 1000:

Acest lucru va dura ceva timp pentru a se antrena. Link-ul către Google Colab este de asemenea dat.

Metoda 2: Utilizarea Bibliotecii de seturi de date

În această metodă, vom demonstra implementarea conductei folosind biblioteca „seturi de date”:

Pasul 1: Instalați Transformer

Pentru a instala biblioteca Transformer, furnizați următoarea comandă:

!pip instalează transformatoare

Pasul 2: Instalați Biblioteca de set de date

Dupa cum ' seturi de date ” biblioteca conține toate seturile de date publice, o putem instala folosind următoarea comandă. Prin instalarea „ seturi de date ”, putem importa direct orice set de date furnizând numele acestuia:

!pip instalează seturi de date

Pasul 3: Setul de date Pipeline

Pentru a construi o conductă pe setul de date, utilizați următorul cod. KeyDataset este o caracteristică care scoate numai acele valori care interesează utilizatorul:

din transformers.pipelines.pt_utils import KeyDataset
din conducta de import transformatoare
din seturi de date import load_dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') pentru ieșire în gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Iesirea de tiparire acum')
imprimare ('----------------')
imprimare (ieșire)

Rezultatul codului de mai sus este prezentat mai jos:

Asta este tot din acest ghid. Link-ul către Google Colab este menționat și în acest articol

Concluzie

Pentru a aplica conducte pe setul de date, putem fie să iterăm peste un set de date utilizând o funcție pipeline(), fie să folosim „ seturi de date ” bibliotecă. Hugging Face oferă utilizatorilor săi linkul de depozit GitHub atât pentru seturi de date, cât și pentru modele, care pot fi utilizate în funcție de cerințe. Acest articol a oferit un ghid cuprinzător pentru aplicarea conductelor pe un set de date în Transformers.