Cum să utilizați seturile de date Hugging Face

Cum Sa Utilizati Seturile De Date Hugging Face



Aplicabilitatea și capacitatea de utilizare a modelelor de învățare automată sunt testate pe date. Fiabilitatea testelor depinde în mare măsură de cantitatea și calitatea datelor pe care se aplică aceste modele. Este o sarcină completă în sine să creați, să obțineți și să curățați un set de date suficient de mare pentru a vă testa „ Procesarea limbajului natural (NLP) ” Model de învățare automată.

Hugging Face oferă o soluție excelentă pentru aceasta, cu biblioteca sa excepțional de mare de seturi de date din care să alegeți și să găsiți pe cel care se potrivește perfect cerințelor dumneavoastră. Aici, vă vom arăta cum să găsiți setul de date ideal și să-l pregătiți pentru a vă testa în mod adecvat modelul.







Cum să utilizați seturile de date Hugging Face?

Vă vom arăta cum să utilizați seturile de date Hugging Face folosind exemplul „ TinyStories ” Setul de date de la Hugging Face.



Exemplu

Setul de date TinyStories are peste 2 milioane de rânduri de date în diviziunea trenului și are peste 2 mii de descărcări pe platforma Hugging Face. Îl vom folosi în codul din Google Colab prezentat mai jos:



! pip instalare transformatoare
! pip instalare seturi de date

din seturi de date import load_dataset

set de date = încărcare_set de date ( „roneneldan/TinyStories” )

TinyStories_Story = 3
example_string = set de date [ 'tren' ] [ TinyStories_Story ] [ 'text' ]

imprimare ( exemplu_șir )


În acest cod, luați în considerare pașii de mai jos:





Pasul 01 : Primul pas este „ instalare ” de seturi de date transformatoare.

Pasul 02 : Apoi, importați setul de date necesar, „ TinyStories ” în proiectul tău.



Pasul 03 : Apoi, încărcați setul de date selectat folosind butonul „ load_dataset() ”funcție.

Pasul 04 : Acum, specificăm numărul Story pe care îl dorim din setul de date TinyStories. Am specificat numărul 03 în exemplul nostru de cod.

Pasul 05 : În sfârșit, vom folosi metoda „print()” pentru a afișa rezultatul.

Ieșire



Notă: Codul și rezultatul pot fi, de asemenea, vizualizate direct în Google Colab .

Concluzie

Seturi de date Hugging Face ” face incredibil de eficient pentru utilizatori să își testeze modelele de învățare automată în timp ce importă direct seturi de date mari din biblioteca lor online. Ca rezultat, aplicarea algoritmilor NLP a devenit mai ușoară și mai rapidă, deoarece programatorii își pot testa proiectele pe un set de date care are atât calitate, cât și cantitate.