Metoda filtrului feței îmbrățișării ().

Metoda Filtrului Fetei Imbratisarii



Hugging Face are mai multe modele și seturi de date de procesare a limbajului natural (NLP). Aceste seturi de date enorme conțin multe informații care ajută la antrenarea corectă a modelului. Cu toate acestea, uneori nu avem nevoie de întregul set de date, deoarece avem nevoie doar de o mică parte din acesta pentru a ne satisface nevoile actuale. Dacă dorim să folosim același set de date ca de obicei cu toate informațiile, antrenamentul și optimizarea modelului necesită mult timp, ceea ce este o pierdere de timp.

Deci, avem nevoie de un fel de metodă sau pachet care să poată extrage informațiile relevante din seturile de date. Într-un limbaj simplu, putem spune că avem nevoie de o opțiune suplimentară de filtrare pentru a filtra seturile de date conform cerințelor noastre.

Hugging Face oferă diferite opțiuni pentru a filtra seturile de date, ceea ce ajută utilizatorii să creeze seturi de date personalizate care conțin doar exemple sau informații care îndeplinesc condiții specifice.







Metoda Select().

Această metodă funcționează pe o listă de indici, ceea ce înseamnă că trebuie să definim o listă. În această listă, trebuie să menționăm toate valorile de index ale acelor rânduri pe care dorim să le extragem. Dar această metodă funcționează numai pentru seturi de date mici și nu pentru seturi de date uriașe, deoarece nu putem vedea întregul set de date dacă este în GB (giga octeți) sau TB (tera octeți).



Exemplu :

set_date_nou = set de date. Selectați ( [ 0 , unsprezece , douăzeci și unu , Patru cinci , cincizeci , 55 ] )

imprimare ( numai ( set_date_nou ) )

În acest exemplu, am folosit metoda „select” pentru a filtra informațiile necesare din setul de date.



Metoda Filter().

Metoda filter() depășește problemele procesului select() deoarece nu există o condiție specifică. Metoda filter() returnează toate rândurile care se potrivesc cu o anumită situație sau condiție.





Exemplu: Salvăm acest program Python cu numele „test.py”.

din seturi de date import load_dataset

# Pasul 1: Încărcați setul de date
set de date = load_dataset ( 'imdb' )

# Pasul 2: Definiți funcția de filtrare
def filtru customizat ( exemplu ) :
'''
O funcție de filtrare personalizată pentru a păstra exemplele cu pozitive
sentiment (etichetă == 1).
'''

întoarcere exemplu [ 'eticheta' ] == 1

# Pasul 3: Aplicați filtrul pentru a crea un nou set de date filtrat
set_date_filtrate = set de date. filtru ( filtru customizat )

# Pasul 4: Verificați numele coloanelor disponibile în setul de date filtrat
imprimare ( „Coloane disponibile în setul de date filtrat:” ,
set_date_filtrate. numele_coloanelor )

# Pasul 5: Accesați informațiile din setul de date filtrat
exemple_filtrate = set_date_filtrate [ 'tren' ]
num_filtered_examples = numai ( exemple_filtrate )

# Pasul 6: Imprimați numărul total de exemple filtrate
imprimare ( „Total de exemple filtrate:” , num_filtered_examples )

Ieșire:



Explicaţie:

Linia 1: importăm pachetul load_dataset necesar din seturile de date.

Linia 4: încărcăm setul de date „imdb” folosind load_dataset.

Rândurile de la 7 la 12: definim funcția de filtrare personalizată filtru customizat pentru a păstra exemplele cu sentiment pozitiv (etichetă == 1). Această funcție returnează numai acele rânduri a căror valoare de etichetă este 1.

Linia 15: această linie arată că setul de date are datele de recenzie a filmului „imdb”. Acum aplicăm funcția de filtrare acestei baze de date pentru a separa recenziile pozitive din baza de date care este stocată în continuare în „filtered_dataset”.

Rândurile 18 și 19: Acum, verificăm ce nume de coloane sunt disponibile în filtered_dataset. Deci, codul „filtered_dataset.column_names” oferă detaliile cerințelor noastre.

Liniile 22 și 23: În aceste rânduri, filtrăm coloana „tren” a setului de date filtrate și tipărim numărul total (lungimea) coloanei de tren.

Linia 26: În această ultimă linie, imprimăm rezultatul din rândul numărul 23.

Filter() cu indici

Metoda filter() poate fi folosită și cu indici așa cum se vede în modul select(). Dar pentru asta, trebuie să menționăm că cuvântul cheie „with_indices=true” trebuie specificat în afara metodei filter() așa cum se arată în exemplul următor:

odd_dataset = set de date. filtru ( lambda exemplu , idx: idx % 2 != 0 , cu_indici = Adevărat )

imprimare ( numai ( odd_dataset ) )

În acest exemplu, am folosit metoda filter() pentru a filtra informațiile necesare din setul de date, inclusiv numai acele rânduri care sunt impare.

Detaliile complete ale fiecărui parametru al metodei filter() pot fi găsite aici legătură .

Concluzie

Biblioteca de date Hugging Face oferă un set de instrumente puternic și ușor de utilizat pentru a lucra eficient cu diverse seturi de date, în special în contextul procesării limbajului natural (NLP) și al sarcinilor de învățare automată. Funcția filter() prezentată în program permite cercetătorilor și practicienilor să extragă subseturi relevante de date prin definirea criteriilor de filtrare definite de utilizator. Folosind această funcționalitate, utilizatorii pot crea fără efort noi seturi de date care îndeplinesc condiții specifice, cum ar fi menținerea unui sentiment pozitiv în recenziile filmelor sau extragerea anumitor date text.

Această demonstrație pas cu pas ilustrează cât de ușor este să încărcați un set de date, să aplicați funcțiile de filtrare personalizate și să accesați datele filtrate. În plus, flexibilitatea parametrilor funcției permite operațiuni de filtrare personalizate, inclusiv suport pentru procesarea multiplă pentru seturi mari de date. Cu biblioteca de date Hugging Face, utilizatorii își pot eficientiza datele.