Cum să concatenați seturile de date în Hugging Face

Cum Sa Concatenati Seturile De Date In Hugging Face



Biblioteca „seturi de date” de la Hugging Face oferă o modalitate convenabilă de a lucra cu și de a manipula seturile de date pentru sarcini de procesare a limbajului natural. O funcție utilă care este oferită de bibliotecă este concatenate_datasets() care vă permite să concatenați mai multe seturi de date într-un singur set de date. Următoarea este o scurtă prezentare generală a funcției concatenate_datasets() și a modului de utilizare.

concatenate_datasets()

Descriere:

Biblioteca „seturi de date” a lui Hugging Face oferă funcția concatenate_datasets(). Este folosit pentru a concatena mai multe seturi de date, combinându-le într-un singur set de date de-a lungul unei axe specificate. Această funcție este utilă în special atunci când aveți mai multe seturi de date care au aceeași structură și doriți să le îmbinați într-un set de date unificat pentru procesare și analiză ulterioară.







Sintaxă:



din seturi de date import concatenate_datasets

set_date_concatenate = concatenate_datasets ( seturi de date , axă = 0 , info = Nici unul )

Parametri:

seturi de date (lista de seturi de date): o listă de seturi de date pe care doriți să le concatenați. Aceste seturi de date ar trebui să aibă caracteristici compatibile, ceea ce înseamnă că au aceeași schemă, nume de coloane și tipuri de date.



axă (int, opțional, implicit=0): axa de-a lungul căreia trebuie efectuată concatenarea. Pentru cele mai multe seturi de date NLP, se utilizează valoarea implicită de 0, ceea ce înseamnă că seturile de date sunt concatenate vertical. Dacă setați axa=1, seturile de date sunt concatenate orizontal, presupunând că au coloane diferite ca caracteristici.





info (datasets.DatasetInfo, opțional): informații despre setul de date concatenat. Dacă nu sunt furnizate, informațiile sunt deduse din primul set de date din listă.

Se intoarce:

set_date_concatenate (Setul de date): Setul de date rezultat după concatenarea tuturor seturilor de date de intrare.



Exemplu:

# Pasul 1: Instalați biblioteca de seturi de date

# Îl puteți instala folosind pip:

# !pip instalează seturi de date

# Pasul 2: importați bibliotecile necesare

din seturi de date import load_dataset , concatenate_datasets

# Pasul 3: Încărcați seturile de date de recenzie a filmului IMDb

# Vom folosi două seturi de date IMDb, unul pentru recenzii pozitive

#și altul pentru recenzii negative.

# Încărcați 2500 de recenzii pozitive

dataset_pos = load_dataset ( 'imdb' , Despică = „tren[:2500]” )

# Încărcați 2500 de recenzii negative

dataset_neg = load_dataset ( 'imdb' , Despică = „tren[-2500:]” )

# Pasul 4: Concatenați seturile de date

# Concatenăm ambele seturi de date de-a lungul axei=0, așa cum au făcut

aceeași schemă ( aceleasi caracteristici ) .

set_date_concatenate = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

# Pasul 5: Analizați setul de date concatenat

# Pentru simplitate, să numărăm numărul pozitiv și negativ

# recenzii în setul de date concatenat.

num_pozitive_reviews = sumă ( 1 pentru eticheta în

set_date_concatenate [ 'eticheta' ] dacă eticheta == 1 )

num_negative_reviews = sumă ( 1 pentru eticheta în

set_date_concatenate [ 'eticheta' ] dacă eticheta == 0 )

# Pasul 6: Afișați rezultatele

imprimare ( „Numărul de recenzii pozitive:” , num_pozitive_reviews )

imprimare ( „Numărul de recenzii negative:” , num_negative_reviews )

# Pasul 7: Imprimați câteva exemple de recenzii din setul de date concatenat

imprimare ( ' \n Câteva exemple de recenzii:' )

pentru i în gamă ( 5 ) :

imprimare ( f „Examinare {i + 1}: {concatenated_dataset['text'][i]}” )

Ieșire:

Următoarea este explicația pentru programul de bibliotecă „seturi de date” al lui Hugging Face care concatenează două seturi de date de recenzii de filme IMDb. Aceasta explică scopul programului, utilizarea acestuia și pașii implicați în cod.

Să oferim o explicație mai detaliată a fiecărui pas din cod:

# Pasul 1: Importați bibliotecile necesare

din seturi de date import load_dataset , concatenate_datasets

În acest pas, importăm bibliotecile necesare pentru program. Avem nevoie de funcția „load_dataset” pentru a încărca seturile de date de recenzie a filmului IMDb și de „concatenate_datasets” pentru a le concatena mai târziu.

# Pasul 2: Încărcați seturile de date IMDb Movie Review

# Încărcați 2500 de recenzii pozitive

dataset_pos = load_dataset ( 'imdb' , Despică = „tren[:2500]” )

# Încărcați 2500 de recenzii negative

dataset_neg = load_dataset ( 'imdb' , Despică = „tren[-2500:]” )

Aici, folosim funcția „load_dataset” pentru a prelua două subseturi ale setului de date IMDb. „dataset_pos” deține 2500 de recenzii pozitive, iar „dataset_neg” conține 2500 de recenzii negative. Folosim parametrul split pentru a specifica intervalul de exemple de încărcat, ceea ce ne permite să selectăm un subset din întregul set de date.

# Pasul 3: Concatenați seturile de date

set_date_concatenate = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

În acest pas, concatenăm cele două subseturi ale setului de date IMDb într-un singur set de date numit „concatenated_dataset”. Folosim funcția „concatenate_datasets” și o transmitem cu o listă care conține cele două seturi de date de concatenat. Deoarece ambele seturi de date au aceleași caracteristici, le concatenăm de-a lungul axei=0, ceea ce înseamnă că rândurile sunt stivuite unul peste altul.

# Pasul 4: Analizați setul de date concatenat

num_pozitive_reviews = sumă ( 1 pentru eticheta în

set_date_concatenate [ 'eticheta' ] dacă eticheta == 1 )

num_negative_reviews = sumă ( 1 pentru eticheta în

set_date_concatenate [ 'eticheta' ] dacă eticheta == 0 )

Aici, efectuăm o analiză simplă a setului de date concatenat. Folosim listele de înțelegere împreună cu funcția „sumă” pentru a număra numărul de recenzii pozitive și negative. Repetăm ​​prin label” din „concatenated_dataset” și incrementăm contorizarea ori de câte ori întâlnim o etichetă pozitivă (1) sau o etichetă negativă (0).

# Pasul 5: Afișați rezultatele

imprimare ( „Numărul de recenzii pozitive:” , num_pozitive_reviews )

imprimare ( „Numărul de recenzii negative:” , num_negative_reviews )

În acest pas, imprimăm rezultatele analizei noastre – numărul de recenzii pozitive și negative din setul de date concatenate.

# Pasul 6: Imprimați câteva exemple de recenzii

imprimare ( ' \n Câteva exemple de recenzii:' )

pentru i în gamă ( 5 ) :

imprimare ( f „Examinare {i + 1}: {concatenated_dataset['text'][i]}” )

În cele din urmă, prezentăm câteva exemple de recenzii din setul de date concatenat. Parcurgem primele cinci exemple din setul de date și imprimăm conținutul text al acestora folosind coloana „text”.

Acest cod demonstrează un exemplu simplu de utilizare a bibliotecii „seturi de date” a lui Hugging Face pentru a încărca, a concatena și a analiza seturile de date de recenzie a filmelor IMDb. Evidențiază capacitatea bibliotecii de a eficientiza gestionarea setului de date NLP și își prezintă potențialul de a construi modele și aplicații mai sofisticate de procesare a limbajului natural.

Concluzie

Programul Python care utilizează biblioteca „seturi de date” a lui Hugging Face demonstrează cu succes concatenarea a două seturi de date de recenzii de filme IMDb. Încărcând subseturile de recenzii pozitive și negative, programul le combină într-un singur set de date folosind funcția concatenate_datasets(). Apoi face o analiză simplă numărând numărul de recenzii pozitive și negative din setul de date combinat.

Biblioteca „seturi de date” simplifică procesul de manipulare și manipulare a setului de date NLP, făcându-l un instrument puternic pentru cercetători, dezvoltatori și practicieni NLP. Cu interfața sa ușor de utilizat și funcționalitățile extinse, biblioteca permite o preprocesare, explorare și transformare a datelor fără efort. Programul care este prezentat în această documentație servește ca exemplu practic al modului în care biblioteca poate fi folosită pentru a eficientiza sarcinile de concatenare și analiză a datelor.

În scenariile din viața reală, acest program poate servi ca bază pentru sarcini mai complexe de procesare a limbajului natural, cum ar fi analiza sentimentelor, clasificarea textului și modelarea limbajului. Folosind biblioteca „seturi de date”, cercetătorii și dezvoltatorii pot gestiona eficient seturile de date la scară largă, pot facilita experimentarea și pot accelera dezvoltarea modelelor NLP de ultimă generație. În general, biblioteca „seturi de date” Hugging Face reprezintă un atu esențial în urmărirea progreselor în procesarea și înțelegerea limbajului natural.