Pandas Qcut

Pandas Qcut



„Python” conține multe biblioteci, iar atunci când dorim să analizăm sau să manipulăm datele, utilizăm aceste biblioteci „Python”, iar „pandas” este și biblioteca acestuia. Biblioteca „pandas” este folosită în domeniul științelor datelor și, de asemenea, este folosită în activitățile de învățare automată. DataFrame „pandas” ne ajută să salvăm datele. În „pandas”, când dorim binarea datelor, atunci folosim metoda „qcut()”. Metoda „qcut()” este utilizată pentru a converti caracteristicile continue în cele categorice. Putem adăuga diferite tipuri de parametri în această metodă „qcut()” pentru a obține diferite tipuri de rezultate. Acest tutorial se referă la metoda „qcut()”, iar aici vom explica în detaliu metoda „qcut()”. Vă vom explica cum facem binningul de date cu ajutorul funcției „qcut()” în „pandas” în acest tutorial.”

Exemplul #01

Vom aplica metoda „qcut()” în aceste coduri și vom face aceste coduri în aplicația „Spyder”. Când trebuie să lucrăm cu „pandas”, le putem accesa funcțiile numai atunci când importăm biblioteca „pandas” în codurile noastre. Mai întâi, punem „import”, apoi scriem „pandas as pd”. Acum, trebuie să aplicăm metoda „qcut()”, așa că pentru aceasta, creăm DataFrame aici. Construim „Random_df” care conține „R_ID, R_name și R_age” drept coloane și, de asemenea, în „R_ID”, plasăm „R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 și R_81”. Apoi adăugăm „Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob și Harper” în coloana „R_name”. După aceasta, inserăm „21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 și 40” în coloana „R_age”. Acum, folosim „print(),” care conține „Random_df” și va ajuta la redarea DataFrame „Random_df”. Tocmai am creat DataFrame și nu aplicăm încă metoda „qcut()”.








Pictograma „Run” ne ajută să executăm codurile. Când apăsăm această pictogramă „run”, atunci rezultatul acestui cod este afișat pe terminalul aplicației „Spyder”. „Random_df” DataFarme este afișat ca rezultat al codului pe care l-am scris în acest exemplu. Acum, vom aplica metoda „qcut()” și vom arăta și rezultatul acesteia.




Recomandăm datele aici. Îmbinăm coloana „R_age” și plasăm metoda „pd.qcut()”, care este metoda „pandas” care ajută la binarea datelor. În această metodă, inserăm numele DataFrame-ului și, de asemenea, numele coloanei pe care dorim să aplicăm această metodă „qcut()”. De asemenea, setăm valoarea „q” la „5” și este folosită pentru a tăia datele coloanei „R_age” în cinci cuantile egale. Adăugăm metoda „qcut()” în „print()”, astfel încât va afișa și datele binning pe terminal.




Aici, datele după binning sunt afișate și taie „R_age” în cinci cuantile. De asemenea, afișează categoriile în care datele din coloana „R_age” sunt stocate. Seria categorială reprezintă containerele „R_age”.






De asemenea, putem ajusta eticheta acestor coșuri. Adăugăm aceste etichete pentru a le face ușor de interpretat. Adăugăm o coloană „R_age_qcut” la „Random_df” în care adăugăm etichetele acestor containere. Folosim din nou metoda „pd.qcut()” pentru a le eticheta. Adăugăm etichetele care sunt „mic, nu atât de puțin, mediocru, ridicat și cel mai înalt”. Apoi punem din nou „Random_df” în „print()”.


Toate pubele sunt etichetate și prezentate în acest rezultat. Coloana „R_age_qcut” este afișată în acest DataFrame în care sunt afișate binurile etichetate.



Exemplul #02

Pentru a crea DataFrame, adăugăm mai întâi „note”, care sunt „3, 6, 8, 7, 2, 5, 1, 9, 4, 7 și 8”. Apoi, adăugăm numele studenților în „elevi”, care sunt „Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard și Alexander”. Apoi generăm „Grades_df” unde am adăugat metoda „pd.DataFrame()”, iar în această metodă, punem „Std_name”, care va apărea ca nume de coloană și îi atribuim valorile „studenti”. Apoi setăm „Students_grades” ca nume de coloană al DataFrame și, de asemenea, atribuim „note” aici, pe care le-am creat mai sus. După aceasta, avem „print()” în care adăugăm „Grades_df” pentru imprimare.


DataFrame care conține două coloane este afișat în rezultatul acestui cod. Acum, vom aplica metoda „qcut()” la coloana „Students_grades” pentru gruparea datelor din valorile acestei coloane.


Adăugăm aici o nouă coloană „notă” în care am aplicat „pd.qcut()” la coloana „Students_grades” și, de asemenea, am folosit „4” pentru valoarea „q”, deci se va reduce datele în patru cuantile egale. După aceasta, specificăm aceste cuantile aici plasând valori în „q”, care sunt „0, .4, .8 și 1”. Apoi, afișăm și asta. Acum, etichetăm aceste date stocate, iar etichetele pe care le adăugăm aici sunt „D, C, A și B” și sunt, de asemenea, stocate în coloana „notă”.


Aici, datele după binning sunt afișate aici în coloana „notă” și taie datele coloanei „Students_grades” în patru cuantile egale.


DataFrame-ul pe care îl obținem după aplicarea metodei „qcut()” și specificarea cuantilelor este afișat în acest rezultat.


Acum, după adăugarea etichetelor la aceste binuri, sunt randate și în acest rezultat în coloana „notă” și puteți vedea că atribuie etichetele în funcție de valorile bin.

Exemplul #03

De asemenea, putem aplica metoda „qcut()” la datele fișierului CSV. Pentru aceasta, citim mai întâi datele fișierului CSV cu ajutorul metodei „read_csv()”. Citim datele fișierului „office2.csv”, apoi datele acestui fișier sunt plasate în „Office_df”. Această metodă va converti datele fișierului „office2” în DataFrame și le va salva în „Office_df”. Apoi, arătăm și aceste date punând „Office_df” în „print()”. După aceasta, adăugăm o nouă coloană numită „Units_qcut”, căreia îi aplicăm funcția „pd.qcut()” în coloana „Units”.

În plus, setăm valoarea variabilei „q” la „5”, care va împărți datele în cinci cuantile egale. Datele, după tăierea în 5 cuantile egale, sunt stocate în coloana „Units_qcut”, iar această coloană este adăugată și la „Office_df”, iar „Office_df” redat aici din nou folosind „print()”. Acum etichetăm aceste date grupate, adăugând etichetele în metoda „qcut()”, care sunt „Unitatea 1, Unitatea 2, Unitatea 3, Unitatea 4 și Unitatea 5” și le stochăm și în coloana „Etichete”. . Redăm și acest DataFrame în care se adaugă coloana „Etichete”.


Datele pe care le obținem după citirea fișierului „office2.csv” sunt redate aici sub formă de DataFrame. Apoi se adaugă coloana „Units_qcut”, în care sunt afișate valorile binate ale coloanei „Units”. După aceasta, se adaugă și coloana „Etichete”, care atribuie etichetele acestor valori grupate. Toate acestea se realizează folosind metoda „qcut()” în „pandas”.

Concluzie

Am explicat în detaliu metoda „qcut()” în acest tutorial, care ajută la binarea datelor în „pandas”. Am discutat că datele sunt împărțite în funcție de valoarea cuantilei „q” pe care am adăugat-o în metoda „qcut()” și, de asemenea, am ajustat etichetele la aceste date binate. Am explorat metoda „qcut()” și am aplicat această metodă coloanelor din DataFrame și, de asemenea, am aplicat această metodă „qcut()” la datele fișierului CSV după citirea fișierelor CSV. Am prezentat rezultatul tuturor codurilor în acest tutorial pentru a explica și a arăta în mod clar rezultatul metodei „qcut()”.