Coloana Sumei Pandas

Coloana Sumei Pandas



„Acest articol va demonstra cum să însumați toate coloanele sau anumite coloane dintr-un Pandas DataFrame folosind Python. Funcția DataFrame.sum() va fi folosită împreună cu câțiva parametri utili în numeroasele exemple ale acestui tutorial.”

Când acest tutorial se termină, este posibil să știți cum să:







    • Găsiți suma coloanei cadru de date din Pandas.
    • Adăugarea coloanelor din cadrul de date
    • Adăugați coloane la un cadru de date Pandas care îndeplinesc condiția specificată.
    • Determinați suma după gruparea datelor din cadrul de date.

Cum se determină suma coloanelor Dataframe?

Funcția „dataframe.sum()” din Pandas returnează suma totală pentru axa specificată. Dacă intrarea este o axă a indexului, funcția adaugă valorile fiecărei coloane individual, apoi face același lucru pentru fiecare coloană, returnând o serie care stochează suma datelor/valorilor din fiecare coloană. În plus, acceptă calcularea sumei cadrului de date ignorând valorile lipsă.



Sintaxă: DataFrame.sum(axis = None, skipna = None, level = None, numeric_only = None, min_count = 0, **kwargs)



Unde,





axă: {coloane (1), index (0)}

Ordin: Ignorați valorile NA/nule atunci când calculați rezultatul.



nivel: Dacă axa specificată este ierarhică (un multi-index), numărați până la un anumit nivel de index înainte de a o transforma într-o serie.

numeric_only: Doar coloanele float, int și boolean sunt acceptabile. Dacă nu există, încercați să utilizați totul; dacă nu, doar date numerice. Pentru serii, nu este implementat.

min_count: Numărul de valori posibile necesare pentru a finaliza operația. Rezultatul va fi NA dacă există mai puține valori non-NA prezente decât min_count.

Se intoarce: DataFrame (dacă este specificat nivelul) sau Series.

Exemplul # 01: Determinați suma unei coloane de cadru de date și a tuturor coloanelor

Am solicitat mai întâi un cadru de date cu tipurile de date valide, adică int, float etc., coloana sau coloanele pentru care putem găsi suma datelor. Cadrul de date va fi creat folosind funcția pd.DataFrame().


Am creat cadrul de date necesar dintr-un dicționar python în cadrul funcției pd.DataFrame(). În cadrul de date creat mai sus, există patru coloane „Nume”, „ziua1”, „ziua2” și „ziua3”. Din cele patru coloane, cele trei coloane, adică „ziua1”, „ziua2” și „ziua3” sunt coloane numerice cu valorile datelor (4, 4, 3, 2, 4, 6, 5, 3), (2, 4, 5, 2, 3, 4, 6, 2) și respectiv (7, 4, 3, 5, 6, 2, 1, 4). Putem găsi doar suma pentru aceste trei coloane. Suma pentru ambele serii (adică, o coloană) și un întreg cadru de date poate fi determinată folosind metoda sum(). Să începem prin a învăța cum să însumăm toate datele dintr-o coloană Pandas.


Pentru a determina suma, am folosit metoda sum() pe coloana „day2”. Funcția a returnat valoarea sumei 28. Similar cu aceasta, putem determina suma fiecărei coloane Dataframe. Simpla utilizare a metodei sum() în întregul cadru de date va realiza acest lucru.


După cum se vede, suma coloanei „day1” este 31; pentru „ziua 2”, valoarea sumei este 28, în timp ce, pentru coloana „ziua 3”, valoarea sumei este 32.

Exemplul # 02: Utilizarea funcției sum() pentru a suma valorile coloanei Dataframe împreună

După cum puteți vedea din rezultatul exemplului anterior, funcția nu a returnat datele reale din coloana cadrului de date care au alcătuit suma. Cu toate acestea, atribuind metoda „DataFrame.sum()”  unei coloane DataFrame, puteți accesa fiecare coloană din DataFrame, inclusiv coloana sumă. Mai întâi, creăm un alt cadru de date pentru acest exemplu.


Folosind pd.DataFrame() cadrul nostru de date a fost creat. Am creat cadrul de date cu trei coloane: articol, preț și taxă. Elementul de coloană care conține valorile șirului („pix”, „marker”, „riglă”, „radieră”, „creion”, „clipboard”, „capsator”, „ace”), prețul coloanei care stochează valorile (20, 15, 10, 3, 5, 30, 35, 10), iar coloana „taxă” este formată din valori (8, 5, 3, 3, 4, 10, 5, 2). Acum să adunăm valorile coloanei de preț și taxe și să stocăm rezultatele într-o coloană nouă, păstrând coloanele din cadrul de date inițiale.


După cum se poate observa împreună cu noua coloană „total”, coloanele originale ale cadrului de date dat sunt, de asemenea, returnate de funcție. Coloana „total” stochează suma valorilor coloanelor „preț” și „taxă” în raport cu datele fiecărui „articol”.

Exemplul # 03: Utilizarea funcției sum() pentru a determina suma coloanelor din cadrul de date specificate

Pentru a suma mai multe coloane ale cadrului de date, putem specifica o listă cu etichetele coloanelor și apoi aplicăm metoda sum() pe listă pentru a găsi suma. Ca și exemplele anterioare, vom crea mai întâi cadrul de date.


Am creat cadrul nostru de date cu patru coloane „studenti”, „note1”, „note2” și „note3”. Coloana „studenti” stochează datele („Larry”, „James”, „Rob”, „Arya”, „Max”, „Ben”, „Gwen”, „Bill”), iar coloana „marks1” stochează valorile (8, 9, 6, 8, 10, 7, 9, 9), în timp ce coloanele „marks2” și „marks3” stochează valorile numerice (6, 6, 8, 6, 7, 9, 10, 9). ) și respectiv (7, 6, 9, 7, 8, 7, 10, 10).


În primul rând, am creat un obiect listă cu etichete de coloană „studenti”, „note1” și „note3”. Apoi metoda sum() este aplicată listei. Funcția a însumat valorile coloanelor note1 și note3 doar pentru că coloana „elevi” este nenumerică, deci funcția sum() nu poate găsi suma pentru valorile coloanei „elevi”. Am stocat suma valorilor coloanelor „marks1” și „marks3” în coloana „sum”.

Exemplul # 04: Adăugați coloane ale cadrului de date Pandas care satisfac o condiție specificată

În acest exemplu, vom adăuga valorile coloanelor specificate dacă îndeplinesc condiția specificată.


Există 5 coloane în cadrul de date nou creat, adică „companie”, „săptămâna1_vânzări”, „săptămâna2_vânzări”, „săptămâna3_vânzări” și „sucursale”. Acum, să presupunem că nu vrem să adăugăm valoarea ultimei coloane atunci când adăugăm sau găsim suma valorilor rândurilor date cadru de date. Să presupunem că am vrut doar să adăugăm valorile coloanei cu cuvântul „săptămână” în etichetele lor. O listă de înțelegere poate fi creată pentru a determina dacă cuvântul „săptămână” este prezent într-o etichetă de coloană sau nu.


Acum am preluat coloanele care au cuvântul „săptămână” în etichete. Putem rezuma coloanele care conțin cuvântul „săptămână” folosind argumentul axa=1 din funcția sum().


În acest fel, putem rezuma în siguranță datele pe rând pe rând, fără a include coloanele pe care nu le dorim.

Exemplul # 5: Determinați suma după gruparea datelor din cadrul de date

Putem găsi, de asemenea, suma coloanelor din cadrul de date după gruparea datelor uneia sau mai multor coloane. Metoda groupby() va fi folosită pentru a grupa datele în categorii în interiorul coloanei. Să creăm un cadru de date, astfel încât să putem grupa datele uneia dintre coloanele sale.


Acum vom grupa datele în coloana „vârstă” și vom suma valorile coloanelor „score1” și „score2” pentru fiecare categorie a grupului.


Putem vedea că însumarea datelor din cadrul de date după gruparea mai întâi a valorilor datelor în funcție de vârstă are ca rezultat o sumă pe coloane, în funcție de grupele de vârstă.

Concluzie

În acest tutorial, am încercat să vă învățăm cum să calculați suma între cadre de date folosind metoda sumei Pandas. Am discutat despre adăugarea valorilor pe rând și pe coloane în exemplele acestei postări. În plus, ați învățat cum să adăugați coloane condiționat și cum să însumați valorile după gruparea coloanei din cadrul de date. Acum este posibil să puteți însumați coloanele cadrului de date împreună sau să însumați singur valorile din cadrul coloanei cadrului de date.