Normalizarea datelor în Python

Normalization Data Python



Normalizarea datelor este o tehnică care ajută la obținerea rezultatului mai rapid, deoarece mașina trebuie să proceseze o gamă mai mică de date. Normalizarea nu este o sarcină ușoară, deoarece toate rezultatele dvs. depind de alegerea metodei dvs. de normalizare. Deci, dacă ați ales o metodă greșită pentru a vă normaliza datele, este posibil să obțineți ceva diferit de așteptările dvs.

Normalizarea depinde, de asemenea, de tipul de date, cum ar fi imagini, text, numerice etc. Deci, fiecare tip de date are o metodă diferită de normalizare. Deci, în acest articol, ne concentrăm pe datele numerice.







Metoda 1: Utilizarea sklearn

Metoda sklearn este o metodă foarte renumită pentru normalizarea datelor.





În numărul de celule [83] : Importăm toate bibliotecile necesare, NumPy și sklearn. Puteți vedea că importăm preprocesarea din sklearn în sine. De aceea aceasta este metoda de normalizare sklearn.





În numărul de celule [84] : Am creat o matrice NumPy cu o valoare întreagă care nu este aceeași.

În numărul de celule [85] : Am apelat metoda de normalizare din preprocesare și am trecut numpy_array, pe care tocmai l-am creat ca parametru.



În numărul de celule [86] : Putem vedea din rezultate, toate datele noastre întregi sunt acum normalizate între 0 și 1.

Metoda 2: Normalizați o anumită coloană dintr-un set de date folosind sklearn

De asemenea, putem normaliza coloana setului de date. În acest sens, vom discuta despre asta.


În numărul de celule [87] : Importăm pandele bibliotecii și sklearn.

În numărul de celulă [88] : Am creat un fișier CSV fals și acum încărcăm acel fișier CSV cu ajutorul pachetului pandas (read_csv).

În numărul de celulă [89] : Imprimăm fișierul CSV pe care l-am încărcat recent.

În numărul de celule [90] : Citim coloana specială a fișierului CSV folosind np. aranjează și stochează rezultatul în value_array.

În numărul de celule [92] , am apelat metoda de normalizare din preprocesare și am trecut parametrul value_array.

Metoda 3: convertiți pentru a normaliza fără a utiliza coloanele pentru a matricea (folosind sklearn)

În metoda 2 anterioară, am discutat cum am putea normaliza o anumită coloană de fișier CSV. Dar, uneori, trebuie să normalizăm întregul set de date, apoi putem folosi metoda de mai jos, unde normalizăm întregul set de date, dar de-a lungul coloanei (ax = 0). Dacă menționăm axa = 1, atunci se va normaliza în rând. Axa = 1 este valoarea implicită.


În numărul de celulă [93] : Importăm pandele bibliotecii și sklearn.

În numărul de celulă [94] : Am creat un fișier CSV fictiv (demo_numeric.csv) și acum încărcăm fișierul CSV cu ajutorul pachetului pandas (read_csv).

În numărul de celule [95] : Imprimăm fișierul CSV pe care l-am încărcat recent.

În numărul de celule [96] : Acum, trecem întregul fișier CSV împreună cu încă o axă suplimentară de parametri = 0, care spunea bibliotecii că utilizatorul dorea să normalizeze întregul set de date în funcție de coloană.

În numărul de celulă [97] , imprimăm rezultatul și normalizăm datele cu o valoare cuprinsă între 0 și 1.

Metoda 4: Utilizarea MinMaxScaler ()

Sklearn oferă, de asemenea, o altă metodă de normalizare, pe care am numit-o MinMaxScalar. Aceasta este, de asemenea, o metodă foarte populară, deoarece este ușor de utilizat.


În numărul de celulă [98] : Importăm toate pachetele necesare.

În numărul de celulă [99] : Am creat un fișier CSV fictiv (demo_numeric.csv) și acum încărcăm fișierul CSV cu ajutorul pachetului pandas (read_csv).

În numărul de celulă [100] : Imprimăm fișierul CSV pe care l-am încărcat recent.

În numărul de celule [101] : Am apelat MinMaxScalar din metoda de preprocesare și am creat un obiect (min_max_Scalar) pentru asta. Nu am trecut niciun parametru pentru că trebuie să normalizăm datele între 0 și 1. Dar dacă doriți, puteți adăuga valorile dvs. care vor fi văzute în următoarea metodă.

În numărul de celulă [102] : Mai întâi citim toate numele coloanelor pentru a le utiliza în continuare pentru a afișa rezultatele. Apoi apelăm fit_tranform din obiectul creat min_max_Scalar și am trecut fișierul CSV în acesta.

În numărul de celulă [103] : Obținem rezultatele normalizate care sunt între 0 și 1.

Metoda 5: Utilizarea MinMaxScaler (feature_range = (x, y))

Sklearn oferă, de asemenea, opțiunea de a modifica valoarea normalizată a ceea ce doriți. În mod implicit, ele normalizează valoarea între 0 și 1. Dar există un parametru pe care l-am numit feature_range, care poate seta valoarea normalizată în funcție de cerințele noastre.

În numărul de celule [104] : Importăm toate pachetele necesare.

În numărul de celule [105] : Am creat un fișier CSV fictiv (demo_numeric.csv) și acum încărcăm fișierul CSV cu ajutorul pachetului pandas (read_csv).

În numărul de celule [106] : Imprimăm fișierul CSV pe care l-am încărcat recent.

În numărul de celule [107] : Am apelat MinMaxScalar din metoda de preprocesare și am creat un obiect (min_max_Scalar) pentru asta. Dar trecem și un alt parametru în interiorul MinMaxScaler (feature_range). Valoarea parametrului a fost setată de la 0 la 2. Deci, acum, MinMaxScaler va normaliza valorile datelor între 0 și 2.

În numărul de celule [108] : Mai întâi citim toate numele coloanelor pentru a le utiliza în continuare pentru a afișa rezultatele. Apoi apelăm fit_tranform din obiectul creat min_max_Scalar și am trecut fișierul CSV în acesta.

În numărul de celule [109] : Obținem rezultatele normalizate care sunt între 0 și 2.

Metoda 6: Utilizarea scalării absolute maxime

De asemenea, putem normaliza datele folosind panda. Aceste caracteristici sunt, de asemenea, foarte populare în normalizarea datelor. Scalarea absolută maximă normalizează valorile între 0 și 1. Aplicăm aici .max () și .abs () așa cum se arată mai jos:

În numărul de celulă [110] : Importăm biblioteca pandelor.

În numărul de celule [111] : Am creat un cadru de date fictiv și l-am tipărit.

În numărul de celule [113] : Apelăm fiecare coloană și apoi împărțim valorile coloanei cu .max () și .abs ().

În numărul de celule [114] : Printăm rezultatul și, din rezultat, confirmăm că datele noastre se normalizează între 0 și 1.

Metoda 7: Utilizarea metodei scorului z

Următoarea metodă pe care o vom discuta este metoda scorului z. Această metodă convertește informațiile în distribuție. Această metodă calculează media fiecărei coloane și apoi scade din fiecare coloană și, în cele din urmă, o împarte cu abaterea standard. Acest lucru normalizează datele între -1 și 1.

În numărul de celule [115] : Am creat un cadru de date fictiv și l-am tipărit.

În numărul de celulă [117] : Calculăm media coloanei și o scădem din coloană. Apoi împărțim valoarea coloanei cu abaterea standard.

În numărul de celulă [118] : Tipărim datele normalizate între -1 și 1.

Concluzie: Am văzut diferite tipuri de metode normalizate. Dintre acestea, sklearn este foarte renumit datorită sprijinirii învățării automate. Dar asta depinde de cerințele utilizatorului. Uneori, caracteristica pandas pentru a normaliza datele este suficientă. Nu putem spune că există doar metode de normalizare deasupra. Există numeroase metode de normalizare a datelor, care depind și de tipul de date, cum ar fi imagini, numerice, text etc. Ne concentrăm asupra acestor date numerice și Python.