Amazon Redshift este o soluție cloud oferită de AWS care îndeplinește scopul unui depozit de date. Un depozit de date este un spațiu mare în cloud care stochează cantități enorme de date. Diferența dintre un depozit de date și o bază de date este că primul nu stochează doar datele curente, ci și istoricul complet al datelor.
Acest articol va afla despre Amazon Redshift de la AWS și despre tipurile de date pe care le acceptă acest serviciu.
Ce este Amazon RedShift?
Este o soluție cloud pentru depozitarea datelor pe care se bazează „PostgreSQL” . Utilizează o tehnologie numită „Procesare masiv paralelă (MPP)” pentru a procesa petaocteți de date la viteze fulgerătoare. Aceasta oferă o soluție ușoară pentru predicție în timp real, bazată pe date istorice și soluții de streaming.
Următoarea figură arată mecanismul de lucru al Amazon Redshift:
Această explicație grafică a modului în care funcționează Amazon Redshift este foarte simplă și clară. Ne oferă informații despre modul în care datele sunt preluate și procesate în continuare pentru a genera rezultate și a crea aplicații bazate pe date.
Arhitectura depozitului de date a Amazon Redshift poate fi văzută și în figura de mai jos:
Acum, ne vom îndrepta către utilizările și caracteristicile acestui serviciu.
Caracteristici
După cum sa menționat deja, Amazon Redshift se bazează pe PostgreSQL și folosește o tehnologie numită Massively Parallel Processing, care îi permite să proceseze petabytes de date în cel mai scurt timp. Prin urmare, Redshift oferă un număr bun de caracteristici și utilizări. Unele dintre aceste caracteristici sunt mai jos:
- Securitatea datelor și criptarea.
- Analiza afacerilor.
- Suport pentru aplicații bazat pe date.
- Analiza predictivă.
- Repetarea automată a sarcinilor.
- Scalare simultană a datelor.
- Depozitarea datelor.
Câteva caracteristici suplimentare ale acestui serviciu pot fi văzute în figura de mai jos:
Acestea au fost cele mai multe dintre caracteristicile oferite de Redshift și acum vom trece la tipurile de date acceptate de acest serviciu.
Tipuri de date
Amazon Redshift este o soluție de depozitare de date cu un număr mare de caracteristici. Acceptă atât tipurile de date structurate, cât și cele nestructurate. Deoarece se bazează pe PostgreSQL, datele pot fi manipulate prin interogări SQL simple.
Acum, apare o altă întrebare, și anume, cum diferă aceste formate de date între ele? Să discutăm aceste două formate de date.
Date structurate
Un tip de date foarte formatat care este ușor tradus de algoritmi de învățare automată se numește date structurate. O bază de date SQL funcționează cu date structurate. Datele structurate sunt în formă tabelară, cum ar fi datele utilizate de bazele de date relaționale
Unul dintre sistemele de gestionare a bazelor de date SQL utilizate pe scară largă este MYSQL. Arhitectura sa poate fi văzută mai jos în figura dată:
Date nestructurate
Datele nestructurate sunt date fără model și format mai puțin, cum ar fi datele utilizate în bazele de date non-relaționale. MongoDB este o bază de date faimoasă non-relațională. Interogările SQL nu funcționează pe baze de date non-relaționale, așa că aceste baze de date sunt numite și baze de date NoSQL.
După cum sa menționat deja, MongoDB este un sistem de gestionare a bazelor de date nestructurat, iar arhitectura sa poate fi văzută mai jos în figura dată:
Am trecut prin cele două tipuri de date fundamentale utilizate în bazele de date și acum ne vom îndrepta către tipurile de date reale care sunt acceptate de Amazon Redshift. Aceste tipuri de date sunt:
- Date numerice
- Date de caractere
- Date time
- Date booleene
- Date HLLSKETCH
- SUPER Date
- Date de ÎNLOCUIRE
Să discutăm despre aceste tipuri de date:
Date numerice
Acest tip de date se explică de la sine. Acceptă date sub formă de numere întregi, zecimale, virgulă mobilă și alte tipuri de date numerice.
Caracteristicile tipului de date întregi pot fi văzute în figura de mai jos:
Tipul de date zecimal stochează datele pe baza preciziei de la utilizator. Caracteristicile sale sunt următoarele:
Date de caractere
Tipurile de date CHAR și VARCHAR se încadrează în categoria tipurilor de date bazate pe caractere. NCHAR și NVARCHAR sunt, de asemenea, tipuri de date de tip caracter. Spre deosebire de CHAR și VARCHAR, aceste două tipuri de date stochează caractere Unicode cu lungime fixă. Să ne uităm la proprietățile acestor tipuri de date, cum ar fi:
- CHAR, CHARACTER, NCHAR au o gamă de 4KB.
- VARCHAR, NVARCHAR are o gamă de 64KB.
- BPCHAR are o gamă de 256 de octeți.
- TEXT are o gamă de 260 de octeți.
Date time
Tipurile de date Datetime sunt DATE, TIME, TIMETZ,TIMESTAMP, TIMESTAMPTZ. Capacitățile funcționale ale acestor tipuri de date sunt după cum urmează:
- DATE stochează pur și simplu datele calendaristice.
- TIME stochează ora fără referire la niciun fus orar. Este UTC, în mod implicit.
- TIMETZ stochează ora în raport cu fusul orar. În mod implicit, este UTC atât în tabelele de utilizator, cât și în tabelele de sistem.
- TIMESTAMP nu include doar ora, ci și datele. Este UTC atât în tabelele de utilizator, cât și în tabelele de sistem, în mod implicit.
- TIMESTAMPTZ nu include doar ora, ci și datele. Este UTC numai în tabelele de utilizatori, implicit.
Date booleene
Tipul de date boolean este un tip de date binar, ceea ce înseamnă că există doar două valori. Tabelul de caracteristici pentru tipul de date boolean este prezentat mai jos în figură:
Date HLLSKETCH
Acest tip de date este utilizat pentru stocarea schițelor. Redshift poate reprezenta schițele fie în formă rară, fie în formă densă. Schițele încep ca rare și devin treptat dense atunci când un format dens oferă mai multă eficiență urmând linkul.
SUPER Date
Acest tip de date se ocupă de date nestructurate care pot fi sub formă de matrice, structuri imbricate sau JSON. Nu există nici un model sau format al datelor. Utilizatorii pot explora mai multe informații navigând pe link.
Date de ÎNLOCUIRE
Acest tip de date stochează și caractere. Cu toate acestea, lungimea este limitată. Amazon Redshift permite turnarea datelor VARBYTE în orice tip de întreg sau tip de caracter. Pentru a obține mai multe informații despre acest tip de date, urmați linkul de mai jos.
Acesta este tot ceea ce are Amazon Redshift și tipurile de date pe care le acceptă.
Concluzie
Amazon Redshift este un serviciu AWS care, în forma sa de bază, servește scopului unui depozit de date, dar este o soluție foarte puternică și caracteristică pentru analiză și predicție. Acest articol a discutat despre Redshift și tipurile de date pe care le acceptă. Aceste tipuri de date au fost explicate pe scurt împreună cu caracteristicile lor.