Cum se analizează datele text în R: Elementele de bază ale manipulării șirurilor

Cum Se Analizeaza Datele Text In R Elementele De Baza Ale Manipularii Sirurilor



Șirurile sunt al doilea cel mai popular tip de date în programarea R, iar manipularea șirurilor este o sarcină crucială în R. Operația de manipulare a șirurilor în R constă în mai multe funcții pentru a utiliza și a modifica datele text, inclusiv modificarea și analizarea șirurilor. În acest articol, ne vom scufunda în câteva dintre funcțiile care ne ajută în manipularea șirurilor. Aceste funcții sunt încorporate în R și utilizate în diverse scopuri pentru a efectua sarcinile șir.

Exemplul 1: Obțineți poziția modelului din șir folosind funcția Grep() în R

Pentru a extrage poziția modelului specificat din șir, se folosește funcția grep() a lui R.

grep ('i+', c ('remediere', 'divizat', 'porumb n', 'vopsea'), perl=TRUE, valoare=FALSE)

Aici, folosim funcția grep() în care modelul „+i” este specificat ca argument pentru a fi potrivit în vectorul șirurilor de caractere. Setăm vectorii de caractere care conțin patru șiruri. După aceea, setăm argumentul „perl” cu valoarea TRUE, care indică faptul că R folosește o bibliotecă de expresii regulate compatibile cu Perl, iar parametrul „valoare” este specificat cu valoarea „FALSE” care este folosită pentru a prelua indicii elementelor. în vectorul care se potrivește cu modelul.







Poziția modelului „+i” din fiecare șir de caractere vectoriale este afișată în următoarea ieșire:





Exemplul 2: Potriviți modelul folosind funcția Gregexpr() din R

În continuare, recuperăm poziția indexului împreună cu lungimea șirului particular din R folosind funcția gregexpr().





char_vec <- c('PROGRAMMINGLANGUAGE','RSCRIPT')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

Aici, setăm variabila „char_vect” unde șirurile sunt furnizate cu caractere diferite. După aceea, definim funcția gregexpr() care preia modelul de șiruri „GRAMM” pentru a se potrivi cu șirurile care sunt stocate în „char_vec”. Apoi, setăm parametrul useBytes cu valoarea „TRUE”. Acest parametru indică faptul că potrivirea ar trebui să fie realizată octet cu octet, mai degrabă decât caracter cu caracter.

Următoarea ieșire care este preluată din funcția gregexpr() reprezintă indicii și lungimea ambelor șiruri vectoriale:



Exemplul 3: Numărați numărul total de caractere din șir folosind funcția Nchar() din R

Metoda nchar() pe care o implementăm în cele ce urmează ne permite, de asemenea, să stabilim câte caractere sunt în șir:

Res <- nchar('Numără fiecare caracter')
print(Rez)

Aici, numim metoda nchar() care este setată în variabila „Res”. Metoda nchar() este furnizată cu șirul lung de caractere care este numărat de metoda nchar() și oferă numărul de caractere contor din șirul specificat. Apoi, trecem variabila „Res” metodei print() pentru a vedea rezultatele metodei nchar().

Rezultatul este primit în următoarea ieșire care arată că șirul specificat conține 20 de caractere:

Exemplul 4: Extrageți subșirul din șir folosind funcția Substring() din R

Folosim metoda substring() cu argumentele „start” și „stop” pentru a extrage subșirul specific din șir.

str <- substring(„DIMINATEA”, 2, 4)
print(str)

Aici, avem o variabilă „str” în care este apelată metoda substring(). Metoda substring() ia șirul „MORNING” ca prim argument și valoarea „2” ca al doilea argument, ceea ce indică faptul că al doilea caracter din șir urmează să fie extras, iar valoarea argumentului „4” indică faptul că al patrulea caracter urmează să fie extras. Metoda substring() extrage caracterele din șir între poziția specificată.

Următoarea ieșire afișează subșirul extras care se află între a doua și a patra poziție din șir:

Exemplul 5: Concatenați șirul folosind funcția Paste() din R

Funcția paste() din R este folosită și pentru manipularea șirurilor de caractere care concatenează șirurile specificate prin separarea delimitatorilor.

msg1 <- „Conținut”
msg2 <- „Se scrie”

lipire(msg1, msg2)

Aici, specificăm șirurile variabilelor „msg1” și, respectiv, „msg2”. Apoi, folosim metoda paste() a lui R pentru a concatena șirul furnizat într-un singur șir. Metoda paste() ia variabila șiruri ca argument și returnează un singur șir cu spațiul implicit între șiruri.

La executarea metodei paste(), rezultatul reprezintă un singur șir cu spațiul în el.

Exemplul 6: Modificați șirul utilizând funcția Substring() din R

În plus, putem actualiza șirul adăugând subșirul sau orice caracter în șir folosind funcția substring() folosind următorul script:

str1 <- „Eroi”
subșir (str1, 5, 6) <- 'ic'

cat('    Șir modificat:', str1)

Am stabilit șirul „Eroi” în variabila „str1”. Apoi, implementăm metoda substring() în care „str1” este specificat împreună cu valorile indexului „start” și „stop” ale subșirului. Metoda substring() este atribuită cu subșirul „iz” care este plasat pe poziția specificată în cadrul funcției pentru șirul dat. După aceea, folosim funcția cat() a lui R care reprezintă valoarea șirului actualizat.

Ieșirea care afișează șirul este actualizată cu cea nouă folosind metoda subșirului ():

Exemplul 7: Formatați șirul folosind funcția Format() din R

Cu toate acestea, operația de manipulare a șirurilor din R include și formatarea șirului în consecință. Pentru aceasta, folosim funcția format() unde șirul poate fi aliniat și setăm lățimea șirului specific.

placement1 <- format('Programe', lățime = 10, justificare = 'l')
placement2 <- format('Programe', lățime = 10, justificare = 'r')
placement3 <- format('Programe', width = 10, justify = 'c')

imprimare(plasare1)
imprimare(plasare2)
imprimare(plasare3)

Aici, setăm variabila „placement1” care este furnizată cu metoda format(). Trecem șirul „programe” pentru a fi formatat la metoda format(). Lățimea este setată, iar alinierea șirului este setată la stânga folosind argumentul „justify”. În mod similar, creăm încă două variabile, „placement2” și „placement2”, și aplicăm metoda format() pentru a formata corespunzător șirul furnizat.

Ieșirea afișează trei stiluri de formatare pentru același șir în următoarea imagine, inclusiv alinierea la stânga, la dreapta și la centru:

Exemplul 8: Transformați șirul în minuscule și majuscule în R

În plus, putem transforma șirul în litere mici și mari, folosind funcțiile tolower() și toupper() după cum urmează:

s1 <- „MÂNcare BUNĂ VIAȚĂ BUNĂ”
rezultat1 <- mai mic(e1)

imprimare(rezultat1)

s2 <- 'Limbajul de programare r în '
rezultat2 <- topper(s2)

imprimare (rezultat2)

Aici, oferim șirul care conține caracterele mari și mici. După aceea, șirul este păstrat în variabila „s1”. Apoi, apelăm metoda tolower() și trecem șirul „s1” în interiorul ei pentru a transforma toate caracterele din interiorul șirului în litere mici. Apoi, imprimăm rezultatele metodei tolower() care este stocată în variabila „result1”. Apoi, setăm un alt șir în variabila „s2” care conține toate caracterele cu litere mici. Aplicăm metoda toupper() acestui șir „s2” pentru a transforma șirul existent în majuscule.

Ieșirea afișează ambele șiruri în cazul specificat în următoarea imagine:

Concluzie

Am învățat diferitele modalități de a gestiona și analiza șirurile, ceea ce se numește manipulare a șirurilor. Am extras poziția personajului din șir, am concatenat diferitele șiruri și am transformat șirul în cazul specificat. De asemenea, am formatat șirul, am modificat șirul și aici sunt efectuate diverse alte operațiuni pentru a manipula șirul.