Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Operații cu șiruri în știința datelor prin limbajul de programare Python

Operații cu șiruri în știința datelor prin limbajul de programare Python

Pentru datele text, de asemenea, există multe posibilități de a se acționa asupra lor. Deocamdată, să învățăm doar câteva tehnici de concatenare a șirurilor (lipirea unul de capătul altuia), tăierea șirurilor (eliminarea spațiului alb (1) de la capete) și schimbarea majusculelor (mare/mic). Consultați Figura 5.2 pentru o listă.

Metodă/operator Operația
+ concatenează două șiruri
.lstrip() eliminați spațiul alb principal
.rstrip() eliminați spațiul alb final
.strip() eliminați spațiul alb de început și de final
.upper() convertește toate în majuscule
.lower() convertește toate în litere mici
.title() convertește în „majuscule de titlu” (majuscule la început pentru fiecare cuvânt)

Figura 5.2: Câteva dintre metodele Python cu șiruri.

Semnul plus este un operator, ca și cel matematic din Figura 5.1: este folosit pentru a concatena (adăuga) un șir la altul. Exemplu:

x = „Lady”
y = „Gaga”
z = x + y
print(z)

▌LadyGaga

Al doilea cuvânt începe chiar de la capătul primului; nu există spații sau semne de punctuație. Dacă doriți să inserați un spațiu, va trebui să faceți asta în mod explicit cu un șir de caractere care constă doar din un spațiu (scris ca cele trei caractere: ghilimele, spațiu, ghilimele), astfel:

first = ‘Dwayne’
last = „Johnson”
full = first + ‘ ‘ + last
print(full)

▌Dwayne Johnson

Semnele de punctuație, de asemenea, trebuie incluse literal și poate fi dificil să se scrie totul în mod corect:

first = ‘Dwayne’
last = „Johnson”
nick = ‘The Rock’
full = first + ‘ „‘ + nick + ‘” ‘ + last
print(„Don’t ya just love {}?”.format(full))

▌Don’t ya just love Dwayne „The Rock” Johnson?

Priviți acea linie care începe cu „full =” și vedeți dacă vă puteți da seama de ce fiecare semn de punctuație este acolo unde se află și de ce există spații între unele dintre ele și nu și între altele.

Apropo, iată un pic de început:

matriculation_year = „2021”
graduation_year = matriculation_year + 4
print(„Imma graduate in {}!”.format(graduation_year))

▌Imma graduate in 20214!

Ia stai așa. Asta înseamnă multă școală. Problema aici este că matriculation_year a fost definit ca un șir, nu un număr întreg (rețineți ghilimele). Deci semnul + însemna concatenare, nu adăugare. Rețineți: un șir format doar din cifre nu este același lucru cu un număr. (Dacă elimini ghilimele de pe primul rând, mama ta va respira mai ușor și vei obține rezultatul pe care îl aștepți.)

Celelalte elemente din Figura 5.2 sunt metode: au un punct inițial (“.”) și trebuie să fie numite „pe un șir” (adică, un nume de variabilă șir trebuie să le precedă imediat). De asemenea, nu acceptă argumente, ceea ce înseamnă că o pereche de banane singuratică, goală, vine după numele lor când sunt chemați. Exemple:

shop_title = ”    carl’s ICE cream    ”
print(shop_title)
print(shop_title.strip())
print(shop_title.upper())
print(shop_title.lower())
print(shop_title.title())

▌    carl’s ICE cream
▌carl’s ICE cream
▌    CARL’S ICE CREAM
▌    carl’s ice cream
▌    Carl’S Ice Cream

(Nu puteți vedea spațiile de final în rezultat, dar le puteți vedea pe cele de început.)

Puteți chiar să combinați apelurile de metodă înapoi în spate astfel:

print(shop_title.strip().upper())

▌Carl’S Ice Cream

Aceste operațiuni sunt pentru mai mult decât simplă frumusețe. Ele sunt, de asemenea, folosite pentru curățarea datelor, care este adesea necesară atunci când aveți de-a face cu seturi de date dezordonate, din lumea reală. Dacă, să zicem, ați întrebat o grămadă de oameni într-un sondaj pe web ce magazin de înghețată din Fredericksburg preferă, mulți dintre ei îl vor numi pe Carl’s: dar vor introduce majuscule în orice fel, vor uita apostroful, vor adăuga stângaci spații la un capăt (sau chiar ambele, sau chiar la mijloc), totuși toate vor avea în minte aceleași conuri de vanilie delicioase. Un pas către combinarea tuturor acestor expresii diferite la același răspuns rădăcină ar fi tăierea spațiului alb de la capete și convertirea totul în litere mici. Mai multe operații chirurgicale, cum ar fi eliminarea semnelor de punctuație sau a spațiilor din mijloc, sunt puțin mai complicate; Rămâneţi aproape.

Nota

(1) Cuvântul „spațiu alb” este o soluție generală pentru spații, file, caractere newline și aproape orice altceva invizibil.

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

© 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Transformă informația în putere cu ajutorul acestei cărți indispensabile!

Nu a fost votat 19.11 lei46.02 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Statistica pentru afaceri
Statistica pentru afaceri

Instrumentul esențial pentru decizii inteligente în mediul de afaceri!

Nu a fost votat 19.11 lei40.94 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat 19.11 lei28.68 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *