Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Operații cu șiruri în știința datelor prin limbajul de programare Python

Operații cu șiruri în știința datelor prin limbajul de programare Python

Pentru datele text, de asemenea, există multe posibilități de a se acționa asupra lor. Deocamdată, să învățăm doar câteva tehnici de concatenare a șirurilor (lipirea unul de capătul altuia), tăierea șirurilor (eliminarea spațiului alb (1) de la capete) și schimbarea majusculelor (mare/mic). Consultați Figura 5.2 pentru o listă.

Metodă/operator Operația
+ concatenează două șiruri
.lstrip() eliminați spațiul alb principal
.rstrip() eliminați spațiul alb final
.strip() eliminați spațiul alb de început și de final
.upper() convertește toate în majuscule
.lower() convertește toate în litere mici
.title() convertește în „majuscule de titlu” (majuscule la început pentru fiecare cuvânt)

Figura 5.2: Câteva dintre metodele Python cu șiruri.

Semnul plus este un operator, ca și cel matematic din Figura 5.1: este folosit pentru a concatena (adăuga) un șir la altul. Exemplu:

x = “Lady”
y = “Gaga”
z = x + y
print(z)

▌LadyGaga

Al doilea cuvânt începe chiar de la capătul primului; nu există spații sau semne de punctuație. Dacă doriți să inserați un spațiu, va trebui să faceți asta în mod explicit cu un șir de caractere care constă doar din un spațiu (scris ca cele trei caractere: ghilimele, spațiu, ghilimele), astfel:

first = ‘Dwayne’
last = “Johnson”
full = first + ‘ ‘ + last
print(full)

▌Dwayne Johnson

Semnele de punctuație, de asemenea, trebuie incluse literal și poate fi dificil să se scrie totul în mod corect:

first = ‘Dwayne’
last = “Johnson”
nick = ‘The Rock’
full = first + ‘ “‘ + nick + ‘” ‘ + last
print(“Don’t ya just love {}?”.format(full))

▌Don’t ya just love Dwayne “The Rock” Johnson?

Priviți acea linie care începe cu „full =” și vedeți dacă vă puteți da seama de ce fiecare semn de punctuație este acolo unde se află și de ce există spații între unele dintre ele și nu și între altele.

Apropo, iată un pic de început:

matriculation_year = “2021”
graduation_year = matriculation_year + 4
print(“Imma graduate in {}!”.format(graduation_year))

▌Imma graduate in 20214!

Ia stai așa. Asta înseamnă multă școală. Problema aici este că matriculation_year a fost definit ca un șir, nu un număr întreg (rețineți ghilimele). Deci semnul + însemna concatenare, nu adăugare. Rețineți: un șir format doar din cifre nu este același lucru cu un număr. (Dacă elimini ghilimele de pe primul rând, mama ta va respira mai ușor și vei obține rezultatul pe care îl aștepți.)

Celelalte elemente din Figura 5.2 sunt metode: au un punct inițial (“.”) și trebuie să fie numite „pe un șir” (adică, un nume de variabilă șir trebuie să le precedă imediat). De asemenea, nu acceptă argumente, ceea ce înseamnă că o pereche de banane singuratică, goală, vine după numele lor când sunt chemați. Exemple:

shop_title = ”    carl’s ICE cream    ”
print(shop_title)
print(shop_title.strip())
print(shop_title.upper())
print(shop_title.lower())
print(shop_title.title())

▌    carl’s ICE cream
▌carl’s ICE cream
▌    CARL’S ICE CREAM
▌    carl’s ice cream
▌    Carl’S Ice Cream

(Nu puteți vedea spațiile de final în rezultat, dar le puteți vedea pe cele de început.)

Puteți chiar să combinați apelurile de metodă înapoi în spate astfel:

print(shop_title.strip().upper())

▌Carl’S Ice Cream

Aceste operațiuni sunt pentru mai mult decât simplă frumusețe. Ele sunt, de asemenea, folosite pentru curățarea datelor, care este adesea necesară atunci când aveți de-a face cu seturi de date dezordonate, din lumea reală. Dacă, să zicem, ați întrebat o grămadă de oameni într-un sondaj pe web ce magazin de înghețată din Fredericksburg preferă, mulți dintre ei îl vor numi pe Carl’s: dar vor introduce majuscule în orice fel, vor uita apostroful, vor adăuga stângaci spații la un capăt (sau chiar ambele, sau chiar la mijloc), totuși toate vor avea în minte aceleași conuri de vanilie delicioase. Un pas către combinarea tuturor acestor expresii diferite la același răspuns rădăcină ar fi tăierea spațiului alb de la capete și convertirea totul în litere mici. Mai multe operații chirurgicale, cum ar fi eliminarea semnelor de punctuație sau a spațiilor din mijloc, sunt puțin mai complicate; Rămâneţi aproape.

Nota

(1) Cuvântul „spațiu alb” este o soluție generală pentru spații, file, caractere newline și aproape orice altceva invizibil.

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

© 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile
Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2,99$6,88 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.