Semalt: 3 Pași Pentru Răspândirea Paginii Web PHP

Răzuirea web, denumită și extragerea datelor web sau recoltarea web, este procesul de extragere a datelor de pe un site web sau blog. Aceste informații sunt apoi utilizate pentru a stabili meta tag-uri, meta-descrieri, cuvinte cheie și link-uri către un site, îmbunătățind performanțele sale generale în rezultatele motorului de căutare.

Două tehnici principale sunt utilizate pentru a raza date:

  • Analizarea documentelor - implică un document XML sau HTML care este convertit în fișierele DOM (Document Object Model). PHP ne oferă o mare extensie DOM.
  • Expresii regulate - Este o modalitate de a razui date din documentele web sub formă de expresii obișnuite.

Problema cu datele de razuire ale site-ului web ale unei terțe părți este legată de drepturile de autor ale acestuia, deoarece nu aveți permisiunea de a utiliza aceste date. Dar cu PHP, puteți razi cu ușurință datele fără probleme legate de drepturile de autor sau de calitate scăzută. Ca programator PHP, este posibil să aveți nevoie de date de pe diferite site-uri web în scopuri de codare. Aici am explicat cum puteți obține date de pe alte site-uri în mod eficient, dar înainte de aceasta, trebuie să rețineți că la final veți obține fișiere index.php sau scrape.js.

Pașii1: creați formular pentru a introduce adresa URL a site-ului:

În primul rând, ar trebui să creați formularul în index.php făcând clic pe butonul Trimiteți și introduceți adresa URL a site-ului web pentru razuirea datelor.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Introdu URL URL a site-ului web pentru a rasfata datele

<input type = "input" name = "website_url" id = "website_url">

<input type = "submit" name = "submit" value = "Trimite">

</ Form>

Pași2: Creați funcția PHP pentru a obține date de site:

Al doilea pas este de a crea scrapes de funcție PHP în fișierul scrape.php, deoarece va ajuta la obținerea de date și utilizarea bibliotecii URL. Vă va permite, de asemenea, să vă conectați și să comunicați cu diferite servere și protocoale fără nicio problemă.

function scrapeSiteData ($ website_url) {

if (! function_exists ('curl_init')) {

die („CURL nu este instalat. Vă rugăm să instalați și încercați din nou.”);

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ site_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, adevărat);

$ output = curl_exec ($ curl);

curl_close ($ curl);

returnare $ ieșire;

}

Aici, putem vedea dacă PHP cURL a fost instalat corect sau nu. Trei cURL-uri principale trebuie utilizate în zona funcțiilor, iar curl_init () va ajuta la inițializarea sesiunilor, curl_exec () îl va executa și curl_close () va ajuta la închiderea conexiunii. Variabilele, cum ar fi CURLOPT_URL, sunt utilizate pentru a seta adresele URL ale site-ului web pe care trebuie să le creăm. Al doilea CURLOPT_RETURNTRANSFER vă va ajuta să stocați paginile razuite în formă variabilă și nu în formularul implicit, care va afișa în cele din urmă întreaga pagină web.

Pașii 3: Răzuiți date specifice de pe site-ul Web:

Este timpul să vă ocupați de funcționalitățile fișierului dvs. PHP și de a razi secțiunea specifică a paginii dvs. de web. Dacă nu doriți toate datele dintr-o adresă URL specifică, ar trebui să editați utilizând variabilele CURLOPT_RETURNTRANSFER și să evidențiați secțiunile pe care doriți să le razați.

if (isset ($ _ POST [ 'submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['site-ul_url']);

$ start_point = strpos ($ html, 'Ultimele postări');

$ end_point = strpos ($ html, '', $ start_point);

lungime $ = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, lungime $);

ecou $ html;

}

Vă sugerăm să dezvoltați cunoștințele de bază despre PHP și Expresiile obișnuite înainte de a utiliza oricare dintre aceste coduri sau de a razi un anumit blog sau site web în scopuri personale.