Tutorial de la Semalt despre cum să zgâriați cele mai faimoase site-uri de pe Wikipedia

Site-urile dinamice utilizează fișiere robot.txt pentru a regla și controla orice activități de răzuire. Aceste site-uri sunt protejate de termeni și politici de razuire web pentru a împiedica bloggerii și marketerii să-și răzuiască site-urile. Pentru începători, razuirea web este un proces de colectare a datelor de pe site-uri și pagini web și de salvare, apoi salvarea acestora în formate lizibile.

Preluarea datelor utile de pe site-urile web dinamice poate fi o sarcină greoaie. Pentru a simplifica procesul de extragere a datelor, webmasterii folosesc roboți pentru a obține informațiile necesare cât mai repede posibil. Site-urile dinamice cuprind directive „permită” și „respinge” care spun roboților unde este permisă răzuirea și unde nu.

Răzuind cele mai cunoscute site-uri de pe Wikipedia

Acest tutorial acoperă un studiu de caz realizat de Brendan Bailey pe site-uri de răzuire de pe Internet. Brendan a început prin colectarea unei liste cu cele mai puternice site-uri de pe Wikipedia. Scopul principal al lui Brendan a fost identificarea site-urilor web deschise către extragerea datelor web pe baza regulilor robot.txt. Dacă aveți de gând să zgâriați un site, luați în considerare vizitarea condițiilor de furnizare a site-ului pentru a evita încălcarea drepturilor de autor.

Reguli de razuire a site-urilor dinamice

Cu instrumentele de extragere a datelor web, razuirea site-ului este doar o chestiune de clic. Analiza detaliată a modului în care Brendan Bailey a clasificat site-urile Wikipedia și criteriile pe care le-a folosit sunt descrise mai jos:

Amestecat

Conform studiului de caz al lui Brendan, cele mai populare site-uri web pot fi grupate sub formă mixtă. Pe graficul plăcut, site-urile web cu un amestec de reguli reprezintă 69%. Robots.txt Google este un exemplu excelent de robots.txt mixt.

Permiteți complet

Pe de altă parte, Complete Allow, marchează 8%. În acest context, Complete Allow înseamnă că fișierul site-ului robots.txt oferă programelor automatizate accesul pentru a zgâria întregul site. SoundCloud este cel mai bun exemplu de luat. Alte exemple de site-uri Complete Allow includ:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

Nu este setat

Site-urile cu „Nu a fost setat” au reprezentat 11% din numărul total prezentat în grafic. Not Set înseamnă următoarele două lucruri: fie site-urile nu au fișier robots.txt, fie site-urile nu au reguli pentru „User-Agent”. Exemple de site-uri web în care fișierul robots.txt este „Nu este setat” includ:

  • Live.com
  • Jd.com
  • Cnzz.com

Renunțare completă

Site-urile complete Disallow interzic programele automate să-și răzuiască site-urile. Linked In este un exemplu excelent de site-uri Complete Disallow. Alte exemple de site-uri complete de refuz includ:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

Răzuirea web este cea mai bună soluție pentru a extrage date. Totuși, răzuirea unor site-uri web dinamice vă poate pune în dificultate mare. Acest tutorial vă va ajuta să înțelegeți mai multe despre fișierul robots.txt și să preveniți problemele care pot apărea în viitor.

mass gmail