Tutorial de la Semalt despre cum să zgâriați cele mai faimoase site-uri de pe Wikipedia

Site-urile dinamice utilizează fișiere robot.txt pentru a regla și controla orice activități de răzuire. Aceste site-uri sunt protejate de termeni și politici de razuire web pentru a împiedica bloggerii și marketerii să-și răzuiască site-urile. Pentru începători, razuirea web este un proces de colectare a datelor de pe site-uri și pagini web și de salvare, apoi salvarea acestora în formate lizibile.
Preluarea datelor utile de pe site-urile web dinamice poate fi o sarcină greoaie. Pentru a simplifica procesul de extragere a datelor, webmasterii folosesc roboți pentru a obține informațiile necesare cât mai repede posibil. Site-urile dinamice cuprind directive „permită” și „respinge” care spun roboților unde este permisă răzuirea și unde nu.
Răzuind cele mai cunoscute site-uri de pe Wikipedia
Acest tutorial acoperă un studiu de caz realizat de Brendan Bailey pe site-uri de răzuire de pe Internet. Brendan a început prin colectarea unei liste cu cele mai puternice site-uri de pe Wikipedia. Scopul principal al lui Brendan a fost identificarea site-urilor web deschise către extragerea datelor web pe baza regulilor robot.txt. Dacă aveți de gând să zgâriați un site, luați în considerare vizitarea condițiilor de furnizare a site-ului pentru a evita încălcarea drepturilor de autor.
Reguli de razuire a site-urilor dinamice
Cu instrumentele de extragere a datelor web, razuirea site-ului este doar o chestiune de clic. Analiza detaliată a modului în care Brendan Bailey a clasificat site-urile Wikipedia și criteriile pe care le-a folosit sunt descrise mai jos:
Amestecat
Conform studiului de caz al lui Brendan, cele mai populare site-uri web pot fi grupate sub formă mixtă. Pe graficul plăcut, site-urile web cu un amestec de reguli reprezintă 69%. Robots.txt Google este un exemplu excelent de robots.txt mixt.

Permiteți complet
Pe de altă parte, Complete Allow, marchează 8%. În acest context, Complete Allow înseamnă că fișierul site-ului robots.txt oferă programelor automatizate accesul pentru a zgâria întregul site. SoundCloud este cel mai bun exemplu de luat. Alte exemple de site-uri Complete Allow includ:
- fc2.comv
- popads.net
- uol.com.br
- livejasmin.com
- 360.cn
Nu este setat
Site-urile cu „Nu a fost setat” au reprezentat 11% din numărul total prezentat în grafic. Not Set înseamnă următoarele două lucruri: fie site-urile nu au fișier robots.txt, fie site-urile nu au reguli pentru „User-Agent”. Exemple de site-uri web în care fișierul robots.txt este „Nu este setat” includ:
- Live.com
- Jd.com
- Cnzz.com
Renunțare completă
Site-urile complete Disallow interzic programele automate să-și răzuiască site-urile. Linked In este un exemplu excelent de site-uri Complete Disallow. Alte exemple de site-uri complete de refuz includ:
- Naver.com
- Facebook.com
- Soso.com
- Taobao.com
- T.co
Răzuirea web este cea mai bună soluție pentru a extrage date. Totuși, răzuirea unor site-uri web dinamice vă poate pune în dificultate mare. Acest tutorial vă va ajuta să înțelegeți mai multe despre fișierul robots.txt și să preveniți problemele care pot apărea în viitor.