Web gyryjy aýratynlyklary - Semalt hünärmeni

Web skraperi, web sahypalaryndan maglumatlary çykarmaga gönükdirilen Chrome brauzeriniň giňeltmesi. Bu giňeltme bilen, sahypa girmek we ondan maglumatlary çykarmak üçin iň amatly usuly görkezýän sahypa kartasyny ýa-da meýilnama döredip bilersiňiz.

Sahypa kartaňyza eýerip, Web Scraper deslapky sahypanyň sahypasyna geçer we zerur mazmuny gyrar. Çykarylan maglumatlar CSV ýa-da başga formatlar hökmünde eksport edilip bilner. Mundan başga-da, bu giňeltmäni Chrome dükanyndan hiç hili kynçylyksyz gurup bolýar.

Web Scraper-iň käbir aýratynlyklary aşakda görkezilýär

  • Birnäçe sahypany döwmek ukyby

Gural, eger sahypa kartasynda göz öňünde tutulan bolsa, bir wagtyň özünde birnäçe web sahypasyndan maglumatlary çykarmak ukybyna eýedir. 100 sahypalyk web sahypasyndan ähli suratlary çykarmaly bolsaňyz, sahypalaryň hersini barlap, haýsysynyň şekiliniň bardygyny we haýsysynyň ýokdugyny bilmek üçin köp wagt gerek bolup biler. Şeýlelik bilen, gurallary her sahypany suratlar üçin barlamak üçin görkezme berip bilersiňiz.

  • Gural maglumatlary CouchDB ýa-da brauzeriň ýerli ammarynda saklaýar
  • Gural, sahypa kartalaryny we çykarylýan maglumatlary brauzeriň ýerli ammarynda ýa-da CouchDB-de saklaýar
  • Birnäçe maglumatlary çykaryp biler

Gural birnäçe görnüşli maglumat bilen işläp bilýändigi sebäpli, ulanyjylar şol bir sahypada çykarmak üçin birnäçe görnüşli maglumatlary saýlap bilerler. Mysal üçin, web sahypalaryndan suratlary we tekstleri bir wagtda gyryp biler

  • Dinamiki sahypalardan maglumatlary gyryň

Web Scraper şeýle bir güýçli welin, hatda Ajax we JavaScript ýaly dinamiki sahypalardan hem maglumatlary gyryp bilýär

  • Çykarylan maglumatlary görmek ukyby

Bu gural, ulanyjylara kesgitlenen ýerde saklanmanka-da döwülen maglumatlary görmäge mümkinçilik berýär

  • Çykarylan maglumatlary CSV hökmünde eksport edýär

Web Scraper çykarylan maglumatlary deslapky görnüşde CSV görnüşinde eksport edýär, ýöne ony başga formatlarda hem eksport edip biler.

  • Sahypa kartalaryny eksport edýär we import edýär

Sahypa kartalaryny isleg boýunça import we eksport edip biler ýaly, birnäçe gezek sahypa kartalaryny ulanmaly bolmagyňyz mümkin.

  • Diňe Chrome brauzerine bagly

Gynansagam, bu artykmaçlyk. Diňe Chrome brauzeri bilen işleýär.

Maglumatlary gyrmagyň beýleki gurallary

Size peýdaly bolup biljek käbir ýönekeý maglumatlary gyrmak gurallary bar. Olaryň käbiri aşakda görkezilen.

1. Gaplaň

Bu çarçuwany web sahypaňyzyň ähli mazmunyny gyrmak üçin ulanyp bolýar. Mazmuny döwmek onuň ýeke-täk işi däl. Şeýle hem awtomatiki synag, gözegçilik, maglumatlary gazyp almak, web gözlegleri, ekrany döwmek we başga-da köp maksatlar üçin ulanylyp bilner.

2. Wget

Şeýle hem, “Wget” -i tutuş bir web sahypasyny aňsatlyk bilen döwmek üçin ulanyp bilersiňiz. Emma bu gural bilen azajyk kemçilik bar, CSS faýllaryny derňäp bilmeýär.

3. Web sahypaňyzyň mazmunyny aýyrmazdan ozal aşakdaky buýrugy ulanyp bilersiňiz:

file_put_contents ('/ käbir / katalog / scrape_content.html', file_get_contents ('http://google.com'));

mass gmail