Veb-skriptning xususiyatlari - Semalt mutaxassisi

Veb kazıyıcı - bu veb-sahifalardan ma'lumot olish uchun mo'ljallangan Chrome brauzer kengaytmasi. Ushbu kengaytma yordamida saytni boshqarish va undan ma'lumot olishning eng mos usulini ko'rsatadigan sayt xaritasini yoki rejasini tuzishingiz mumkin.

Sayt xaritangizdan so'ng, veb-skript sahifani sahifaning keyingi sahifasiga yo'naltiradi va kerakli tarkibni qirib tashlaydi. Olingan ma'lumotlarni CSV yoki boshqa formatlar orqali eksport qilish mumkin. Bundan tashqari, ushbu kengaytmani Chrome do'konidan hech qanday muammosiz o'rnatish mumkin.

Web Scraper-ning ba'zi xususiyatlari quyida keltirilgan

  • Bir nechta sahifalarni qirib tashlash imkoniyati

Agar sayt xaritasida ko'zda tutilgan bo'lsa, vosita bir vaqtning o'zida bir nechta veb-sahifalardan ma'lumotlarni olish imkoniyatiga ega. Agar siz 100 sahifali veb-saytdan barcha rasmlarni chiqarib olishingiz kerak bo'lsa, har bir sahifani tekshirishingiz va qaysi rasmlari borligini va qaysi biri yo'qligini bilishingiz vaqtni talab qilishi mumkin. Shunday qilib, siz vositani rasmlarning har bir sahifasini tekshirish uchun ko'rsatma berishingiz mumkin.

  • Asbob CouchDB yoki brauzerning mahalliy xotirasida ma'lumotlarni saqlaydi
  • Asbob sayt xaritalarini va olingan ma'lumotlarni brauzer yoki CouchDB-ning mahalliy saqlash joyida saqlaydi
  • Bir nechta ma'lumotlarni chiqarishi mumkin

Ushbu vosita bir necha turdagi ma'lumotlar bilan ishlashi mumkinligi sababli, foydalanuvchilar bitta sahifada ajratib olish uchun bir nechta ma'lumotlarni tanlashlari mumkin. Masalan, u bir vaqtning o'zida veb-sahifalardan rasmlar va matnlarni qirib tashlashi mumkin

  • Dinamik sahifalardan parchalanish ma'lumotlari

Web Scraper shunchalik kuchliki, u hatto Ajax va JavaScript kabi dinamik sahifalardan ma'lumotlarni o'chirib tashlashi mumkin

  • Olingan ma'lumotlarni ko'rish imkoniyati

Asbob foydalanuvchilarga belgilangan joyda saqlanishidan oldin, kesilgan ma'lumotlarni ko'rish imkoniyatini beradi

  • U olingan ma'lumotlarni CSV sifatida eksport qiladi

Web Scraper olingan ma'lumotlarni CSV sifatida standart ravishda eksport qiladi, ammo uni boshqa formatlarda ham eksport qilishi mumkin.

  • Eksport va importning xaritalari

Xaritada xaritalarni import qilish va eksport qilish uchun sayt xaritalarini bir necha bor ishlatishingiz kerak bo'lishi mumkin.

  • Faqat Chrome brauzeriga bog'liq

Afsuski, bu afzallikning kamchiliklari. Bu faqat Chrome brauzeri bilan ishlaydi.

Boshqa ma'lumotlarni parchalash vositalari

Siz uchun foydali bo'lishi mumkin bo'lgan oddiy oddiy ma'lumotlarni qirqish vositalari mavjud. Ulardan ba'zilari quyida keltirilgan.

1. Qirqish

Ushbu ramka veb-saytingizning barcha tarkiblarini qirib tashlash uchun ishlatilishi mumkin. Tarkibni qirib tashlash uning yagona vazifasi emas. Bundan tashqari, u avtomatlashtirilgan sinov, monitoring, ma'lumotlarni qidirish, veb-saytlarni skrining, ekranli qirqish va boshqa ko'plab maqsadlarda ishlatilishi mumkin.

2. Wget

Siz butun saytni osongina qirqish uchun Wget-dan foydalanishingiz mumkin. Ammo bu vositada bir oz kamchilik bor, u CSS fayllarini tahlil qila olmaydi.

3. Shuningdek, veb-saytingiz tarkibini ajratmasdan oldin uni qirib tashlash uchun quyidagi buyruqdan foydalanishingiz mumkin:

file_put_contents ('/ some / directory / scrape_content.html', file_get_contents ('http://google.com'));