V tomto článku sa budeme zaoberať niektorými spôsobmi prehľadávania webových stránok, vrátane nástrojov na prehľadávanie webu a spôsobu použitia týchto nástrojov pre rôzne funkcie. Medzi nástroje diskutované v tomto článku patria:
- HTTrack
- Cyotek WebCopy
- Grabber obsahu
- ParseHub
- OutWit Hub
HTTrack
HTTrack je bezplatný a otvorený softvér, ktorý sa používa na sťahovanie údajov z webových stránok na internete. Jedná sa o ľahko použiteľný softvér vyvinutý spoločnosťou Xavier Roche. Stiahnuté dáta sú uložené na localhost v rovnakej štruktúre ako na pôvodnom webe. Postup použitia tohto pomocného programu je nasledovný:
Najskôr nainštalujte HTTrack do svojho počítača spustením nasledujúceho príkazu:
[chránené e-mailom]: ~ $ sudo apt-get install httrackPo inštalácii softvéru spustite nasledujúci príkaz na prehľadanie webu. V nasledujúcom príklade sa budeme plaziť linuxhint.com:
[chránené e-mailom]: ~ $ httrack http: // www.linuxhint.com -o ./Vyššie uvedený príkaz načíta všetky údaje zo stránky a uloží ich do aktuálneho adresára. Nasledujúci obrázok popisuje, ako používať httrack:
Z obrázku vidíme, že údaje z webu boli načítané a uložené v aktuálnom adresári.
Cyotek WebCopy
Cyotek WebCopy je bezplatný softvér na prehľadávanie webu, ktorý sa používa na kopírovanie obsahu z webovej stránky do localhost. Po spustení programu a zadaní odkazu na web a cieľového priečinka sa celý web skopíruje z danej adresy URL a uloží sa do localhost. Stiahnuť ▼ Cyotek WebCopy z nasledujúceho odkazu:
https: // www.cyotek.com / cyotek-webcopy / na stiahnutie
Po inštalácii sa pri spustení webového prehľadávača zobrazí okno na obrázku nižšie:
Po zadaní adresy URL webovej stránky a určení cieľového priečinka v požadovaných poliach kliknite na tlačidlo kopírovať, čím začnete kopírovať údaje zo stránky, ako je uvedené nižšie:
Po skopírovaní údajov z webovej stránky nasledujúcim spôsobom skontrolujte, či boli údaje skopírované do cieľového adresára:
Na obrázku vyššie sú všetky údaje z webu skopírované a uložené v cieľovom umiestnení.
Grabber obsahu
Content Grabber je cloudový softvérový program, ktorý sa používa na extrakciu údajov z webových stránok. Môže extrahovať údaje z ľubovoľného viacštruktúrového webu. Grabber obsahu si môžete stiahnuť z nasledujúceho odkazu
http: // www.tucows.com / preview / 1601497 / Content-Grabber
Po inštalácii a spustení programu sa zobrazí okno, ako je znázornené na nasledujúcom obrázku:
Zadajte adresu URL webovej stránky, z ktorej chcete extrahovať údaje. Po zadaní adresy URL webových stránok vyberte prvok, ktorý chcete skopírovať, ako je uvedené nižšie:
Po výbere požadovaného prvku začnite kopírovať údaje zo stránky. Mal by vyzerať ako nasledujúci obrázok:
Údaje extrahované z webu sa predvolene uložia na nasledujúce miesto:
C: \ Users \ používateľské meno \ Document \ Content GrabberParseHub
ParseHub je bezplatný a ľahko použiteľný nástroj na prehľadávanie webu. Tento program dokáže kopírovať obrázky, text a ďalšie formy údajov z webovej stránky. Kliknutím na nasledujúci odkaz si stiahnete ParseHub:
https: // www.parsehub.com / quickstart
Po stiahnutí a inštalácii ParseHub spustite program. Zobrazí sa okno, ako je uvedené nižšie:
Kliknite na „Nový projekt“, zadajte adresu URL do adresného riadku webovej stránky, z ktorej chcete získať údaje, a stlačte kláves Enter. Ďalej kliknite na „Spustiť projekt na tejto adrese URL.“
Po výbere požadovanej stránky kliknite na položku „Získať údaje“ na ľavej strane a prehľadajte webovú stránku. Zobrazí sa nasledujúce okno:
Kliknite na „Spustiť“ a program požiada o typ údajov, ktorý chcete stiahnuť. Vyberte požadovaný typ a program si vyžiada cieľový priečinok. Nakoniec uložte údaje do cieľového adresára.
OutWit Hub
OutWit Hub je webový prehľadávač používaný na extrakciu údajov z webových stránok. Tento program dokáže extrahovať obrázky, odkazy, kontakty, údaje a text z webovej stránky. Jediným požadovaným krokom je zadanie adresy URL webovej stránky a výber typu údajov, ktorý sa má extrahovať. Stiahnite si tento softvér z nasledujúceho odkazu:
https: // www.prešibaný.com / products / hub /
Po inštalácii a spustení programu sa zobrazí nasledujúce okno:
Do poľa zobrazeného na obrázku vyššie zadajte adresu URL webových stránok a stlačte kláves Enter. V okne sa zobrazí webová stránka, ako je uvedené nižšie:
Na ľavom paneli vyberte typ údajov, ktorý chcete extrahovať z webovej stránky. Nasledujúci obrázok presne ilustruje tento proces:
Teraz vyberte obrázok, ktorý chcete uložiť na localhost, a kliknite na tlačidlo exportu označené na obrázku. Program si vyžiada cieľový adresár a uloží údaje do tohto adresára.
Záver
Webové prehľadávače sa používajú na extrakciu údajov z webových stránok. Tento článok pojednáva o niektorých nástrojoch na prehľadávanie webu a o tom, ako ich používať. O použití každého webového prehľadávača sa diskutovalo krok za krokom s obrázkami, kde to bolo potrebné. Dúfam, že po prečítaní tohto článku bude pre vás jednoduché tieto nástroje prehľadávať.