To má dôsledky. Z toho vyplýva, že na Googli existuje veľa užitočných údajov, a preto je potrebné tieto zlaté údaje skresliť. Získané dáta je možné použiť na kvalitnú analýzu dát a objav úžasných poznatkov. Môže to byť tiež dôležité pri získavaní skvelých informácií o výskume jedným pokusom.
Keď hovoríme o škrabaní, dá sa to urobiť pomocou nástrojov tretích strán. Dá sa to urobiť aj pomocou knižnice Python známej ako Scrapy. Aplikácia Scrapy je považovaná za jeden z najlepších nástrojov na zoškrabávanie a dá sa použiť na zoškrabanie takmer každej webovej stránky. Viac informácií sa dozviete v knižnici Scrapy.
Avšak bez ohľadu na silné stránky tejto nádhernej knižnice. Zošrotovanie údajov na Googli by mohla byť jedna ťažká úloha. Google tvrdo padá na pokusy o scraping na webe a zaisťuje, že scrapingové skripty neurobia ani 10 žiadostí o scraping za hodinu pred zakázaním adresy IP. Vďaka tomu sú skripty na scraping tretích strán a osobných webových stránok zbytočné.
Google dáva príležitosť zošrotovať informácie. Avšak všetko, čo by sa dalo urobiť, musí byť vykonané prostredníctvom rozhrania API (Application Programming Interface).
Len pre prípad, že ešte neviete, čo je aplikačné programové rozhranie, nemusíte sa ničoho obávať, pretože poskytnem krátke vysvetlenie. Podľa definície je API súborom funkcií a postupov, ktoré umožňujú vytváranie aplikácií, ktoré pristupujú k funkciám alebo údajom operačného systému, aplikácie alebo inej služby. API vám v zásade umožňuje získať prístup ku konečným výsledkom procesov bez toho, aby ste sa na nich museli podieľať. Napríklad teplotné API by vám poskytlo hodnoty Celzia / Fahrenheita miesta bez toho, aby ste tam museli ísť s teplomerom, aby ste mohli robiť merania sami.
Keď to prenesieme do rozsahu získavania informácií z Googlu, rozhranie API, ktoré by sme používali, nám umožňuje prístup k potrebným informáciám bez toho, aby sme museli písať skript, ktorý by vyškriabal stránku s výsledkami vyhľadávania Google. Prostredníctvom API môžeme jednoducho mať prístup ku konečnému výsledku (po tom, čo Google vykoná „scraping“ na ich konci) bez toho, aby sme museli písať akýkoľvek kód na škrabanie webových stránok.
Aj keď má Google veľa rozhraní API na rôzne účely, na účely tohto článku budeme používať rozhranie JSON API pre vlastné vyhľadávanie. Viac informácií o tomto API nájdete tu.
Toto API nám umožňuje bezplatne vykonať 100 vyhľadávacích dopytov denne, pričom v prípade potreby sú k dispozícii cenové plány pre ďalšie dotazy.
Vytváranie vlastného vyhľadávacieho nástroja
Aby sme mohli používať rozhranie JSON API pre vlastné vyhľadávanie, potrebovali by sme ID vlastného vyhľadávacieho nástroja. Najprv by sme však museli vytvoriť vlastný vyhľadávací nástroj, ktorý je možné vykonať tu.
Keď navštívite stránku Vlastný vyhľadávací modul, kliknutím na tlačidlo „Pridať“ vytvoríte nový vyhľadávací nástroj.
Do poľa „weby na vyhľadávanie“ zadajte „www.linuxhint.com “a do poľa„ Názov vyhľadávacieho nástroja “zadajte ľubovoľný popisný názov podľa vášho výberu (preferuje sa Google).
Teraz kliknite na „Vytvoriť“, aby ste vytvorili vlastný vyhľadávací modul, a kliknite na tlačidlo „ovládací panel“ na stránke, aby ste potvrdili úspešnosť vytvorenia.
Uvidíte sekciu „ID vyhľadávacieho nástroja“ a pod ňou ID, čo je ID, ktoré by sme potrebovali pre rozhranie API, a odkázali by sme na neho ďalej v tomto návode. ID vyhľadávacieho nástroja by malo byť súkromné.
Pred odchodom nezabudnite, že sme vložili „www.linuhint.com “skôr. S týmto nastavením by sme dostali výsledky iba zo samotného webu. Ak chcete získať bežné výsledky z celkového vyhľadávania na webe, kliknite v ponuke vľavo na „Nastavenie“ a potom na kartu „Základné“. Prejdite do sekcie „Vyhľadávanie na celom webe“ a zapnite túto funkciu.
Vytvorenie kľúča API
Po vytvorení vlastného vyhľadávacieho nástroja a získaní jeho ID by bolo potrebné vytvoriť kľúč API. Kľúč API umožňuje prístup k službe API a po vytvorení by mal byť udržiavaný v bezpečí, rovnako ako ID vyhľadávacieho nástroja.
Ak chcete vytvoriť kľúč API, navštívte webovú stránku a kliknite na tlačidlo „Získať kľúč“.
Vytvorte nový projekt a pomenujte ho popisným spôsobom. Kliknutím na tlačidlo „Ďalej“ by ste vygenerovali kľúč API.
Na nasledujúcej stránke by sme mali rôzne možnosti nastavenia, ktoré pre tento tutoriál nie sú potrebné, takže stačí kliknúť na tlačidlo „uložiť“ a sme pripravení vyraziť.
Prístup k API
Získanie ID vlastného vyhľadávania a kľúča API sme urobili dobre. Ďalej použijeme API.
Aj keď máte prístup k API v iných programovacích jazykoch, urobíme to v Pythone.
Aby ste mohli získať prístup k API pomocou Pythonu, musíte si nainštalovať klienta Google API pre Python. Toto je možné nainštalovať pomocou pip install balíka s nasledujúcim príkazom:
pip nainštalovať google-api-python-clientPo úspešnej inštalácii môžete teraz importovať knižnicu v našom kóde.
Väčšina z toho, čo sa urobí, by bolo prostredníctvom funkcie uvedenej nižšie:
od googleapiclient.objav importovať zostaviťmy_api_key = "Váš kľúč API"
my_cse_id = "Vaše ID VVN"
def google_search (search_term, api_key, cse_id, ** kwargs):
service = build ("colné vyhľadávanie", "v1", developerKey = api_key)
res = služba.cse ().zoznam (q = search_term, cx = cse_id, ** kwargs).vykonať ()
návrat res
Vo vyššie uvedenej funkcii je my_api_key a my_cse_id premenné by mali byť nahradené kľúčom API a ID vyhľadávacieho nástroja ako hodnoty reťazca.
Všetko, čo je teraz potrebné urobiť, je zavolať funkciu odovzdávajúcu hľadaný výraz, kľúč api a cse id.
result = google_search ("Káva", my_api_key, my_cse_id)tlač (výsledok)
Vyššie uvedené volanie funkcie vyhľadá kľúčové slovo „káva“ a priradí vrátenú hodnotu k výsledok premenná, ktorá sa potom vytlačí. Objekt JSON je vrátený rozhraním API pre vlastné vyhľadávanie, preto akákoľvek ďalšia analýza výsledného objektu by vyžadovala malú znalosť jazyka JSON.
To je zrejmé z nižšie uvedenej vzorky výsledku:
Vyššie vrátený objekt JSON je veľmi podobný výsledku z vyhľadávania Google:
Zhrnutie
Získavanie informácií od spoločnosti Google naozaj nestojí za stres. Rozhranie Custom Search API uľahčuje život všetkým, pretože jedinou ťažkosťou je analýza objektu JSON, ktorý obsahuje potrebné informácie. Pripomíname, že svoje ID vlastného vyhľadávacieho nástroja a hodnoty kľúčov API vždy uchovávajte v súkromí.