Python

Používanie rozhrania Google Search API s Pythonom

Používanie rozhrania Google Search API s Pythonom
Nie je žiadnou novinkou, že Google je najväčší vyhľadávací nástroj na svete. Mnoho ľudí pôjde navyše, aby sa ich obsah umiestnil vysoko na Googli pred akýmkoľvek iným vyhľadávačom. Vďaka tomu má Google veľa kvalitných výsledkov pre každé vyhľadávanie a s vynikajúcimi hodnotiacimi algoritmami môžete očakávať, že získate najlepšie výsledky vyhľadávania na Googli.

To má dôsledky. Z toho vyplýva, že na Googli existuje veľa užitočných údajov, a preto je potrebné tieto zlaté údaje skresliť. Získané dáta je možné použiť na kvalitnú analýzu dát a objav úžasných poznatkov. Môže to byť tiež dôležité pri získavaní skvelých informácií o výskume jedným pokusom.

Keď hovoríme o škrabaní, dá sa to urobiť pomocou nástrojov tretích strán. Dá sa to urobiť aj pomocou knižnice Python známej ako Scrapy. Aplikácia Scrapy je považovaná za jeden z najlepších nástrojov na zoškrabávanie a dá sa použiť na zoškrabanie takmer každej webovej stránky. Viac informácií sa dozviete v knižnici Scrapy.

Avšak bez ohľadu na silné stránky tejto nádhernej knižnice. Zošrotovanie údajov na Googli by mohla byť jedna ťažká úloha. Google tvrdo padá na pokusy o scraping na webe a zaisťuje, že scrapingové skripty neurobia ani 10 žiadostí o scraping za hodinu pred zakázaním adresy IP.  Vďaka tomu sú skripty na scraping tretích strán a osobných webových stránok zbytočné.

Google dáva príležitosť zošrotovať informácie. Avšak všetko, čo by sa dalo urobiť, musí byť vykonané prostredníctvom rozhrania API (Application Programming Interface).

Len pre prípad, že ešte neviete, čo je aplikačné programové rozhranie, nemusíte sa ničoho obávať, pretože poskytnem krátke vysvetlenie. Podľa definície je API súborom funkcií a postupov, ktoré umožňujú vytváranie aplikácií, ktoré pristupujú k funkciám alebo údajom operačného systému, aplikácie alebo inej služby. API vám v zásade umožňuje získať prístup ku konečným výsledkom procesov bez toho, aby ste sa na nich museli podieľať. Napríklad teplotné API by vám poskytlo hodnoty Celzia / Fahrenheita miesta bez toho, aby ste tam museli ísť s teplomerom, aby ste mohli robiť merania sami.

Keď to prenesieme do rozsahu získavania informácií z Googlu, rozhranie API, ktoré by sme používali, nám umožňuje prístup k potrebným informáciám bez toho, aby sme museli písať skript, ktorý by vyškriabal stránku s výsledkami vyhľadávania Google. Prostredníctvom API môžeme jednoducho mať prístup ku konečnému výsledku (po tom, čo Google vykoná „scraping“ na ich konci) bez toho, aby sme museli písať akýkoľvek kód na škrabanie webových stránok.

Aj keď má Google veľa rozhraní API na rôzne účely, na účely tohto článku budeme používať rozhranie JSON API pre vlastné vyhľadávanie. Viac informácií o tomto API nájdete tu.

Toto API nám umožňuje bezplatne vykonať 100 vyhľadávacích dopytov denne, pričom v prípade potreby sú k dispozícii cenové plány pre ďalšie dotazy.

Vytváranie vlastného vyhľadávacieho nástroja

Aby sme mohli používať rozhranie JSON API pre vlastné vyhľadávanie, potrebovali by sme ID vlastného vyhľadávacieho nástroja. Najprv by sme však museli vytvoriť vlastný vyhľadávací nástroj, ktorý je možné vykonať tu.

Keď navštívite stránku Vlastný vyhľadávací modul, kliknutím na tlačidlo „Pridať“ vytvoríte nový vyhľadávací nástroj.

Do poľa „weby na vyhľadávanie“ zadajte „www.linuxhint.com “a do poľa„ Názov vyhľadávacieho nástroja “zadajte ľubovoľný popisný názov podľa vášho výberu (preferuje sa Google).

Teraz kliknite na „Vytvoriť“, aby ste vytvorili vlastný vyhľadávací modul, a kliknite na tlačidlo „ovládací panel“ na stránke, aby ste potvrdili úspešnosť vytvorenia.

Uvidíte sekciu „ID vyhľadávacieho nástroja“ a pod ňou ID, čo je ID, ktoré by sme potrebovali pre rozhranie API, a odkázali by sme na neho ďalej v tomto návode. ID vyhľadávacieho nástroja by malo byť súkromné.

Pred odchodom nezabudnite, že sme vložili „www.linuhint.com “skôr. S týmto nastavením by sme dostali výsledky iba zo samotného webu. Ak chcete získať bežné výsledky z celkového vyhľadávania na webe, kliknite v ponuke vľavo na „Nastavenie“ a potom na kartu „Základné“. Prejdite do sekcie „Vyhľadávanie na celom webe“ a zapnite túto funkciu.

Vytvorenie kľúča API

Po vytvorení vlastného vyhľadávacieho nástroja a získaní jeho ID by bolo potrebné vytvoriť kľúč API. Kľúč API umožňuje prístup k službe API a po vytvorení by mal byť udržiavaný v bezpečí, rovnako ako ID vyhľadávacieho nástroja.

Ak chcete vytvoriť kľúč API, navštívte webovú stránku a kliknite na tlačidlo „Získať kľúč“.

Vytvorte nový projekt a pomenujte ho popisným spôsobom. Kliknutím na tlačidlo „Ďalej“ by ste vygenerovali kľúč API.

Na nasledujúcej stránke by sme mali rôzne možnosti nastavenia, ktoré pre tento tutoriál nie sú potrebné, takže stačí kliknúť na tlačidlo „uložiť“ a sme pripravení vyraziť.

Prístup k API

Získanie ID vlastného vyhľadávania a kľúča API sme urobili dobre. Ďalej použijeme API.

Aj keď máte prístup k API v iných programovacích jazykoch, urobíme to v Pythone.

Aby ste mohli získať prístup k API pomocou Pythonu, musíte si nainštalovať klienta Google API pre Python. Toto je možné nainštalovať pomocou pip install balíka s nasledujúcim príkazom:

pip nainštalovať google-api-python-client

Po úspešnej inštalácii môžete teraz importovať knižnicu v našom kóde.

Väčšina z toho, čo sa urobí, by bolo prostredníctvom funkcie uvedenej nižšie:

od googleapiclient.objav importovať zostaviť
my_api_key = "Váš kľúč API"
my_cse_id = "Vaše ID VVN"
def google_search (search_term, api_key, cse_id, ** kwargs):
service = build ("colné vyhľadávanie", "v1", developerKey = api_key)
res = služba.cse ().zoznam (q = search_term, cx = cse_id, ** kwargs).vykonať ()
návrat res

Vo vyššie uvedenej funkcii je my_api_key a my_cse_id premenné by mali byť nahradené kľúčom API a ID vyhľadávacieho nástroja ako hodnoty reťazca.

Všetko, čo je teraz potrebné urobiť, je zavolať funkciu odovzdávajúcu hľadaný výraz, kľúč api a cse id.

result = google_search ("Káva", my_api_key, my_cse_id)
tlač (výsledok)

Vyššie uvedené volanie funkcie vyhľadá kľúčové slovo „káva“ a priradí vrátenú hodnotu k výsledok premenná, ktorá sa potom vytlačí. Objekt JSON je vrátený rozhraním API pre vlastné vyhľadávanie, preto akákoľvek ďalšia analýza výsledného objektu by vyžadovala malú znalosť jazyka JSON.

To je zrejmé z nižšie uvedenej vzorky výsledku:

Vyššie vrátený objekt JSON je veľmi podobný výsledku z vyhľadávania Google:

Zhrnutie

Získavanie informácií od spoločnosti Google naozaj nestojí za stres. Rozhranie Custom Search API uľahčuje život všetkým, pretože jedinou ťažkosťou je analýza objektu JSON, ktorý obsahuje potrebné informácie. Pripomíname, že svoje ID vlastného vyhľadávacieho nástroja a hodnoty kľúčov API vždy uchovávajte v súkromí.

Hry Ako sťahovať a prehrávať Sid Meier's Civilization VI v systéme Linux
Ako sťahovať a prehrávať Sid Meier's Civilization VI v systéme Linux
Úvod do hry Civilization 6 predstavuje moderné poňatie klasického konceptu predstaveného v sérii hier Age of Empires. Myšlienka bola dosť jednoduchá; ...
Hry Ako inštalovať a hrať Doom na Linuxe
Ako inštalovať a hrať Doom na Linuxe
Úvod do Doom Séria Doom vznikla v 90. rokoch po vydaní pôvodného Doomu. Bol to okamžitý hit a od tej doby herná séria získala množstvo ocenení a origi...
Hry Vulkan pre používateľov systému Linux
Vulkan pre používateľov systému Linux
S každou novou generáciou grafických kariet vidíme, že vývojári hier posúvajú hranice grafickej vernosti a prichádzajú o krok bližšie k fotorealizmu. ...