Veľké dáta

5 Open Source big data platforiem

5 Open Source big data platforiem
Tento článok ponúka základné informácie o piatich populárnych nástrojoch otvoreného zdroja, ktoré možno použiť na vytvorenie platformy analýzy údajov.

Veľké dáta sú dáta v poradí terabajtov alebo petabajtov a ďalej, ktoré pozostávajú z ťažby, analýzy a prediktívneho modelovania veľkých súborov údajov. Rýchly rast informačného a technologického rozvoja poskytoval jednotlivcom a podnikom na celom svete jedinečnú príležitosť na získavanie ziskov a vývoj nových schopností predefinujúcich tradičné obchodné modely pomocou rozsiahlych analýz.

Tento článok ponúka pohľad z piatich najpopulárnejších platforiem otvorených zdrojov údajov z vtáčej perspektívy. Tu je náš zoznam:

Apache Hadoop

Apache Hadoop je otvorená softvérová platforma, ktorá spracúva veľmi veľké súbory údajov v distribuovanom prostredí s ohľadom na úložný a výpočtový výkon a je postavená hlavne na nízkonákladovom komoditnom hardvéri.

Apache Hadoop je navrhnutý tak, aby sa dal ľahko rozšíriť z niekoľkých na tisíce serverov. Pomáha vám spracovať lokálne uložené údaje v celkovom nastavení paralelného spracovania. Jednou z výhod Hadoopu je, že zvláda zlyhania na softvérovej úrovni. Nasledujúci obrázok ilustruje celkovú architektúru ekosystému Hadoop a informácie o tom, kde sa v ňom nachádzajú rôzne rámce:

Apache Hadoop poskytuje rámec pre vrstvu systému súborov, vrstvu správy klastrov a vrstvu spracovania. Ponecháva možnosť ďalším projektom a rámcom, aby prišli a spolupracovali s ekosystémom Hadoop a vytvorili vlastný rámec pre ktorúkoľvek z vrstiev dostupných v systéme.

Apache Hadoop sa skladá zo štyroch hlavných modulov. Týmito modulmi sú Hadoop Distributed File System (vrstva súborového systému), Hadoop MapReduce (ktorý pracuje so správou klastrov aj s vrstvou spracovania), Yet Another Resource Negotiator (YARN, vrstva správy klastrov) a Hadoop Common.

Elasticsearch

Elasticsearch je fulltextový vyhľadávací a analytický nástroj. Jedná sa o vysoko škálovateľný a distribuovaný systém, špeciálne navrhnutý pre efektívnu a rýchlu prácu so systémami veľkých dát, kde jedným z jeho hlavných prípadov použitia je analýza protokolov. Je schopný vykonávať pokročilé a komplexné vyhľadávanie a takmer pokročilé spracovanie pokročilých analytických a prevádzkových informácií.

Elasticsearch je napísaný v Jave a je založený na Apache Lucene. Vydané v roku 2010 a rýchlo si získalo popularitu vďaka flexibilnej dátovej štruktúre, škálovateľnej architektúre a veľmi rýchlej dobe odozvy. Elasticsearch je založený na dokumente JSON so štruktúrou bez schém, vďaka čomu je adopcia ľahká a bezproblémová. Je to jeden z najpopulárnejších vyhľadávacích nástrojov podnikovej triedy. Môžete napísať svojho klienta v ľubovoľnom programovacom jazyku; Elasticsearch oficiálne pracuje s Javou, .NET, PHP, Python, Perl atď.

Elasticsearch interaguje hlavne pomocou REST API. Získava údaje vo forme dokumentov JSON so všetkými požadovanými parametrami a poskytuje svoju odpoveď podobným spôsobom.

MongoDB

MongoDB je NoSQL databáza založená na dátovom modeli ukladania dokumentov. V MongoDB je všetko buď zbierka, alebo dokument. Z dôvodu pochopenia terminológie v jazyku MongoDB je kolekcia alternatívnym slovom pre tabuľku, zatiaľ čo dokument je alternatívnym slovom pre riadky.

MongoDB je otvorená, dokumentovo orientovaná a multiplatformová databáza. Primárne sa píše v jazyku C++. Je to tiež popredná databáza NoSQL, ktorá poskytuje vysoký výkon, vysokú dostupnosť a ľahkú škálovateľnosť. MongoDB používa dokumenty podobné schéme JSON so schémou a poskytuje bohatú podporu dotazov. Medzi najdôležitejšie funkcie patrí indexovanie, replikácia, vyvažovanie záťaže, agregácia a ukladanie súborov.

Cassandra

Cassandra je open source projekt Apache určený na správu databáz NoSQL. Riadky Cassandry sú usporiadané do tabuliek a indexované kľúčom. Používa úložný modul založený na protokoloch, ktorý je iba prílohou. Dáta v Cassandre sú distribuované do viacerých uzlov bez masteru bez jediného bodu zlyhania. Je to projekt najvyššej úrovne Apache a na jeho vývoj v súčasnosti dohliada Apache Software Foundation (ASF).

Cassandra je navrhnutá na riešenie problémov spojených s prevádzkou vo veľkom (webovom) rozsahu. Vzhľadom na bezkonkurenčnú architektúru Cassandry je schopná pokračovať v operáciách aj napriek malému (aj keď významnému) počtu zlyhaní hardvéru. Cassandra beží vo viacerých uzloch vo viacerých dátových centrách. Replikuje údaje v týchto dátových centrách, aby sa zabránilo zlyhaniu alebo výpadkom. Vďaka tomu je systém veľmi odolný voči chybám.

Cassandra používa svoj vlastný programovací jazyk na prístup k údajom cez svoje uzly. Nazýva sa Cassandra Query Language alebo CQL. Je to podobné ako s SQL, ktoré používajú hlavne relačné databázy. CQL je možné používať spustením vlastnej aplikácie s názvom cqlsh. Cassandra tiež poskytuje mnoho integračných rozhraní pre viac programovacích jazykov na vytvorenie aplikácie pomocou Cassandry. Jeho integračné API podporuje Java, C ++, Python a ďalšie.

Apache HBase

HBase je ďalší projekt Apache určený na správu úložiska údajov NoSQL. Je navrhnutý tak, aby využíval funkcie ekosystému Hadoop vrátane spoľahlivosti, odolnosti proti chybám atď. Na účely ukladania využíva súborový systém HDFS. Existuje niekoľko dátových modelov, s ktorými NoSQL pracuje, a Apache HBase patrí do stĺpcovo orientovaného dátového modelu. HBase bol pôvodne založený na Google Big Table, ktorý súvisí aj so stĺpcovo orientovaným modelom pre neštruktúrované dáta.

HBase ukladá všetko vo forme páru kľúč - hodnota. Je dôležité si uvedomiť, že v HBase sú kľúč a hodnota vo forme bajtov. Ak chcete teda uložiť akékoľvek informácie v HBase, musíte tieto informácie previesť na bajty. (Inými slovami, jeho API neprijíma nič iné ako bajtové pole.) Pri aplikácii HBase buďte opatrní, pretože pri ukladaní údajov by ste si mali pamätať ich pôvodný typ. Dáta, ktoré boli pôvodne reťazcom, sa pri nesprávnom vyvolaní vrátia ako bajtové pole. Vo výsledku vytvorí vo vašej aplikácii chybu a aplikáciu zrúti.

Dúfam, že sa vám tento článok páčil. Ak hľadáte architektúru a návrh dátovo náročných aplikácií, môžete preskúmať aplikácie Anuj Kumar Architektúra dátovo náročných aplikácií. Toto kniha je vašou bránou k budovaniu inteligentných systémov náročných na údaje začlenením základných architektonických princípov, vzorov a techník náročných na údaje priamo do vašej aplikačnej architektúry.

Recenzia bezdrôtovej myši Microsoft Sculpt Touch
Nedávno som čítal o Microsoft Sculpt Touch bezdrôtová myš a rozhodol sa ju kúpiť. Po chvíli používania som sa rozhodol s ním podeliť o svoje skúsenost...
Trackpad a ukazovateľ myši AppyMouse na obrazovke pre tablety so systémom Windows
Používateľom tabletov často chýba ukazovateľ myši, najmä keď notebooky bežne používajú. Dotykové smartphony a tablety majú veľa výhod a jediným obmedz...
Stredné tlačidlo myši nefunguje v systéme Windows 10
The stredné tlačidlo myši pomáha vám prechádzať dlhé webové stránky a obrazovky s množstvom údajov. Ak sa to zastaví, budete nakoniec používať klávesn...