O-STA

Šampion obdelave masovnih podatkov : HPE Vertica

HPE, oddelek zadolžen za varnostne rešitve HP Enterprise Software - Security, ki ga v Sloveniji uradno zastopa podjetje REAL security d.o.o.,

skupaj predstavljata rešitev za zbiranje in hranjenje, predvsem pa analizo masovnih podatkov - 'big data'. To je moderni, od tradicionalnih relacijskih baz precej drugače zasnovan sistem za upravljanje podatkovnih baz HPE Vertica.

Big data ni eksotika za mednarodne korporacije z 10.000+ zaposlenimi

Zakaj Big Data? Je to področje uporabno zgolj za največja podjetja? Pravzaprav ne, dandanes namreč vsi nenehno okoli sebe ustvarjamo Big Data, ali pa nastajajo samodejno - podatke ustvarjamo ljudje, stroji in poslovni procesi, non-stop in z visoko frekvenco, zato se gore in gore podatkov nekje kopičijo. Avti, stroji, programi, sistemski logi, logi obiskov, vse ustvarja tisoče in tisoče bajtov zapisov. Uporabniško ustvarjena vsebina na internetu npr. - tega je ogromno, skorajda dnevno ustvarjena količina novih vsebin presega količino v vsej pred-internetni zgodovini od človeštva ustvarjenih podatkov. Iz informacijske teorije vemo, da so podatki sami po sebi neuporabni, nimajo nobene vrednosti, ne nosijo uporabne informacije. Milijoni in milijoni dnevno ustvarjenih digitalnih podatkov, številk ali znakov, ali tudi sestavljenih besed ali "stavkov" (dnevniški zapis) sami po sebi nič ne pomenijo, so nekoristni. Treba jih je obdelati in iz njih dobiti - informacije. Informacija je tista stvar, ki se dobi iz podatkov, in nekaj pomeni, nekaj pove. Toda z masovnimi podatki je problem - ročno ali s tradicionalnimi orodji jih je nemogoče obdelovati, zaradi količine seveda. Zato potrebujemo specializirana orodja. Orodja iz področja Big Data so specializirane rešitve za ne le obdelavo, temveč - učinkovito zbiranje, hranjenje, preiskovanje, obdelavo, in zaščita velikih količin podatkov; Vertica zagotavlja hranjenje in iskanje oz. analizo masovnih podatkov.

HPE Vertica

Vertica je podatkovna baza, podobno kot Oracle ali MS SQL Server, a posebej razvita iz nule za namene hranjenje in hitrega preiskovanje / analize masovnih podatkov. Ta optimizacija pa po drugi strani pomeni, da načeloma ni mišljena kot primarna hramba podatkov, ampak za obdelave. Se pravi v okoljih, kjer se podatke dodaja v bazo, potem pa se običajno nikoli ali zelo malokrat spremenijo ali brišejo, tam pa je lahko kot primarna baza. V veliki meri temelji na open source tehnologijah, zato obstaja tudi Community Edition, zato je veliko elementov platforme licenca samo za Enterprise Support, programska oprema pa je brezplačna. Programsko tehnologijo Vertica je zasnoval avtor podatkovnih baz Ingres (70ta) ter Postgres (90ta), ki je leta 2005 je predstavil delo o prednostih stolpčno orientiranih podatkovnih baz in na podlagi tega skupaj s študenti ustanovil projektno skupino, ki je izdelala to rešitev.

Prednosti oz. ključne lastnosti

Namensko razvita za učinkovito hranjenje in hitro obdelavo masovnih podatkov, ter za nadgradljivost.

(Columnar database) Hranjenje po stolpcih - za razliko od relacijskih podatkovnih baz (hranjenje po tabelah, ena datoteka je ena tabela) hrani Vertica podatke po stolpcih (stolpec -> datoteka).

Prednost stolpcev - pri iskanju, branju in obdelavi se lahko vzame samo podatke, ki jih kar rabimo, ni treba brati cele vrstice; operacije kot so sortiranje in iskanje so znatno hitrejše, indeksi niso potrebni, kompresija je veliko bolj učinkovita.

50x-1000x hitreje od standardnih RDBMS

(Compression) Kompresija stolpčnih podatkov - hranjenje po stolpcih dovoljuje dosti bolj učinkovito stiskanje podatkov.

Prednost kompresije - zmanjšanje potrebe po prostoru, strojni opremi, pospeši tudi iskanje in obremenjenost z V / I operacijami, zniža stroške.

Average compression rate is 5x-10x.

(Clustering) Gručenje - popolna podpora za clustering je osnovna v Vertica vgrajena funkcionalnost.

Prednosti gručenja - gruča je namenjena tako za doseganje večje zmogljivosti kot tudi za večjo zanesljivost. Večinoma se vsa opravila izvajajo samodejno - porazdeljevanje obremenitve, deljenje podatkov da se zagotovi HA, vsa potrebna opravila za dodajanje ali odstranjevanje node-a; noben node ni glavni da bi bil kritičen, analitična opravila se lahko samodejno porazdelijo po gruči, celo za namenski jezik R.

Distributed Query - cluster podpira tudi samodejno porazdeljevanje bremen, tudi v okviru jezika R, ki doslej zaradi slabe skalabilnosti ni bil uporaben za Big Data.

Prednosti porazdelitve obdelav - noben node ni glavni, zato ni ozkega grla oz. kritične točke odpovedi, niti kar se tiče zmogljivosti niti kar se tiče dostopnosti. Uporabniki in razvijalci ne potrebujejo posebnega znanja, Vertica bo sama inteligentno izvedla porazdeljeno povpraševanje po več vozliščih v gruči. Obstaja tudi podpora za distribuirano poganjanje jezika R, ki je zelo popularen data mining jezik, ki pa do sedaj ni bil primeren za masovne podatke, ker ga ni bilo mogoče enostavno distribuirati.

(Machine learning) projections - to so neke vrste avtomatizirani view-i (iz RDBMS), sortiranje podatkov glede na realne potrebe, vendar je mnogo razlik med tem kaj je view in kaj je projekcija. View je 'navidezen pogled', projekcija je dejanska urejenost shranjenih podatkov, zato so projekcije mnogo bolj učinkovite.

Prednosti projekcij - projekcija je za razliko od view-a fizična strategija hranjenja, sortiranja podatkov. Zato so lahko neki podatki po večkrat shranjeni v cluster-ju, v različnih projekcijah. Vertica spremlja podatke, query-je, do katerih podatkov se pogosto dostopa, in kako, in se lahko samodejno uči, sama ustvarja optimizirane projekcije.

Database Designer - Automatic Design & Administration & Optimization, orodje za optimizacijo, baze in query-jev, za doseganje čim boljše zmogljivosti, ki v veliki meri avtomatizirano sproti prilagaja celoten sistem.

Hadoop - podpora in celo posebna različica za Apache Hadoop.

Flexzone - zelo pomembna, ki omogoča branje ter analiziranje oz. razumevanje nestrukturiranih podatkov in podatkov v nestandardnih oblikah.

UDL - povezava z zunanjimi podatkovnimi bazami npr. Hadoop, Oracle, Excel.

ANSI SQL, Vertica Extensions, SDKs - C++ / R / Java / Python.

Real-Time analytics - nalaganje podatkov in iskanje potekajo paralelno, ni zaklepanja tabel med update-i oz. polnjenjem s podatki.

Kako do podatkov?

Ne glede na to ali bo Vertica naša primarna baza za hranjenje podatkov, ali pa bo služila kot sekundarna baza za namenjena samo hitri obdelavi podatkov, jo moramo nekako polniti s podatki. Podobno, kot pri SIEM rešitvah, imamo tukaj definirane neke mehanizme za polnjenje iz osnovnih virov podatkov ali iz primarnih baz. Mnoga podjetja imajo večinoma že v uporabi neke druge sisteme podatkovnih baz (Oracle, MS SQL Server, MySQL), poleg tega pa obstajajo tudi drugi viri masovnih podatkov - logi, datoteke, strukturirani in nestrukturirani podatki - ki se morda še ne zbirajo v kakih podatkovnih shrambah. Ali morajo zamenjati svoje obstoječe DB sisteme opustiti in preiti na samo na Vertica? Seveda ne, to ni niti priporočljivo, niti mogoče, Vertica je dodatna komponenta in v takem primeru se vanjo podatki uvažajo - enkrat, konstantno, iz počasnega (trickle feed) vira ali živega okolja - iz obstoječih virov. Pri tem nam je lahko v pomoč tudi funkcionalnost Flexzone za uvažanje nestrukturiranih in napol strukturiranih oz. nestandardnih podatkov. Posebne funkcionalnosti so na razpolago tudi za integracijo Hadoop (Apache) - podatki lahko ostajajo hranjeni v Hadoop in se uporablja samo Vertica query & analytics engine za preiskovanje in obdelavo tam hranjenih podatkov, na voljo za različne Hadoop distribucije in opcije.

Druge komponente in HPE rešitve iz področja Big Data

Vertica - high performance & analytics.

Core Vertica SQL Engine - analitika, SQL, R, Python, Java, plus 3 opcije:

0. Od Core Engine-a obstaja tudi Community Edition

1. HPE Vertica Enterprise Edition (Columnar Storage, Cluster, Flex Zone) - osrednja licencirana različica

2. HPE Vertica for SQL on Hadoop (SQL analytics for Big Data in Hadoop) - za integracijo s Hadoop arhitekturo za hranjenje masovnih podatkov

3. HPE Vertica in the Cloud (vse bolj popularna opcija); Vertica AMI (Amazon Machine Image) for Cloud Deployment

Vertica Place - geospatial analysis; rešitev za geodetske obdelave masovnih geodetskih podatkov.

IDOL - human information analytics ,

Haven on Demand - APIs & services for cloud-based Big Data projects & solutions.

Podrobnosti in prenos: http://www8.hp.com/us/en/software-solutions/advanced-sql-big-data-analytics/try-now.html

Avtor / prevod: Robert Lubej

Domača stran:

http://www8.hp.com/us/en/hpe-news/online-news.html#/facet=products-services

### ### ###

O podjetju Hewlett Packard Enterprise in oddelku HP Enterprise Security

Podjetje Hewlett Packard Enterprise je nastalo leta 2015 z razcepitvijo davnega leta 1939 ustanovljene korporacije Hewlett Packard na dva dela. HPE je v storitve za podjetja usmerjen dobavitelj, z naslednjimi oddelki - Enterprise Group (strežniki, shramba podatkov, omrežja, svetovanje in podpora), Enterprise Services, Software ter Financial Services. Varnostne rešitve spadajo pod oddelek Software, čeprav so nekatere med njimi na razpolago tudi kot vnaprej nameščene naprave.

Več o HP Enterprise Security najdete na spletnih straneh: https://www.hpe.com/us/en/home.html#

Dodatne informacije:

Daniel Bednjički, projektni vodja

daniel.bednjicki@real-sec.com

REAL security d.o.o.

Meljska cesta 1

2000 Maribor

tel.: 02 234 74 74

http://www.real-sec.com

info@real-sec.com