O-STA

Micro Focus Vertica 9

2.3.2018
Micro Focus, vodilni ponudnik celovitih programskih in varnostnih rešitev, in sedmi največji dobavitelj programsko orientirane opreme na svetu, ki ga v Sloveniji uradno zastopa podjetje REAL security d.o.o.,

je sicer že septembra 2017 izdal deveto različico vodilne svetovne rešitev za zbiranje in hranjenje, predvsem pa analizo masovnih podatkov - big data, modernega in od tradicionalnih relacijskih baz precej drugače zasnovanega sistem za upravljanje in analizo podatkovnih baz Micro Focus Vertica.

Vertica 9 prinaša mnoge izboljšave v sistemu strojnega učenja znotraj baze in analitičnih postopkov, neposredno preiskovanje podatkov v stolpčnem zapisu Parquet na strežniških pomnilnikih AWS S3, podpira oblačne platforme Google Cloud Platform ter Azure Power BI, kakor tudi testno (beta) funkcionalnost separacije analitičnih obdelav in hranjenja v strežniških oblakih.

Vertica 9 prinaša razširjen nabor zmogljivosti strojnega učenja znotraj analitične baze podatkov, to je vključujoč z novimi algoritmi strojnega učenja, replikacijo modelov, funkcijami (pred)priprave podatkov in vzdrževanjem stalnega delovnega procesa od konca do konca za poenostavitev izdelave, uporabe in deljenja modelov strojnega učenja. Vertica 9 bo na voljo za umeščanje s pomočjo Google Marketplace ter s še bolj napredno integracijo z Microsoft Azure vključno s certifikatom Power BI.

Z Vertica 9 lahko organizacije zdaj svoje podatke analizirajo ne le na mestu, ampak na pravem mestu! To pomeni tudi brez premikanja masovnih podatkov - podpirajoč vse večje oz. najbolj popularne strežniške oblake za hitro in zanesljivo branje in pisanje iz / v različne podatkovne formate.

Micro Focus je tudi napovedal izdajo beta različice v Vertica Eon Mode, ki omogoča organizacijam preučevanje potencialnih prednosti ločevanja računskih sistemov od prostora za shranjevanje masovnih podatkov za storitve Amazon Web Services (AWS). Podjetja v ekosistemu AWS bodo lahko izkoristila AWS S3 za skladiščenje in optimizirani analitični motor Vertica 9 za hitre obdelave, tako bodo lahko maksimalno izkoristila ekonomičnost strežniških oblakov.

Colin Mahony, generalni direktor, Vertica, Micro Focus: "Data is a one of the most valuable assets for companies, and a company's ability to monetize their data while optimizing for both cost and performance at scale is already a fundamental differentiator in every industry. Vertica's ability to analyze an extensive set of data formats in the right place, at the right time, enables our customers to optimize for both cloud economics and user demands. Vertica is the only platform in the industry that can provide high-performance advanced analytics and in-database machine learning with true freedom from underlying infrastructure across the full data pipeline, at the scale demanded by the world's most data-driven organizations."

Vertica 9 : Visoko zmogljivo strojno učenje v bazi podatkov in napredne analize kjerkoli, kadarkoli, tudi na vodilnih strežniških oblakih

Micro Focus želi strankam zagotoviti prilagodljivo in nadgradljivo programsko opremo z vgrajenimi analitičnimi zmogljivostmi. Vertica je enotna analitična baza podatkov, ki podpira vse glavne strežniške oblake, vse popularne podatkovne zapise, ki omogoča trdno integracijo z okolji Spark in Kafka, ter analizo-podatkov-na-mestu, enotna arhitektura omogoča podjetjem monetizacijo masovnih podatkov z elastičnostjo strežniških oblakov - ne glede na lokacijo podatkov. Organizacije si lahko pomagajo s prilagodljivimi in razširjenimi možnostmi uvajanja Vertica 9 - na lokaciji, v zasebnih in javnih strežniških oblakih ter na podatkovnih jezerih tipa Hadoop ali AWS S3, da pridejo do najprimernejše analitične rešitve. To jim daje najširšo izbiro o tem, kje, kako in kdaj izvajati podatkovno analitiko - podprto z novimi načini provizioniranja podatkov ter administratorskimi uporabniškimi vmesniki zgrajenimi posebej za strežniške oblake.

Abhishek Sharma, podatkovni znanstvenik, Fidelis Cybersecurity: "Fidelis has the first and only purpose-built, automated detection and response platform that delivers 10-20x efficiency for security operations teams. Our unwavering goal is to automate cyber defense action with intelligence - and Machine Learning for predictive analytics is the key. Vertica's new in-database machine learning capabilities are like gold! We are extremely excited to train our Machine Learning models on our data in Vertica and ship them with our platform to run on our customers' clusters. This is something that is much harder with any other tool. Vertica's in-database machine learning will improve our ability to offer new predictive analytics features quickly and easily to our growing customer base. It will improve our competitive positioning."

Beta funkcionalnost Vertica Eon Mode for Cloud Economics - ločitev podatkovne hrambe in procesiranja

Arhitektura Eon Mode omogoča ločevanje namestitve platforme Vertica v del za procesiranje in del za hranjenje podatkov. Za tiste, ki jo želijo preizkusiti, je v prvi različici verzije 9 že na razpolago kot testna oz. beta funkcionalnost. Separacija komponent je lahko posebej dobrodošla za organizacije, ki koristijo pomnilniške sisteme v strežniških oblakih, na primer v AWS S3. To pomeni, da lahko podjetje obdrži cenovno ugodno lokacijo za masovne količine podatkov, analitične obdelave pa se izvajajo v optimiziranem procesorju analitičnega pogona Vertica. Oboje je povezano z inteligentnim sistemom polnjenja in prenašanja podatkov med posameznimi vozlišči, na podlagi česar lahko dosežemo najboljše razmerje med stroški in zmogljivostjo. Ta arhitektura je tudi zelo prilagodljiva in podpira rast (ali zmanjševanje) gruče strežnikov Vertica glede na potrebe.

Vertica in Google Cloud Platform

Vertica for Google Cloud Platform in podporne storitve bodo dostopne preko spletnega tržišča Google Marketplace; tak način umestitve daje strankam fleksibilnost in svobodno odločitev za še eno vodilno strežniško platformo, ali rešitev na tej platformi, po željah in potrebah.

Še hitrejše delovanje in prilagajanje rasti

Nova različica lahko deluje pod trikratno obremenitvijo. Algoritmi za iskanje po več kompleksno združenih tabelah poenostavijo in pospešijo obsežna preiskovanja podatkov. Paralelnost obdelav so izboljšali za okoli 60 odstotkov. Že vgrajena integracija z ključnimi ekosistemi in odprtimi okolji kot so Microsoft PowerBI, Cloudera Manager ter Apache Spark 2.1.

Med pomembnejšimi značilnostmi in izboljšavami Vertica 9 lahko izpostavimo:

· Strojno učenje 'In-Database Machine Learning' - modul z obsežnim naborom novih algoritmov strojnega učenja za napredno podatkovno analitiko. Ti lahko med drugim na podlagi kategorizacije, pretiranega prilagajanja (overfitting) ter predvidevanja znatno pospešijo hitrost podatkovnih obdelav z izločanjem potrebe po zmanjševanju vzorcev ali obsežnem premikanju podatkov.

· Nove funkcionalnosti priprave podatkov za pridobivanje več informacij o pomenu podatkov in posledično izboljšano podatkovno analitiko.

· Poenotenje celotnega delovnega procesa za enostavnejšo implementacijo strojnih modelov v produkcijsko okolje - predvsem za stranke, ki vgrajujejo Vertica v lastne aplikacije, produkte, ali storitve, torej v okoljih, kjer se zahteva zmogljivost replikacije modelov po različnih gručah.

· Izboljšanje centralnega upravljanja podatkov in analitičnih zmogljivosti - nenehno izboljševanje in optimizacija osnovne arhitekture podatkovne baze, temelja celotne platforme Vertica, doprinese več izboljšav, vključujoč zmogljivejše upravljanje velikih količin zgodovinskih podatkov s hierarhičnim upravljanjem particij, ter konsistentno visoko zmogljivost pod največjimi obremenitvami z najbolj sofisticiranimi analitičnimi povpraševanji.

· Parquet Writer - nov sistem pisanja rezultatov v Apache Hadoop HDFS Parquet, zgrajen na podlagi preizkušene in zanesljive že dolgo obstoječe funkcionalnosti branja podatkov iz HDFS v Vertica; organizacijam z velikimi podatkovnimi jezeri v okolju Hadoop lahko zagotavlja hitro branje, analitiko in potem takojšnjo dobavljivost novih rezultatov kar iz centralnega podatkovnega jezera v drugih aplikacijah.

· Flattened Tables - nov podsistem omogoča lažja in mnogo bolj zmogljiva povpraševanja s kompleksnimi združevanji (JOIN) več podatkovnih tabel. Analitik lahko spiše enostaven in hiter stavek za iskanje po podatkih (query) kot da bi bili na videz vsi podatki v samo eni dvodimenzionalni tabeli, brez da bi moral kakorkoli spreminjati obstoječo podatkovno shemo, kreirati nove poglede, začasne tabele, povezave ali preučevati načine združevanja tabel. To omogoča veliko pohitritev in poenostavljanje delovnega procesa analitičnih obdelav masovnih podatkov v zapletenih podatkovnih shemah.

Vertica 9 je kupcem na razpolago že od oktobra 2017.

Za več informacij o Vertica 9 obiščite naslednjo spletno stran: www.vertica.com/v9.

Več informacij o zmogljivostih Vertica in-database Machine Learning: www.vertica.com/machinelearning.

Micro Focus Vertica

Vertica je podatkovna baza, podobno kot Oracle ali MS SQL Server, a posebej razvita iz nule za namene hranjenje in hitrega preiskovanje / analize masovnih podatkov. Ta optimizacija pa po drugi strani pomeni, da načeloma ni mišljena kot primarna hramba podatkov, ampak za obdelave. Se pravi v okoljih, kjer se podatke dodaja v bazo, potem pa se običajno nikoli ali zelo malokrat spremenijo ali brišejo, tam pa je lahko kot primarna baza. V veliki meri temelji na open source tehnologijah, zato obstaja tudi Community Edition, zato je veliko elementov platforme licenca samo za Enterprise Support, programska oprema pa je brezplačna. Programsko tehnologijo Vertica je zasnoval avtor podatkovnih baz Ingres (70ta) ter Postgres (90ta), ki je leta 2005 je predstavil delo o prednostih stolpčno orientiranih podatkovnih baz in na podlagi tega skupaj s študenti ustanovil projektno skupino, ki je izdelala to rešitev.

Big data - to ni eksotika za mednarodne korporacije z 10.000+ zaposlenimi

Zakaj Big Data? Je to področje uporabno zgolj za največja podjetja? Pravzaprav ne, dandanes namreč vsi nenehno okoli sebe ustvarjamo Big Data, ali pa nastajajo samodejno - podatke ustvarjamo ljudje, stroji in poslovni procesi, brez odmora in z visoko frekvenco, zato se gore in gore podatkov nekje kopičijo. Avti, stroji, programi, sistemski logi, logi obiskov, vse ustvarja tisoče in tisoče bajtov zapisov. Uporabniško ustvarjena vsebina na internetu npr. - tega je ogromno, skorajda dnevno ustvarjena količina novih vsebin presega količino v vsej pred-internetni zgodovini od človeštva ustvarjenih podatkov. Iz informacijske teorije vemo, da so podatki sami po sebi neuporabni, nimajo nobene vrednosti, ne nosijo uporabne informacije. Milijoni in milijoni dnevno ustvarjenih digitalnih podatkov, številk ali znakov, ali tudi sestavljenih besed ali "stavkov" (dnevniški zapis) sami po sebi nič ne pomenijo, so nekoristni. Treba jih je obdelati in iz njih dobiti - informacije. Informacija je tista stvar, ki se dobi iz podatkov, in nekaj pomeni, nekaj pove. Toda z masovnimi podatki je problem - ročno ali s tradicionalnimi orodji jih je nemogoče obdelovati, zaradi količine seveda. Zato potrebujemo specializirana orodja. Orodja iz področja Big Data so specializirane rešitve za ne le obdelavo, temveč - učinkovito zbiranje, hranjenje, preiskovanje, obdelavo, in zaščita velikih količin podatkov; Vertica zagotavlja hranjenje in iskanje oz. analizo masovnih podatkov.

Historične prednosti oz. ključne lastnosti analitične platforme Vertica

· Namensko razvita za učinkovito hranjenje in hitro obdelavo masovnih podatkov, ter za rast.

· (Columnar database) Hranjenje po stolpcih - za razliko od relacijskih podatkovnih baz (hranjenje po tabelah, ena datoteka je ena tabela) hrani Vertica podatke po stolpcih (stolpec -> datoteka).

· Prednost stolpcev - pri iskanju, branju in obdelavi se lahko vzame samo podatke, ki jih kar rabimo, ni treba brati cele vrstice; operacije kot so sortiranje in iskanje so znatno hitrejše, indeksi niso potrebni, kompresija je veliko bolj učinkovita.

· 50x-1000x hitreje od standardnih RDBMS

· (Compression) Kompresija stolpčnih podatkov - hranjenje po stolpcih dovoljuje dosti bolj učinkovito stiskanje podatkov.

· Prednost kompresije - zmanjšanje potrebe po prostoru, strojni opremi, pospeši tudi iskanje in obremenjenost z V / I operacijami, zniža stroške.

· Average compression rate is 5x-10x.

· (Clustering) Gručenje - popolna podpora za clustering je osnovna v Vertica vgrajena funkcionalnost.

· Prednosti gručenja - gruča je namenjena tako za doseganje večje zmogljivosti kot tudi za večjo zanesljivost. Večinoma se vsa opravila izvajajo samodejno - porazdeljevanje obremenitve, deljenje podatkov da se zagotovi HA, vsa potrebna opravila za dodajanje ali odstranjevanje node-a; noben node ni glavni da bi bil kritičen, analitična opravila se lahko samodejno porazdelijo po gruči, celo za namenski jezik R.

· Distributed Query - cluster podpira tudi samodejno porazdeljevanje bremen, tudi v okviru jezika R, ki doslej zaradi slabe skalabilnosti ni bil uporaben za Big Data.

· Prednosti porazdelitve obdelav - noben node ni glavni, zato ni ozkega grla oz. kritične točke odpovedi, niti kar se tiče zmogljivosti niti kar se tiče dostopnosti. Uporabniki in razvijalci ne potrebujejo posebnega znanja, Vertica bo sama inteligentno izvedla porazdeljeno povpraševanje po več vozliščih v gruči. Obstaja tudi podpora za distribuirano poganjanje jezika R, ki je zelo popularen data mining jezik, ki pa do sedaj ni bil primeren za masovne podatke, ker ga ni bilo mogoče enostavno distribuirati.

· (Machine learning) projections - to so neke vrste avtomatizirani view-i (iz RDBMS), sortiranje podatkov glede na realne potrebe, vendar je mnogo razlik med tem kaj je view in kaj je projekcija. View je 'navidezen pogled', projekcija je dejanska urejenost shranjenih podatkov, zato so projekcije mnogo bolj učinkovite.

· Prednosti projekcij - projekcija je za razliko od view-a fizična strategija hranjenja, sortiranja podatkov. Zato so lahko neki podatki po večkrat shranjeni v cluster-ju, v različnih projekcijah. Vertica spremlja podatke, query-je, do katerih podatkov se pogosto dostopa, in kako, in se lahko samodejno uči, sama ustvarja optimizirane projekcije.

· Database Designer - Automatic Design & Administration & Optimization, orodje za optimizacijo, baze in query-jev, za doseganje čim boljše zmogljivosti, ki v veliki meri avtomatizirano sproti prilagaja celoten sistem.

· Hadoop - podpora in celo posebna različica za Apache Hadoop.

· Flexzone - zelo pomembna, ki omogoča branje ter analiziranje oz. razumevanje nestrukturiranih podatkov in podatkov v nestandardnih oblikah.

· UDL - povezava z zunanjimi podatkovnimi bazami npr. Hadoop, Oracle, Excel.

· ANSI SQL, Vertica Extensions, SDKs - C++ / R / Java / Python.

· Real-Time analytics - nalaganje podatkov in iskanje potekajo paralelno, ni zaklepanja tabel med update-i oz. polnjenjem s podatki.

Avtor / prevod: Robert Lubej

Povezava do originalne novice:

https://www.microfocus.com/about/press-room/article/2017/micro-focus-introduces-vertica-9/

### ### ###

O podjetju Micro Focus

Micro Focus je sedmi največji ponudnik predvsem na znotraj lastne hiše razviti programski opremi temelječih rešitev, ki je nastal leta 1976 kot dobavitelj poslovnih sistemov v okolju COBOL. Mednarodna korporacija s sedežem v Angliji dobavlja programske poslovne rešitve in svetovanje, množico vodilnih rešitev informacijske varnosti iz različnih področij, ter drugo programsko opremo. V okviru podjetja delujejo nekdaj zelo znane enote Borland in Novell, lastijo si tudi produktno linijo SUSE.

Leta 2017 so uspešno zaključili združitev s programskim oddelkom HPE Software, s čimer so prevzeli zelo znane produktne linije s področja varnosti kot so SIEM rešitve - ArcSight; varnostno preverjanje in zaščita aplikacij - Fortify; šifriranje podatkov in sporočilnih sistemov - Voltage; strojni varnostni moduli - Atalla HSM; upravljanje informacijskih procesov - Operation Bridge, Network Operations Management IT Service Management Automation Suite; nadzor in upravljanje informacij - ControlPoint, Content Manager ter Structured Data Manager; varnostno kopiranje in obnavljanje - Data Protector in VM Explorer: upravljanje projektov, portfoleja in aplikacij; masovni podatki in analitika - Vertica, IDOL ArcSight ADP; varnostna analitika - ArcSight Investigate ter UBA.

Več o podjetju najdete na spletnih straneh: https://www.microfocus.com/

Dodatne informacije:

Daniel Bednjički, produktni vodja

daniel.bednjicki@real-sec.com

REAL security d.o.o.

Žolgarjeva ulica 17

2000 Maribor

tel.: 02 234 74 74

http://www.real-sec.com

info@real-sec.com