O-STA

Pogled na svet skozi oči Wikipedije

18. junij, 2012 07:15 UTC

Kaj se da v enem dnevu narediti z novim SGI® UV™ 2000 - največjim pomnilniškim sistemom za podatkovno rudarjenje na svetu?

Mednarodna konferenca o superračunalništvu 2012

HAMBURG, Nemčija--(BUSINESS WIRE)-- SGI (NASDAQ:SGI), zaupanja vredno vodilno podjetje na področju tehničnega računalništva, je v sodelovanju s Kalevom H. Leetarujem z Univerze v Illinoisu ustvarilo prvo zgodovinsko preslikavo in raziskavo celotnega besedila angleške različice Wikipedija v času in prostoru. Rezultati vključujejo vizualizacijo moderne zgodovine naložene s pomočjo sistemov za pomnilniško podatkovno rudarjenje v manj kot enem dnevu. Potem ko je na SGI® UV™ 2000 naložil celotno različico Wikipedije v angleškem jeziku, je G. Leetaru lahko pokazal, kako se je svet razvijal v preteklih dveh stoletjih skozi oči Wikipedije. K tem referencam so pripeti lokacija, leto ter pozitiven ali negativen ton.

V okviru prejšnjih podobnih projektov so vnose v Wikipediji locirali s pomočjo meta podatkov, ki jih je ročno vnašal urejevalec, vendar so takšni poskusi omogočili vpogled v le delček podatkov o lokaciji vnosov v Wikipedijo. Pričujoči projekt pa je razkril vsebino samih člankov, saj je razkril lokacijo in datum vsake izmed vseh štirih milijonov strani ter povezave med njimi in tako ustvaril ogromno mrežo.

Wikipedia se razkrije v čisto novi podobi

"Pričujoča analiza omogoča svetovnemu prebivalstvu, da naredi korak nazaj in namesto zgolj posameznih člankov in besedila vidi širšo sliko ogromnega znanja, ki ga hrani Wikipedija. Opazujemo lahko, kako se je razvijala ena izmed največjih zbirk človeškega znanja in vidimo, kar nismo mogli nikoli poprej, na primer globalno občutje v določenem času in kraju ali zaznamo katera področja mogoče niso popolnoma pokrita," je dejal Franz Aman, vodja oddelka za marketing in glavni strateg v podjetju SGI. "Zelo radi uporabljamo Google Earth, ker lahko z njim oddaljimo pogled in si ogledamo širšo sliko. S pomočjo SGI UV 2 lahko isti koncept prenesemo na velike podatkovne baze in tako dobimo vpogled v širšo sliko teh podatkov."

Na podlagi pričujoče analize je bilo ugotovljeno, da je imela Wikipedija v angleškem jeziku štiri obdobja rasti pri pokrivanju zgodovinskih obdobij: 1001-1500 (srednji vek), 1501-1729 (zgodnje moderno obdobje), 1730-2003 (obdobje razsvetljenstva), 2004-2011 (obdobje Wikipedije), njena nadaljnja rast pa gre očitno na račun razširjanja pokrivanja zgodovinskih dogodkov ne pa dokumentiranja sedanjosti. Splošno razpoloženje, ki prevladuje v člankih Wikipedije za vsako leto, se tesno ujema z večjimi dogodki. Tako je najbolj negativno obdobje v zadnjih 1000 letih ameriška državljanska vojna (1861-1865), temu pa sledi druga svetovna vojna. Analiza prav tako kaže, da praznina, ki zaradi avtorskih pravic obsega večino dvajsetega stoletja v digitalnih tiskanih zbirkah, Wikipediji na dela težav, saj so te vsebine konstantno eksponentno rasle od leta 1924 do danes.

Raziskovalcem omogočeno podatkovno rudarjenje po velikih podatkovnih bazah s hitrostjo velikih podatkovnih baz

"Enosmernost v Wikipediji, pomanjkanje povezav in neenakomerna razporeditev tabel s ključnimi podatki kažejo na omejitve podatkovnega rudarjenja na osnovi meta podatkov pri zbirkah kot je Wikipedija," je dejal G. Leetaru. "Ogromna skupna spominska kapaciteta SGI UV 2 mi je omogočila, da sem postavljal vprašanja za celoten nabor podatkov v skoraj realnem času. Z ogromno količino skupnega skladnega predpomnilniškega spomina na dosegu roke sem lahko preprosto zapisal nekaj vrstic kode in jo vtipkal v celoten nabor podatkov ter vprašal karkoli mi je prišlo na misel. Kaj takšnega ni možno z nadgrajevalnim računalniškim pristopom. Gre za podobno situacijo, kot če bi uporabljali urejevalnik dokumentov namesto pisalnega stroja - svoje raziskovanje lahko opravim na popolnoma drugačen način, saj se osredotočam na izide in ne na algoritme."

Analitični pristop

Na pričujočem ogromnem naboru podatkov, naloženemu na SGI® UV™ 2000, tako imenovanem računalniku "Big Brain", je bilo izvedeno celovito geokodiranje in datumsko kodiranje s pomočjo algoritmov, ki so identificirali vsako omembo lokacije in vsakega datuma v celotnem besedilu vsakega vnosa v Wikipediji. Najdenih je bilo več kot 80 milijonov lokacij in 42 milijonov datumov med letoma 1000 pr.n.št. in 2012. Vsak članek je v povprečju vseboval 19 lokacij na 44 besed in 11 datumov na 75 besed. Povezave med vsakim datumom in vsako lokacijo so se shranile v ogromno mrežo, ki predstavlja pogled na zgodovino skozi oči Wikipedije. Z uporabo te instrumentacije je g. Leetaru lahko opravil analizo celotnega nabora podatkov na SGI UV 2 v skoraj realnem času in tako ustvaril vizualne zemljevide v prostoru in času, iz katerih je možno razbrati ne samo potek zgodovine, ampak tudi splošno vzdušje v svetu v zadnjih tisoč letih, ter interaktivno preizkusiti široko paleto teorij in vprašanj, ki tarejo raziskovalce, in to vse to v enem samem dnevu.

Novi SGI UV: tako imenovani računalnik "Big Brain"

Družina izdelkov SGI UV 2 uporabnikom omogoča, da najdejo odgovore na največje svetovne probleme na sistemu, ki ga je enako lahko upravljati kot delovno postajo. SGI UV 2, ki je sestavljen po industrijskih standardih, vključuje družino procesorjev Intel® Xeon® E5, deluje na neprilagojeni programski opremi Linux®, podpira široko paleto pomnilniških možnosti ter nudi celostno rešitev za računalništvo brez meja.

SGI UV 2 lahko uporabljate kot majhen sistem z le 16 jedri in 32 gigabajti pomnilnika, in ga nato enostavno razširite. V platformi nove generacije je podvojeno število jeder (do 4096 jeder), količina skladnega glavnega pomnilnika pa je štirikrat večja (do 64 terabajtov) kot pri prejšnji generaciji, ki je na voljo za računalništvo v pomnilniku za sisteme z enotno sliko. SGI UV 2 lahko doseže do osem petabajtov skupnega pomnilnika in na najvišji I/O stopnji štiri terabajte na sekundo (14 PB/h) lahko v manj kot treh sekundah v spomin naloži celotno vsebino tiskanih del v knjižnici ameriškega senata.

SGI UV 2000 je na voljo takoj. SGI UV 20 je možno naročiti že danes, dostavljati pa ga bomo začeli avgusta 2012. Cene se začnejo pri 30.000 ameriških dolarjih.

O podjetju SGI

SGI, zaupanja vredno vodilno podjetje na področju tehničnega računalništva, želi predvsem pomagati svojim strankam pri reševanju njihovih najbolj zahtevnih poslovnih in tehnoloških izzivov.

Za več informacij obiščite sgi.com.

Povežite se s podjetjem SGI na: Twitter (@sgi_corp), Facebook (facebook.com/sgiglobal), YouTube (youtube.com/sgicorp), in LinkedIn.

Za ogled fotografij in posnetkov obiščite: http://www.sgi.com/go/wikipedia

© 2012 Silicon Graphics International Corporation. SGI in logtip SGI sta blagovni znamki oz. registrirani blagovni znamki korporacije Silicon Graphics International Corp ali njenih hčerinskih podjetij v Združenih Državah Amerike in/ali v drugih državah. Intel in Xeon sta registrirani blagovni znamki korporacije Intel Corporation. Vsa druga imena znamk in oznake so lastništvo posameznih podjetij.

Slikovno gradivo je posredoval Kalev Leetaru.

Fotografije/multimedijske vsebine/galerija so na voljo na: http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=en

Kontakt:

Odnosi z javnostmi Ogilvy
Meghan Fintland, 415-677-2704
SGImedia@ogilvy.com

Vir: Silicon Graphics International Corporation

Multimedijska galerija

Video: Kalev H. Leetaru z Univerze v Illinoisu pripoveduje, kako je s pomočjo SGI(R) UV(TM) 2000 ustvaril prvo zgodovinsko preslikavo in raziskavo celotnega besedila angleške različice Wikipedija.

Sporočilo za javnost v izvirniku najdete na http://www.businesswire.com/news/home/20120618005389/en