Anonim

Hver dag er ca. 500 terabyte nye data og 2, 5 milliarder objekter, der vil blive gemt - hvilket vil gøre enhver databaseadministrator, at sværdet sved i panden, er som sædvanligt for de ansvarlige personer i Facebook Business. Med sin datavolumen er verdens største online netværk et godt eksempel på det nyligt anstrengte IT-hype-udtryk big data dar. Men det handler ikke kun om datamængden, men frem for alt om at få indsigt, siger Jay Parikh, Vice President for Infrastructure Engineering på Facebook, hans forståelse af Big Data. "De, der kun indsamler, har en masse data, men ingen big data."

  1. Big data's fire udfordringer
    Emnet big data handler faktisk med fire udfordringer:
  2. Det rene beløb:
    Mængden af ​​data, der er relevante for virksomheder, øges fortsat dramatisk. I dag analyseres datavolumener i terabyteområdet, Petabyte og Exabyte er sandsynligvis snart på dagsordenen.
  3. Tidspresset:
    Ideelt set bør analyser af de enorme databjerge være tilgængelige i realtid. Når alt kommer til alt står virksomheder over for opgaven med at reagere hurtigt på markedsændringer.
  4. Manglen på struktur:
    Analyserne skal ofte overveje datakilder med næppe strukturerede varebeholdninger. Med andre ord, kompleksiteten af ​​dataanalyse øges. Ud over de velkendte datakilder, såsom de eksisterende ERP-systemer, tilføjes nye. Dette inkluderer data fra M-til-M-applikationer, såsom sensordata, data fra indbyggede systemer, RFID-data fra logistikkæden, samt data fra weblogs og sociale medieplatforme osv.
  5. Det stigende antal brugere:
    De potentielle interne og eksterne brugere bliver mere og mere. De kommer for eksempel via selvbetjeningsportaler, som er tilgængelige på Internettet.

Disse datadimensioner kan bestemt ikke sammenlignes med forholdene i typiske industrielle eller kommercielle virksomheder. I sidste ende betyder det ikke noget, om datalageret indeholder 100 petabyte med data, bemærker Facebook-eksperten. Kravene til, hvordan man håndterer dataene, blev ændret. Frem for alt øges hastigheden, hvormed data skal fordøjes konstant, siger Parikh. "Og verden bliver sulten efter flere og flere data."

spoods.de

Presset kommer fra BI-hjørnet

Christian Trieb, databaseadministrator hos Paragon Data GmbH og leder af databasefællesskabet hos den tyske Oracle User Group (Doag) bekræfter, at udfordringerne i datahåndtering øges. "Presset kommer hovedsageligt fra business intelligence-hjørnet", beskriver eksperten situationen. Ledelsen ønskede at vide mere og mere med stadig kortere intervaller. For at levere statistikker og rapporter er det i dag vigtigt at gøre de mest forskellige typer data evaluerbare. Men dette vil også øge mængderne i databaserne.

Datamængden, der skal behandles af virksomhederne, vil vokse 42 procent i 2014, ifølge en undersøgelse foretaget af Experton Group i foråret i år. Set fra de 100 undersøgte IT-beslutningstagere er den stigende brug af cloud computing også drivkraft for datavækst. Det mobile internet, flere samarbejds- og kommunikationsværktøjer i virksomhederne såvel som den stærkere digitalisering af forretningsprocesser er yderligere datamultiplikatorer.

Datavækst får konsekvenser. Tre fjerdedele af de interviewede beslutningstagere ser et behov for handling fra deres lager- og databasesystemer. Kun halvdelen af ​​lederne ser i øjeblikket en indflydelse på analyse- og rapporteringssystemerne. Derfor konkluderer Experton-analytikere: "Udfordringerne ved datavækst skal først mestres på infrastruktursiden, før det kan være nyttigt i analyse- og rapporteringsprocesserne."

Traditionelle relationelle databasesystemudbydere er sikre på, at de kan mestre udfordringerne ved big data. "De nuværende diskussioner omkring In-Memory, NoSQL og Hadoop klarer databasemnet godt, " bemærker Oracle's vicepræsident Günther Stürner. For bare få år siden var alle aspekter såsom datastrukturer eller datamodellering blevet mærket som dødbringende kedeligt. "Nu er det pludselig den øverste hype."

„Als die objektorientierten Datenbanken aufkamen, hat man auch vom Ende der RDBMS gesprochen.“ Günther Stürner, Vice President von Oracle
”Da de objektorienterede databaser kom op, talte vi også om slutningen af ​​RDBMS.” Günther Stürner, næstformand for Oracle
Foto: Oracle

Stürner ser imidlertid ikke afslutningen på relationelle systemer. Tværtimod: "Da de objektorienterede databaser kom op for et par år siden, talte de også om afslutningen på klassiske systemer." Inden for kort tid ville de relationelle databaser imidlertid have assimileret objektorienteret teknologi. "Dette vil også ske med de teknikker, der tales om i dag, " er Oracle-manageren overbevist.

Big Data - alt inklusive

Derudover vil eksisterende databasesystemer allerede tilbyde big data-løsninger. "Teknikkerne er undertiden ikke så nye, " siger Stürner. "Det er kun nogle gange fremstillet som værende det ultimative inden for databaseteknik." Som et eksempel nævner han funktionen "Parallel Query", som oprindeligt var valgfri, men da nogle udgivelser integreres som en grundlæggende funktion i Oracle-databasen. I lighed med Hadoop og MapReduce-algoritmen kunne brugerne stærkt parallelisere anmodninger om store datamængder og arbejde hurtigere. Derudover kunne ustrukturerede data, såsom tekster, evalueres ved hjælp af en speciel databasemotor. "Den egentlige udfordring er at forklare brugerne, hvad der stort set alt i databasen er."

"Jeg tror ikke, de relationelle databaser var i deres sidste pause, " siger Boris Bialek, programdirektør for informationsstyring hos IBM. Det er dog nødvendigt at stille spørgsmålstegn ved de klassiske begreber kritisk. Det er ikke længere bare at sætte alle data i tabeller og tegne de gamle sammenligninger og relationer via SQL: "Her når den relationelle model sine grænser."

Teknikker flyder sammen

Ifølge Bialek vil eksisterende og nye teknologier konvergere og kulminere i nye databasesystemer. Det er vigtigt at fjerne kompleksiteten for udviklere og brugere. Udviklere er interesseret i at kunne skrive deres applikationer så hurtigt som muligt. De ønskede ikke at bekymre sig om databaseforbindelsen med specielle forespørgsler sprog som XQuery eller spørgsmålet om der er en klassisk database, en Hadoop-klynge eller et NoSQL-system, der fungerer i backend. "I sidste ende har programmeringssprog og grænseflade intet at gøre med, hvordan dataene er struktureret i baggrunden."

Bevis for dette er, at i dag alle talte om programmering af Hadoop med SQL. Årsagen er enkel: "Der er millioner af programmerere derude, der er bekendt med SQL." Som et resultat vil begge sider konvergere, IBM-manager er selvsikker. Selv start-up virksomheder, der udvikler en speciel løsning i dag, anerkender tendensen mod integrerede samlede løsninger. Denne konvergens vil dog tage tid: "Det vil ikke ske i de næste tolv måneder." Om fem år vil du dog finde det, du har i dag i algoritmer i et Hadoop-system, i et slags integreret databasesystem: "Jeg er sikker."

Ændring tager tid

Der vil være en relativt lang overgangsperiode, siger Jörg Besier, ansvarlig for analyse ved Accenture i Tyskland. Men selvom det fra hans synspunkt er usandsynligt, at de klassiske databaser ville blive udskiftet fuldstændigt, ser eksperten et stort potentiale for ændringer i fremtiden. For et par år siden, da business intelligence først kom op, havde folk tænkt på alternativer til den relationelle model. På det tidspunkt var teknikkerne endnu ikke modne, og hardwarebasen havde endnu ikke været kraftig nok.

Dette har ændret sig i mellemtiden, bemærker Besier. Med teknologier som In-Memory Computing, Massive Parallel Processing (MPP) som Hadoop og NoSQL, kan mange ting ændres i fremtiden med hensyn til analyser og evalueringer. Branchen er dog kun lige begyndt. På den ene side gælder dette for teknologien: "I øjeblikket ser det ikke ud som om en producent har fundet den hellige gral, der kunne løse alle problemer." Ifølge Accenture-eksperten er det dog primært til processerne på forretningssiden. I øjeblikket mangler der stadig mange ideer.

Næsten en ud af to tyske virksomheder har ingen strategi til at evaluere deres egne data og bruge dem til deres forretningsmæssige mål, ifølge en undersøgelse foretaget af Accenture blandt 168 ledere i store virksomheder. Ni ud af ti virksomheder mangler planer om bedre at støtte afdelingerne med BI-løsninger. Den største ulempe på dette tidspunkt er en velkendt: manglen på udveksling mellem IT og afdelinger. Opdelinger vil ikke blive informeret nok om nye analysemuligheder. Tre fjerdedele af afdelingerne vil gerne være helt eller i det mindste delvist uafhængige af IT, fordi de følte sig utilstrækkeligt støttet med hensyn til BI, og mere end halvdelen af ​​virksomhederne ville implementere BI-initiativer i afdelingerne uden viden om IT-afdelinger.

Jongler data intelligent

„Ich glaube nicht, dass den relationalen Datenbanken das letzte Stündlein geschlagen hat.“ Boris Bialek, Program Director IBM
”Jeg tror ikke, de relationelle databaser var deres sidste pause.” Boris Bialek, programdirektør IBM
Foto: IBM

Accenture-eksperterne opfordrer derfor til centrale kompetencecentre til at levere processer, organisering og teknologi til integration af forskellige data. Sidst, men ikke mindst, for at være i stand til at bruge emnekompetence inden for statistik og data mining effektivt på tværs af alle emner.

IT skal vide, hvad virksomheden har brug for, og give den rigtige infrastruktur til håndtering af data og datakilder, siger Donald Feinberg, vicepræsident og BI-ekspert i Gartner. Virksomheden har brug for at kende sine muligheder, men den behøver ikke at beskæftige sig med hvor data ligger. Udfordringen for IT vil være at jonglere dataene så intelligent som muligt mellem kilder og lagerpladser. "At pakke alt ind i datalageret kan ikke være løsningen."

Ifølge Feinberg vil virksomheder bruge forskellige værktøjer. Større virksomheder bruger allerede 20 til 30 værktøjer i database- og analysemiljøet. Selv hvis det er vanskeligt at understøtte disse heterogene sammensatte arkitekturer - "hvis forretningsfordelene taler for det, er der ingen vej rundt det". Tricket er at vælge de rigtige værktøjer til de rigtige data: "Nogle værktøjer er modne til forretningsbrug, andre er det ikke." F.eks. Er Hadoop / Map-Reduce som en funktion ganske moden, men det underliggende filsystem er bestemt ikke så robust som databaserne til IBM og Oracle. Selvom der er visse sikkerhedsmekanismer, "er det lige så godt muligt at miste alle data med et sådant værktøj". Virksomheder bliver nødt til at tænke grundigt over, hvad de spillede her.

Doag-medlem Trieb ser i mellemtiden ikke nødvendigt at ændre de kendte databasearkitekturer grundlæggende: "Med de tilgængelige ressourcer kan du gå langt." Han henviser til kraftig hardware og yderligere indstillinger fra databaseproducenten. Han lukker imidlertid ikke øjnene for den nye udvikling. Se på disse ting, prøv det ene eller det andet og se, om det hjælper. "Den reelle forretningsrelevans mangler stadig, " konkluderer han. Du kan heller ikke kaste hele databasearkitekturen med nogle få år. Når alt kommer til alt ville de fleste have investeret en masse penge i disse systemer. "Du kan ikke konstant jage efter hver trend, " advarer eksperten. "Du er nødt til at holde øje med udviklingen, men også køre en databaselinje, der er designet til mellemlang og lang sigt."

Tuning koster penge

Normalt ser man først på sin egen leverandør for yderligere funktioner og værktøjer. Erfaringen har vist, at integrationsindsatsen er lavere. Trieb nævner Oracle's database i hukommelsen, TimesTen, som et eksempel, som kan bruges til at løse I / O-sårbarheden i klassiske systemer. Dog skal en ting være klart for brugerfirmaet, siger Trieb: "Tuning kommer til en pris, så hvis du ønsker at få mere magt ud af din database, skal du investere og investere penge."