Anonim

På den 26. internationale Supercomputing-konference mødtes hvem-er-hvem fra området high-performance computing. Blandt de over 2000 deltagere er også det Köln-baserede opstartfirma Parstream, der har udviklet et nyt indeks til brug af multiprocessorarkitekturer inklusive grafikbehandlingsenheder (GPU'er) i højtydende computere. Dette betyder, at data kan behandles ned til petabyteområdet og analyseres i brøkdele af et sekund ifølge fabrikanten.

Ubrudt data oversvømmelse

Baggrunden for udviklingen er den verdensomspændende eksploderende mængde data. Ifølge IDC-markedsundersøgere skulle det i 2020 allerede være 44 gange større end i 2009 og nå op på et volumen på 25 zettabyte. "Big data er ikke længere blot et emne for videnskab, og mange virksomheder har længe været udsat for udfordringen med at skulle behandle enorme mængder data og frem for alt bruge den viden, der ligger i dem til deres forretning, " siger Jörg Bienert, en grundlæggeren og CEO for Parstream.

SQL og No-SQL

Hverken traditionelle databasesystemer eller No-SQL-fremgangsmåder ville ifølge Bienert optimalt imødekomme fremtidige krav: Relationsdatabaser er for langsomme og designet til at analysere mindre mængder data, mens No-SQL-databaser er dårligt udstyret til mere komplekse forespørgsler, hvoraf mange Forhold mellem forskellige datasæt skulle være etableret. I form af en søjleorienteret database i hukommelsen, ønsker Parstream at kombinere begge egenskaber: funktionaliteten af ​​relationelle databaser, herunder evnen til at sammenføje tabeller (sammenføj), og fordelene ved no-SQL-fremgangsmåden, der muliggør parallel og dermed meget hurtigere databehandling,

Komprimeret indeks

Producenten har tilpasset sit eponyme produkt på multiprocessorarkitekturer. Det bruger standard CPU-baserede arkitekturer, GPU'er og multikernesystemer eller en kombination af disse teknikker. Nøglen til ressourcebrug ligger i et nyt indeks, som Parstream har indgivet til patent.

Dette er et såkaldt High Parallel Compression Index, som i modsætning til indekserne i andre databaser ikke behøver at dekomprimeres. "På denne måde er vi kun i stand til at bevæge og analysere omkring en tyvende af datamængden sammenlignet med andre systemer, " forklarer Bienert. Teknologien gør det også muligt at søge og analysere data samtidigt. Afkoblingen af ​​dataimport og dataanalyse bidrager også væsentligt til hastighedsforøgelsen: Ifølge producenten bremser analysen ikke, når nye data indlæses på samme tid. Dette er muligt på grund af den flerdimensionelle partitionering i henhold til specifikke filterelementer allerede under dataimporten.

spoods.de

Mindre hardware kræves

Takket være komprimering, siger Bienert, kræver systemet op til 20 gange mindre hardwarekapacitet end traditionel massedataanalyse. Databasen er skalerbar, og dens ydeevne stiger i forhold til antallet af anvendt hardware. Infrastrukturen kan være både enkelt-servere og klynger såvel som cloud-løsninger.

Parstream ser applikationsscenarier for sit produkt i en lang række industrier. F.eks. Er energisektoren i høj efterspørgsel efter kompleks massedataanalyse, såsom introduktion af smarte gitter, telekommunikationsnetværksovervågningsfirmaer, e-handelsvirksomheder til mere sofistikerede webanalyser, kreditkortbedrageri-detektionsindustri eller videnskab til klima eller genetisk forskning.

COMPUTER WEEK Markedsundersøgelse

Datakvalitet (39, 90 €)

Hvad skal man gøre for bedre datakvalitet? Vi spurgte vores læsere fra IT-ledelse, om og med hvilken succes de sikrer en ren database.

bestil her: