Datavarasto ja datajärvi

Määritelmä, yhtäläisyydet ja erot

Datavarasto vs. datajärvi

Yrityksissä kerättyjen tietojen määrä kasvaa jatkuvasti, ja sen myötä myös tarve hallita näitä tietoja optimaalisesti ja käyttää niitä analyyseissä kasvaa. Datavarastot ja datajärvet ovat vakiintuneita ratkaisuja suurten tietomäärien tallentamiseen. Kerromme näiden kahden vaihtoehdon tärkeimmistä eroista.

Mikä on datavarasto?

Termi datavarasto viittaa tietojen keskitettyyn kokoamiseen, joka on yleensä osa business intelligence -ratkaisua. Sinne voidaan kerätä ja tallentaa suuri määrä tietoa eri lähteistä. Tätä varten tietovarasto poimii säännöllisesti tietoja eri järjestelmistä, jotka sitten tarkistetaan, puhdistetaan, muotoillaan ja verrataan jo olemassa oleviin tietoihin. Näin tapahtuu niin sanottu ETL-prosessi (Extract, Transform, Load). Tätä varten määritetään ensin tietojen rakenne, eli niin sanottu skeema. Tätä menettelyä kutsutaan nimellä Schema on Write, ja siinä määritetään, miltä konsolidoidut tiedot näyttävät. Koska tiedot tallennetaan yleensä taulukoihin, skeema vastaa esimerkiksi seuraaviin kysymyksiin:

  • Miltä taulukon rivi näyttää?
  • Mitä ominaisuuksia kukin rivi sisältää?
  • Mitä tietoja odotetaan olevan?

Käsitellyt tiedot tallennetaan siten, että käyttäjät voivat käyttää niitä milloin tahansa.

Datavarasto ja datajärvi

Datavarastojen edut

  • Helppo analyysi: Koska tietovarastossa olevat tiedot ovat saatavilla yhtenäisessä muodossa, niitä voidaan helposti analysoida BI-järjestelmässä ja siten käyttää päätöksentekoon. Myös käyttäjät, joilla ei ole tietoteknistä osaamista, voivat näin ollen saada tärkeitä oivalluksia saatavilla olevista tiedoista.
  • Tietojen yhdistäminen: Koska tietovarastoon kerätään tietoja eri tietokannoista, eri lähteistä peräisin olevat tiedot voidaan helposti liittää toisiinsa tai niitä voidaan analysoida korrelaatioiden löytämiseksi.
  • Tiedon laatu: Koska tiedot validoidaan ja muotoillaan ennen niiden tallentamista, tietovarasto sisältää vain yhdenmukaisia ja olennaisia tietoja. Käytettävissä olevien tietojen laatu on näin ollen erittäin korkea.

Datavarastojen haitat

  • Puuttuvat tiedot: Datavarastoon tallennetaan vain sellaiset tiedot, joita tarvitaan alun perin aiottuun tarkoitukseen. Jos lisää tietoja tarvitaan, ne on lisättävä tietovarastoon hankalalla tavalla.
  • Vähemmän joustavuutta: Jos tietovaraston käyttötarkoitus on muuttunut tai jos tulevaisuudessa tarvitaan lisää tietoja, datavarastoa on mukautettava. Tämä johtuu siitä, että tietomalli tai -rakenne on määritelty etukäteen (schema on write). Tämän muuttaminen voi olla aikaa vievää ja kallista. Tietovarasto ei näin ollen ole yhtä joustava uusien tietolähteiden suhteen.
  • Korkeat käyttöönottokustannukset: Koska schema on write on määriteltävä ennen datavaraston käytön aloittamista, syntyy aluksi korkeampia kustannuksia.

Mikä on datajärvi?

Datajärvellä tarkoitetaan keskitettyä tietovarastoa, johon tallennetaan suuria määriä eri lähteistä peräisin olevia tietoja, yleensä raakamuotoisina. Mutta myös strukturoitua tai puolistrukturoitua dataa voidaan säilyttää. Kun siis datavarastoon tallennetaan vain strukturoitua tietoa, datajärviin voidaan tallentaa tietoa eri muodoissa ja saattaa se näin käyttäjien saataville. Tällöin tietomalli tallennetaan yksityiskohtaisesti vasta sisältöä luettaessa (schema on read), mikä voi olla virhealtista. Siksi tässä tapahtuu ELT-prosessi (Extract, Load, Transform).

Data Lake

Datajärvien edut

  • Saavutettavuus: Yrityksen tiedot tallennetaan keskitetysti datajärveen, joten kaikki käyttäjät pääsevät niihin helposti käsiksi.
  • Tietosiilojen välttäminen: Sekä strukturoitua että puolistrukturoitua tai strukturoimatonta tietoa voidaan tallentaa. Näin vältetään datasiiloja.
  • Suuri joustavuus: Tietoa voidaan muuttaa ja muokata, jotta sitä voidaan analysoida eri tarkoituksiin. Lisätietolähteitä voidaan lisätä helposti ja ilman suuria muutoksia datajärveen.
  • Koneoppiminen: Tallennetut tiedot soveltuvat erinomaisesti koneoppimiseen.

Datajärvien haitat

  • Varastointikapasiteetti: Koska kaikki tiedot tallennetaan suodattamattomina, tarvitaan enemmän muistia kuin datavarastossa.
  • Tietojen laatu: Ilman tietojen laatua ja tiedonhallintaa koskevia toimenpiteitä tallennetuista tiedoista voi tulla nopeasti niin sanottu datasuo. Datasuot on ylläpitämätön datajärvi, jossa tietoja tallennetaan ilman asianmukaista dokumentointia, jolloin yleiskuva katoaa nopeasti.

Samankaltaisuudet ja erot

Sekä datavarastot että datajärvet on suunniteltu liiketoiminta-analyysejä varten, ja ne toimivat yrityksen keskeisinä tietovarastoina. Koska niiden tarkoitus ja tavoitteet ovat samankaltaiset, nämä kaksi teknologiaa on helppo sekoittaa keskenään. Tärkeimmät erot ovat:

 

Datavarasto Datajärvi
Datan rakenne Strukturoitu, käsitelty tieto Strukturoitu ja puolistrukturoitu data, mutta pääasiassa raakadata.
Tietojen tallentamisen tarkoitus Määritelty, joten pienempi tietomäärä Ei määritelty, joten suurempi tietomäärä
Käyttäjät Erilaiset käyttäjät, useimmiten ilman datatieteellistä osaamista Data-asiantuntijat tai erityistyökalut, joita tarvitaan tietojen muuntamiseen muille käyttäjille.
Saavutettavuus Muutokset monimutkaisia ja kalliita Tiedot ovat helposti saatavilla, nopeasti ja helposti päivitettävissä
Skeema Schema on Write: Skeema määritellään ennen tietojen tallentamista Schema on Read: Schema määritellään, kun tiedot luetaan.

Miten tehdä oikea valinta

Se, onko datavarasto vai datajärvi sinulle parempi valinta, riippuu useista tekijöistä, jotka saattavat jo käydä ilmi näiden kahden tekniikan välisistä eroista. Kysy siis itseltäsi:

  • Pitäisikö tietojen olla jäsenneltyjä vai raakamuotoisia?
  • Täytyykö tietojen palvella tiettyä tarkoitusta?
  • Kuka tietoja käyttää?
  • Kuinka todennäköistä on, että arviointivaatimukset muuttuvat?

Tulevaisuus: Data Lakehouse

Yritykset eivät useinkaan pysty tekemään selkeää päätöstä siitä, tarvitsevatko ne datavarastoa vai datajärveä. Ne tarvitsevat pikemminkin molempia – datajärveä, jotta ne voivat hyödyntää raakadataa, mutta myös datavarastoa, jotta ne voivat tarjota analytiikkaa kaikille liiketoiminnan käyttäjille. Näiden kahden teknologian samanaikaisesta käyttämisestä on kuitenkin se haittapuoli, että tiedot tallennetaan kahteen tai useampaan paikkaan, joten niitä on myös analysoitava, ylläpidettävä ja valvottava eri paikoissa. Tämä puolestaan voi johtaa virheisiin tai vanhentuneisiin tietoihin.
Data lakehouse yhdistää datajärvien joustavuuden ja datavaraston rakennetta luovat prosessit ja tarjoaa siten molempien tekniikoiden parhaat puolet. Näin BI-järjestelmässä voidaan analysoida myös jäsentymätöntä dataa.

Yhteenveto

Datavarastot ja datajärvet on suunniteltu liiketoiminta-analyysejä varten. Molemmilla on etunsa ja haittansa, mutta ne voivat myös täydentää toisiaan. Se, mikä on sopivampi ratkaisu yrityksesi tietojen hallintaan, riippuu tarpeistasi ja erilaisista olosuhteista.

Business Intelligence -ohjelmisto myPARM BIact perustuu pohjimmiltaan datavarastoihin. Tämä mahdollistaa sen, että työntekijät, joilla ei ole tietoteknistä osaamista, voivat analysoida tallennettuja tietoja, luoda raportteja sekä kaavioita ja saada tiedoista tärkeitä oivalluksia.

MyPARM BIactissa on kuitenkin mahdollista yhdistää ja analysoida myös puolistrukturoitua tietoa. Tämä edellyttää kuitenkin korkeampaa osaamista tietomallin rakenteesta, jotta tällaisia tietoja voidaan analysoida. Tämä tarkoittaa, että saatetaan tarvita datatutkijan asiantuntemusta.

Lue lisää Business Intelligence Software -ohjelmistosta myPARM BIact:

Haluaisitko tutustua myPARM BIactiin demoesityksessä? Siinä tapauksessa voit varata ajan tapaamiseen vaikka samantien!

Your registration could not be saved. Please try again.
Your subscription was successful. Please check your mailbox and confirm your registration.
Newsletter
Subscribe to our monthly newsletter and stay informed about Parm AG products, news, trends in project management as well as offers and events.