Datavarasto ja datajärvi
Määritelmä, yhtäläisyydet ja erot
Yrityksissä kerättyjen tietojen määrä kasvaa jatkuvasti, ja sen myötä myös tarve hallita näitä tietoja optimaalisesti ja käyttää niitä analyyseissä kasvaa. Datavarastot ja datajärvet ovat vakiintuneita ratkaisuja suurten tietomäärien tallentamiseen. Kerromme näiden kahden vaihtoehdon tärkeimmistä eroista.
Mikä on datavarasto?
Termi datavarasto viittaa tietojen keskitettyyn kokoamiseen, joka on yleensä osa business intelligence -ratkaisua. Sinne voidaan kerätä ja tallentaa suuri määrä tietoa eri lähteistä. Tätä varten tietovarasto poimii säännöllisesti tietoja eri järjestelmistä, jotka sitten tarkistetaan, puhdistetaan, muotoillaan ja verrataan jo olemassa oleviin tietoihin. Näin tapahtuu niin sanottu ETL-prosessi (Extract, Transform, Load). Tätä varten määritetään ensin tietojen rakenne, eli niin sanottu skeema. Tätä menettelyä kutsutaan nimellä Schema on Write, ja siinä määritetään, miltä konsolidoidut tiedot näyttävät. Koska tiedot tallennetaan yleensä taulukoihin, skeema vastaa esimerkiksi seuraaviin kysymyksiin:
- Miltä taulukon rivi näyttää?
- Mitä ominaisuuksia kukin rivi sisältää?
- Mitä tietoja odotetaan olevan?
Käsitellyt tiedot tallennetaan siten, että käyttäjät voivat käyttää niitä milloin tahansa.
Datavarastojen edut
- Helppo analyysi: Koska tietovarastossa olevat tiedot ovat saatavilla yhtenäisessä muodossa, niitä voidaan helposti analysoida BI-järjestelmässä ja siten käyttää päätöksentekoon. Myös käyttäjät, joilla ei ole tietoteknistä osaamista, voivat näin ollen saada tärkeitä oivalluksia saatavilla olevista tiedoista.
- Tietojen yhdistäminen: Koska tietovarastoon kerätään tietoja eri tietokannoista, eri lähteistä peräisin olevat tiedot voidaan helposti liittää toisiinsa tai niitä voidaan analysoida korrelaatioiden löytämiseksi.
- Tiedon laatu: Koska tiedot validoidaan ja muotoillaan ennen niiden tallentamista, tietovarasto sisältää vain yhdenmukaisia ja olennaisia tietoja. Käytettävissä olevien tietojen laatu on näin ollen erittäin korkea.
Datavarastojen haitat
- Puuttuvat tiedot: Datavarastoon tallennetaan vain sellaiset tiedot, joita tarvitaan alun perin aiottuun tarkoitukseen. Jos lisää tietoja tarvitaan, ne on lisättävä tietovarastoon hankalalla tavalla.
- Vähemmän joustavuutta: Jos tietovaraston käyttötarkoitus on muuttunut tai jos tulevaisuudessa tarvitaan lisää tietoja, datavarastoa on mukautettava. Tämä johtuu siitä, että tietomalli tai -rakenne on määritelty etukäteen (schema on write). Tämän muuttaminen voi olla aikaa vievää ja kallista. Tietovarasto ei näin ollen ole yhtä joustava uusien tietolähteiden suhteen.
- Korkeat käyttöönottokustannukset: Koska schema on write on määriteltävä ennen datavaraston käytön aloittamista, syntyy aluksi korkeampia kustannuksia.
Mikä on datajärvi?
Datajärvellä tarkoitetaan keskitettyä tietovarastoa, johon tallennetaan suuria määriä eri lähteistä peräisin olevia tietoja, yleensä raakamuotoisina. Mutta myös strukturoitua tai puolistrukturoitua dataa voidaan säilyttää. Kun siis datavarastoon tallennetaan vain strukturoitua tietoa, datajärviin voidaan tallentaa tietoa eri muodoissa ja saattaa se näin käyttäjien saataville. Tällöin tietomalli tallennetaan yksityiskohtaisesti vasta sisältöä luettaessa (schema on read), mikä voi olla virhealtista. Siksi tässä tapahtuu ELT-prosessi (Extract, Load, Transform).
Datajärvien edut
- Saavutettavuus: Yrityksen tiedot tallennetaan keskitetysti datajärveen, joten kaikki käyttäjät pääsevät niihin helposti käsiksi.
- Tietosiilojen välttäminen: Sekä strukturoitua että puolistrukturoitua tai strukturoimatonta tietoa voidaan tallentaa. Näin vältetään datasiiloja.
- Suuri joustavuus: Tietoa voidaan muuttaa ja muokata, jotta sitä voidaan analysoida eri tarkoituksiin. Lisätietolähteitä voidaan lisätä helposti ja ilman suuria muutoksia datajärveen.
- Koneoppiminen: Tallennetut tiedot soveltuvat erinomaisesti koneoppimiseen.
Datajärvien haitat
- Varastointikapasiteetti: Koska kaikki tiedot tallennetaan suodattamattomina, tarvitaan enemmän muistia kuin datavarastossa.
- Tietojen laatu: Ilman tietojen laatua ja tiedonhallintaa koskevia toimenpiteitä tallennetuista tiedoista voi tulla nopeasti niin sanottu datasuo. Datasuot on ylläpitämätön datajärvi, jossa tietoja tallennetaan ilman asianmukaista dokumentointia, jolloin yleiskuva katoaa nopeasti.
Samankaltaisuudet ja erot
Sekä datavarastot että datajärvet on suunniteltu liiketoiminta-analyysejä varten, ja ne toimivat yrityksen keskeisinä tietovarastoina. Koska niiden tarkoitus ja tavoitteet ovat samankaltaiset, nämä kaksi teknologiaa on helppo sekoittaa keskenään. Tärkeimmät erot ovat:
Datavarasto | Datajärvi | |
Datan rakenne | Strukturoitu, käsitelty tieto | Strukturoitu ja puolistrukturoitu data, mutta pääasiassa raakadata. |
Tietojen tallentamisen tarkoitus | Määritelty, joten pienempi tietomäärä | Ei määritelty, joten suurempi tietomäärä |
Käyttäjät | Erilaiset käyttäjät, useimmiten ilman datatieteellistä osaamista | Data-asiantuntijat tai erityistyökalut, joita tarvitaan tietojen muuntamiseen muille käyttäjille. |
Saavutettavuus | Muutokset monimutkaisia ja kalliita | Tiedot ovat helposti saatavilla, nopeasti ja helposti päivitettävissä |
Skeema | Schema on Write: Skeema määritellään ennen tietojen tallentamista | Schema on Read: Schema määritellään, kun tiedot luetaan. |
Miten tehdä oikea valinta
Se, onko datavarasto vai datajärvi sinulle parempi valinta, riippuu useista tekijöistä, jotka saattavat jo käydä ilmi näiden kahden tekniikan välisistä eroista. Kysy siis itseltäsi:
- Pitäisikö tietojen olla jäsenneltyjä vai raakamuotoisia?
- Täytyykö tietojen palvella tiettyä tarkoitusta?
- Kuka tietoja käyttää?
- Kuinka todennäköistä on, että arviointivaatimukset muuttuvat?
Tulevaisuus: Data Lakehouse
Yritykset eivät useinkaan pysty tekemään selkeää päätöstä siitä, tarvitsevatko ne datavarastoa vai datajärveä. Ne tarvitsevat pikemminkin molempia – datajärveä, jotta ne voivat hyödyntää raakadataa, mutta myös datavarastoa, jotta ne voivat tarjota analytiikkaa kaikille liiketoiminnan käyttäjille. Näiden kahden teknologian samanaikaisesta käyttämisestä on kuitenkin se haittapuoli, että tiedot tallennetaan kahteen tai useampaan paikkaan, joten niitä on myös analysoitava, ylläpidettävä ja valvottava eri paikoissa. Tämä puolestaan voi johtaa virheisiin tai vanhentuneisiin tietoihin.
Data lakehouse yhdistää datajärvien joustavuuden ja datavaraston rakennetta luovat prosessit ja tarjoaa siten molempien tekniikoiden parhaat puolet. Näin BI-järjestelmässä voidaan analysoida myös jäsentymätöntä dataa.
Yhteenveto
Datavarastot ja datajärvet on suunniteltu liiketoiminta-analyysejä varten. Molemmilla on etunsa ja haittansa, mutta ne voivat myös täydentää toisiaan. Se, mikä on sopivampi ratkaisu yrityksesi tietojen hallintaan, riippuu tarpeistasi ja erilaisista olosuhteista.
Business Intelligence -ohjelmisto myPARM BIact perustuu pohjimmiltaan datavarastoihin. Tämä mahdollistaa sen, että työntekijät, joilla ei ole tietoteknistä osaamista, voivat analysoida tallennettuja tietoja, luoda raportteja sekä kaavioita ja saada tiedoista tärkeitä oivalluksia.
MyPARM BIactissa on kuitenkin mahdollista yhdistää ja analysoida myös puolistrukturoitua tietoa. Tämä edellyttää kuitenkin korkeampaa osaamista tietomallin rakenteesta, jotta tällaisia tietoja voidaan analysoida. Tämä tarkoittaa, että saatetaan tarvita datatutkijan asiantuntemusta.
Lue lisää Business Intelligence Software -ohjelmistosta myPARM BIact:
Haluaisitko tutustua myPARM BIactiin demoesityksessä? Siinä tapauksessa voit varata ajan tapaamiseen vaikka samantien!