Informatica ETL: Začetniški priročnik za razumevanje ETL z uporabo Informatica PowerCenter



Razumevanje konceptov Informatica ETL in različnih faz postopka ETL ter praksa primera uporabe, ki vključuje bazo podatkov zaposlenih.

Namen Informatica ETL je zagotoviti uporabnikom ne le postopek pridobivanja podatkov iz izvornih sistemov in njihovega vnosa v podatkovno skladišče, temveč tudi uporabnikom skupno platformo za integracijo njihovih podatkov z različnih platform in aplikacij.To je povzročilo povečanje povpraševanja po .Preden se pogovorimo o Informatica ETL, najprej razumemo, zakaj potrebujemo ETL.

Zakaj potrebujemo ETL?

Vsako podjetjev teh dneh mora obdelati velike nabore podatkov iz različnih virov. Te podatke je treba obdelati, da se dobijo vpogledne informacije za sprejemanje poslovnih odločitev. Toda pogosto imajo takšni podatki naslednje izzive:





  • Velika podjetja ustvarijo veliko podatkov in tako ogromen del podatkov je lahko v kateri koli obliki. Na voljo bi bili v več zbirkah podatkov in številnih nestrukturiranih datotekah.
  • Te podatke je treba zbrati, združiti, primerjati in narediti tako, da delujejo kot brezhibna celota. Toda različne zbirke podatkov ne komunicirajo dobro!
  • Številne organizacije so vgradile vmesnike med temi bazami podatkov, vendar so se soočale z naslednjimi izzivi:
    • Vsak par baz podatkov potrebuje edinstven vmesnik.
    • Če spremenite eno bazo podatkov, bo morda treba nadgraditi veliko vmesnikov.

Spodaj si lahko ogledate različne zbirke podatkov organizacije in njihove interakcije:

Različni nabori podatkov organizacije - Informatica - ETL - Edureka

Različne zbirke podatkov, ki jih uporabljajo različni oddelki organizacije



Različne interakcije baz podatkov v organizaciji

Kot je razvidno zgoraj, ima lahko organizacija različne zbirke podatkov v svojih različnih oddelkih in interakcijo med njimi je težko izvesti, saj je treba zanje ustvariti različne vmesnike za interakcijo. Za premagovanje teh izzivov je najboljša možna rešitev uporaba konceptov Integracija podatkov kar bi omogočilo medsebojno komunikacijo podatkov iz različnih zbirk podatkov in formatov. Spodnja slika nam pomaga razumeti, kako orodje za integracijo podatkov postane skupni vmesnik za komunikacijo med različnimi bazami podatkov.

Različne zbirke podatkov, povezane prek integracije podatkov



Za izvedbo integracije podatkov pa so na voljo različni postopki. Med temi procesi je ETL najbolj optimalen, učinkovit in zanesljiv postopek. Preko ETL lahko uporabnik ne samo vnese podatke iz različnih virov, temveč lahko izvede različne operacije s podatki, preden jih shrani na končni cilj.

Med različnimi orodji ETL, ki so na voljo na trgu, je Informatica PowerCenter vodilna tržna platforma za integracijo podatkov. Po preizkusu na skoraj 500.000 kombinacijah platform in aplikacij Informatica PowerCenter inter deluje z najširšim možnim naborom različnih standardov, sistemov in aplikacij. Zdaj razumimo korake, ki so vključeni v postopek ETL Informatica.

Informatika ETL | Informatica Arhitektura | Vadnica za Informatica PowerCenter | Edureka

Ta vadnica Edureka Informatica vam pomaga podrobneje razumeti osnove ETL z uporabo Informatica Powercenter.

Koraki v procesu informiranja ETL:

Preden se lotimo različnih korakov, povezanih z Informatica ETL, si oglejmo ETL. V ETL je pridobivanje podatkov, kjer se podatki pridobivajo iz homogenih ali heterogenih virov podatkov, preoblikovanje, kjer se podatki pretvorijo za shranjevanje v ustrezni obliki ali strukturi za namene poizvedb in analiz ter nalaganje, kjer se podatki naložijo v končno ciljno bazo podatkov, operativna shramba podatkov, podatkovna zbirka ali skladišče podatkov. Spodnja slika vam bo pomagala razumeti, kako poteka postopek ETL Informatica.

Pregled postopka ETL

Kot je razvidno zgoraj, lahko Informatica PowerCenter naloži podatke iz različnih virov in jih shrani v eno samo podatkovno skladišče. Zdaj pa si oglejmo korake, ki so vključeni v postopek ETL Informatica.

V postopku ETL Informatica so v glavnem 4 koraki, zdaj jih poglobljeno razumemo:

  1. Izvleček ali zajem
  2. Piling ali čiščenje
  3. Preobrazba
  4. Obremenitev in indeks

1. Izvleček ali zajem: Kot je razvidno na spodnji sliki, je zajem ali izvleček prvi korak postopka ETL Informatica.Gre za postopek pridobivanja posnetka izbrane podskupine podatkov iz vira, ki ga je treba naložiti v podatkovno skladišče. Posnetek je statični pogled podatkov v bazi podatkov, ki je samo za branje. Postopek ekstrakcije je lahko dveh vrst:

  • Celoten izvleček: Podatki so v celoti izvlečeni iz izvornega sistema in sprememb zadrževanja podatkov od zadnjega uspešnega pridobivanja ni treba spremljati.
  • Inkrementalni ekstrakt: To bo zajelo le spremembe, ki so se zgodile od zadnjega celotnega izvlečka.

1. faza: izvleček ali zajem

2. Piling ali čiščenje: To je postopek čiščenja podatkov, ki prihajajo iz vira, z uporabo različnih tehnik prepoznavanja vzorcev in umetne inteligence za nadgradnjo kakovosti podatkov, posredovanih naprej. Običajno so napake, kot so napačno črkovane besede, napačni datumi, nepravilna uporaba polja, neusklajeni naslovi, manjkajoči podatki, podvojeni podatki, nedoslednostipoudari in nato popravi ali odstraniv tem koraku. V tem koraku se izvajajo tudi operacije, kot so dekodiranje, preoblikovanje, časovno žigosanje, pretvorba, generiranje ključev, združevanje, odkrivanje / beleženje napak, iskanje manjkajočih podatkov. Kot je razvidno iz spodnje slike, je to drugi korak postopka ETL Informatica.

2. faza: čiščenje ali čiščenje podatkov

3. Preoblikovanje: Kot je razvidno iz spodnje slike, je to tretji in najpomembnejši korak postopka ETL Informatica. Transformacije je pretvorba podatkov iz oblike izvornega sistema v okostje Data Warehouse. Transformacija se v osnovi uporablja za predstavljanje nabora pravil, ki opredeljujejo pretok podatkov in način nalaganja podatkov v cilje. Če želite izvedeti več o preobrazbi, si oglejte Preobrazbe v Informatici Spletni dnevnik.

Faza 3: Preobrazba

kako dodati v java -

4. Obremenitev in indeks: To je zadnji korak postopka Informatica ETL, kot je razvidno iz spodnje slike. V tej fazi preoblikovane podatke shranimo v skladišče in ustvarimo indekse za podatke. Glede na postopek nalaganja sta na voljo dve glavni vrsti nalaganja podatkov:

  • Polna obremenitev ali razsuti tovor :Postopek nalaganja podatkov, ko to storimo prvič. Opravilo izvleče celoten obseg podatkov iz izvorne tabele in se po uporabi zahtevanih transformacij naloži v ciljno skladišče podatkov. To bo enkratno opravilo, nato pa bodo spremembe zajete samo kot del postopnega izvlečka.
  • Dodatna obremenitev ali osvežitev : Samo spremenjeni podatki bodo posodobljeni v cilju, nato pa bo naložena polna obremenitev. Spremembe bodo zajete s primerjavo ustvarjenega ali spremenjenega datuma z datumom zadnjega izvajanja opravila.Samo spremenjeni podatki so izvlečeni iz vira in bodo posodobljeni v cilju, ne da bi to vplivalo na obstoječe podatke.

4. faza: obremenitev in indeks

Če ste razumeli postopek ETL Informatica, smo zdaj v boljšem položaju, da razumemo, zakaj je Informatica v takih primerih najboljša rešitev.

Značilnosti Informatica ETL:

Za vse operacije integracije podatkov in ETL nam je zagotovila Informatica Informatica PowerCenter . Oglejmo si zdaj nekaj ključnih značilnosti Informatica ETL:

  • Omogoča določitev velikega števila pravil pretvorbe z grafičnim uporabniškim vmesnikom.
  • Ustvari programe za preoblikovanje podatkov.
  • Ravnajte z več viri podatkov.
  • Podpira pridobivanje, čiščenje, združevanje, reorganizacijo, preoblikovanje in nalaganje podatkov.
  • Samodejno ustvari programe za pridobivanje podatkov.
  • Hitro nalaganje ciljnih podatkovnih skladišč.

Spodaj je nekaj tipičnih scenarijev, v katerih se uporablja Informatica PowerCenter:

  1. Migracija podatkov:

Podjetje je za svojo računovodsko službo kupilo novo aplikacijo za plačila računov. PowerCenter lahko obstoječe podatke o računu premakne v novo aplikacijo. Spodnja slika vam bo pomagala razumeti, kako lahko uporabite Informatica PowerCenter za selitev podatkov. Informatica PowerCenter lahko med postopkom selitve podatkov enostavno ohrani podatkovno linijo za davčne, računovodske in druge zakonsko določene namene.

Migracija podatkov iz starejše aplikacije za računovodstvo v novo aplikacijo

  1. Integracija aplikacij:

Recimo, da Company-A kupi Company-B. Da bi dosegli prednosti konsolidacije, je treba sistem zaračunavanja podjetja-B integrirati v sistem obračunavanja podjetja-A, kar je mogoče enostavno narediti z uporabo Informatica PowerCenter. Spodnja slika vam bo pomagala razumeti, kako lahko Informatica PowerCenter uporabite za integracijo aplikacij med podjetji.

Vključevanje aplikacij med podjetji

  1. Skladiščenje podatkov

Tipična dejanja, ki se zahtevajo v podatkovnih skladiščih, so:

  • Združevanje informacij iz številnih virov za analizo.
  • Premikanje podatkov iz številnih baz podatkov v podatkovno skladišče.

Vse zgoraj navedene tipične primere je mogoče enostavno izvesti z uporabo Informatica PowerCenter. Spodaj lahko vidite, da se Informatica PowerCenter uporablja za združevanje podatkov iz različnih vrst baz podatkov, kot so Oracle, SalesForce itd., In za njihovo vnos v skupno podatkovno skladišče, ki ga je ustvaril Informatica PowerCenter.

Podatki iz različnih zbirk podatkov, integriranih v skupno podatkovno skladišče

  1. Vmesna programska oprema

Recimo, da maloprodajna organizacija uporablja SAP R3 za svoje maloprodajne aplikacije in SAP BW kot svoje podatkovno skladišče. Neposredna komunikacija med tema dvema aplikacijama ni mogoča zaradi pomanjkanja komunikacijskega vmesnika. Vendar pa lahko Informatica PowerCenter uporabljate kot vmesno programsko opremo med tema dvema programoma. Na spodnji sliki si lahko ogledate arhitekturo, kako se Informatica PowerCenter uporablja kot vmesna programska oprema med SAP R / 3 in SAP BW. Aplikacije iz SAP R / 3 prenesejo svoje podatke v ogrodje ABAP, ki jih nato prenese vSAP prodajno mesto (POS) in SAPRačuni storitev (BOS). Informatica PowerCenter pomaga pri prenosu podatkov iz teh storitev v poslovno skladišče SAP (BW).

Informatica PowerCenter kot Middleware v SAP Retail Architecture

Čeprav ste videli nekaj ključnih značilnosti in tipičnih scenarijev Informatica ETL, upam, da razumete, zakaj je Informatica PowerCenter najboljše orodje za postopek ETL. Oglejmo si zdaj primer uporabe Informatica ETL.

Primer uporabe: Združevanje dveh tabel za pridobitev enotne podrobne tabele

Recimo, da želite svojim zaposlenim zagotoviti odsek pametnega prevoza, saj so oddelki na različnih lokacijah. Za to morate najprej vedeti, kateremu oddelku pripada vsak zaposleni, in lokacijo oddelka. Podrobnosti o zaposlenih pa so shranjene v različnih tabelah in podatke o oddelku morate združiti v obstoječo zbirko podatkov s podrobnostmi o vseh zaposlenih. Da bi to naredili, bomo najprej naložili obe tabeli v Informatica PowerCenter, izvedli pretvorbo izvornega kvalifikatorja podatkov in na koncu naložili podrobnosti v Target Database.Začnimo:

Korak 1 : Odprite PowerCenter Designer.

Spodaj je domača stran Informatica PowerCenter Designer.

Zdaj se povežemo s skladiščem. Če niste shranili svojih skladišč ali se soočate s težavami, lahko preverite naše Spletni dnevnik.

2. korak: Z desno miškino tipko kliknite svoje skladišče in izberite možnost povezave.

Ko kliknete možnost povezave, vas bo spodnji zaslon pozval, da vnesete uporabniško ime in geslo za svoje skladišče.

Ko se povežete s svojim skladiščem, morate odpreti svojo delovno mapo, kot je prikazano spodaj:

Pozvani boste, da vprašate ime preslikave. Določite ime preslikave in kliknite V redu (poimenoval sem ga kot m-ZAPOSLENI ).

3. korak: Zdaj naložimo tabele iz baze podatkov, začnite tako, da se povežete z bazo podatkov. Če želite to narediti, izberite zavihek Viri in možnost Uvozi iz baze podatkov, kot je prikazano spodaj:

Ko kliknete Uvozi iz zbirke podatkov, boste pozvani na spodnji zaslon, v katerem boste vprašali podrobnosti o svoji zbirki podatkov ter njeno uporabniško ime in geslo za povezavo (uporabljam bazo podatkov oracle in uporabnika HR).

Kliknite Poveži, da se povežete z bazo podatkov.

4. korak: Ker se želim pridružiti ZAPOSLENI in ODDELEK tabele, jih bom izbral in kliknil V redu.
Viri bodo vidni v delovnem prostoru oblikovalca preslikav, kot je prikazano spodaj.

5. korak: Podobno naložite ciljno tabelo na preslikavo.

6. korak: Zdaj povežemo kvalifikator vira in ciljno tabelo. Z desno miškino tipko kliknite katero koli prazno mesto delovnega prostora in izberite Samodejna povezava, kot je prikazano spodaj:

Spodaj je preslikava, ki jo povezuje Autolink.

7. korak: Ker moramo obe tabeli povezati z izvorno kvalifikacijo, izberite stolpce tabele oddelkov in jo spustite v izvorno kvalifikacijo, kot je prikazano spodaj:

Spustite vrednosti stolpcev v izvorni kvalifikator SQ_EMPLOYEES .

Spodaj je posodobljen izvorni kvalifikator.

8. korak: Dvokliknite izvorni kvalifikator, če želite urediti transformacijo.

Odprlo se bo pojavno okno Edit Transformation, kot je prikazano spodaj. Kliknite zavihek Lastnosti.

9. korak: Na zavihku Properties kliknite polje Value v vrstici UserDefined Join.

Dobili boste naslednji urejevalnik SQL:

10. korak: Enter EMPLOYEES.DEPARTMENT_ID = ODDELEK.DEPARTMENT_ID kot pogoj za združitev obeh tabel v polju SQL in kliknite V redu.

11. korak: Zdaj kliknite vrstico SQL Query, da ustvarite SQL za pridružitev, kot je prikazano spodaj:

Dobili boste naslednji urejevalnik SQL, kliknite možnost Ustvari SQL.

Naslednji SQL bo ustvarjen za stanje, ki smo ga določili v prejšnjem koraku. Kliknite V redu.

obdelava datotek v primeru Java

12. korak: Kliknite Uporabi in V redu.

Spodaj je končano preslikavo.

Dokončali smo načrtovanje načina prenosa podatkov iz vira na cilj. Vendar se dejanski prenos podatkov še ni zgodil in za to moramo uporabiti PowerCenter Workflow Design. Izvedba poteka dela bo privedla do prenosa podatkov od vira do cilja. Če želite izvedeti več o poteku dela, si oglejte našo Vadnica za Informatica: Potek dela Spletni dnevnik

kaj je autoboxing v javi

13. korak: LZdaj zaženite Upravitelj delovnega toka s klikom ikone W, kot je prikazano spodaj:

Spodaj je domača stran oblikovalca poteka dela.

14. korak: Ustvarimo zdaj nov potek dela za preslikavo. Kliknite jeziček Potek dela in izberite Ustvari možnost.

Dobili boste spodnja pojavna okna. Navedite ime svojega poteka dela in kliknite V redu.

15. korak : Ko je potek dela ustvarjen, v delovnem prostoru Upravitelja delovnega toka dobimo ikono Start.

Zdaj v delovni prostor dodajte novo sejo, kot je prikazano spodaj, tako da kliknete ikono seje in kliknete na delovni prostor:

Kliknite delovni prostor, da postavite ikono Session.

16. korak: Med dodajanjem seje morate izbrati preslikavo, ki ste jo ustvarili in shranili v zgornjih korakih. (Shranil sem ga kot m-ZAPOSLENI).

Spodaj je delovni prostor po dodajanju ikone seje.

17. korak : Zdaj, ko ste ustvarili novo sejo, jo moramo povezati z začetno nalogo. To lahko storimo s klikom na ikono Povezava opravila, kot je prikazano spodaj:

Najprej kliknite ikono Start in nato ikono Session, da vzpostavite povezavo.

Spodaj je povezan potek dela.

18. korak: Zdaj, ko smo končali oblikovanje, začnimo s potekom dela. Kliknite jeziček Potek dela in izberite možnost Začni potek dela.

Upravitelj poteka dela, ki zažene Monitor dela.

19. korak : Ko začnemo potek dela, se samodejno zažene Upravitelj poteka delainvam omogoča spremljanje izvajanja poteka dela. Spodaj lahko vidite Nadzornik poteka dela prikazuje stanje vašega poteka dela.

20. korak: Če želite preveriti stanje poteka dela, z desno miškino tipko kliknite potek dela in izberite Get Run Properties, kot je prikazano spodaj:

Izberite zavihek Izvor / ciljna statistika.

Spodaj si lahko ogledate število vrstic, ki so bile po preoblikovanju prenesene med izvorom in ciljem.

Rezultate lahko preverite tudi s preverjanjem ciljne tabele, kot je prikazano spodaj.

Upam, da je bil ta blog Informatica ETL koristen za razumevanje konceptov ETL z uporabo Informatice in je ustvaril dovolj zanimanja za vas, da izveste več o Informatici.

Če se vam zdi ta blog koristen, si lahko ogledate tudi našo serijo blogov Vadnice za informatiko , Vadnica za Informatica: Razumevanje Informatice ‘Inside Out’ in Informatica Transformacije: Srce in duša Informatica PowerCenter . Če iščete podrobnosti o certifikaciji Informatica, lahko preverite naš blog Informatica Certification: Vse, kar je treba vedeti .

Če ste se že odločili za Informatico kot poklicno pot, vam priporočam, da si ogledate našo stran tečaja. Izobraževanje za certificiranje Informatica v podjetju Edureka vas bo postalo strokovnjaka za Informatico prek sej pod vodstvom inštruktorjev v živo in praktičnega usposabljanja na primerih uporabe v resničnem življenju.