Pliki płaskie wykorzystywane są w wielu systemach przetwarzania danych, niezależnie czy mówimy o hurtowniach danych, czy o systemach Big Data. Bardzo często pliki płaskie są używane jako źródła danych, co wynika z wieloletnich praktyk działów biznesowych przedsiębiorstw. Jestem pewna, że nie raz sami spotkaliście się z danymi przechowywanymi przez szeroko rozumiany dział biznesu w plikach MS Excel.

W tym szkoleniu pokaże jak zbudować prosty proces integracyjny ładujący dane między plikami płaskimi, jak dodać komponenty na ekranie designera oraz jak je ze sobą połączyć.

Tworzymy proces integracyjny

W repozytorium kliknij prawym przyciskiem myszy na Job Design -> Create job  

Pojawi się okno, w którym musisz podać nazwę procesu. Pozostałe pola są opcjonalne. Po przejściu dalej (wybierz Finish) pojawi się puste pole designer’a.

Dodajemy plik źródłowy

Istnieją trzy sposoby na dodanie komponentów do procesu: 

  • dodanie komponentu z palety:
    • przeciągnij i upuść z palety komponentów
    • umieść kursor myszy w polu designera i zacznij wpisywać nazwę komponentu
  • dodanie komponentu z repozytorium

Jeśli spróbujesz dodać komponent z palety, będzie on zupełnie pusty, co oznacza, że musisz znać strukturę pliku i  samodzielnie określić ją w ustawieniach komponentu. Dodanie pliku z repozytorium ma tą zaletę, że schemat pliku jest automatycznie zaczytywany, masz więc mniej rzeczy to ustawienia. Dobrą praktyką jest także dodawanie do repozytorium wszystkich obiektów źródłowych i docelowych, którymi będzie w przyszłości łatwiej zarządzać – zmiana w repozytorium może zostać rozpropagowana we wszystkich procesach które używają danego obiektu.

Pokaże jak dodać komponent źródłowy na dwa sposoby. Pobierzcie jednak najpierw plik źródłowy, który będziemy używać w naszym procesie.

Dodanie schematu pliku ręcznie

Znajdźmy komponent tFileInputDelimited w palecie Files->Input, przeciągnijmy go na płótno designera, a następnie otworzymy widok komponentu. Obok atrybutu Edit schema znajdziemy niewielkich rozmiarów przycisk, wybierzcie go. Pojawi się okno, w którym trzeba ręcznie wpisać nazwy kolumn, ustawić typy danych, maskę daty oraz długości pól.

Następnie ustawcie ścieżkę do pliku źródłowego oraz parametry pliku:

Dodanie pliku poprzez repozytorium

W repozytorium, w polu Metadane, wybierz File Delimited -> Create file delimited.

Podaj ścieżkę do pliku oraz odpowiedni format – w moim przypadku jest to Windows.

W kolejnym kroku ustaw:

  • odpowiedni separator (Comma), 
  • format CSV,
  • pierwszy rekord jako nagłówek

W ostatnim kroku Talend zaproponuje Ci typy danych wraz z ich długościami.

Przeciągnij wczytany plik na ekran designera.

Dodajemy plik docelowy

Jako plik docelowy wykorzystamy komponent tFileOutputExcel. Zacznij wpisywać jego nazwę na ekranie designera, następnie zatwierdź wybór – komponent pojawi się na płótnie.

W zakładce komponent, ustaw ścieżkę do pliku docelowego:

To może jakieś transformacje?

Utworzyliśmy już obiekt źródłowy i docelowy. Aby jednak nasz obiekt nie przeładowywał tych samych danych, dodajmy jakieś transformacje – będziemy chcieli połączyć atrybuty FIRST_NAME i NAME. W tym celu użyjemy komponentu tMap.

Mamy w designerze już trzy komponenty, musimy je teraz połączyć aby proces mógł działać poprawnie. Komponenty możemy połączyć na dwa sposoby:

  • klikając myszką na ikonę wyjścia (O) znajdującą się na źródłowym komponencie i przeciągając pojawiającą się strzałkę do komponentu tMap
  • klikając prawym przyciskiem na źródłowym komponencie, następnie Row -> Main (podobnie pojawi nam się strzałka, którą należy przeciągnąć na komponent tMap

W podobny sposób należy połączyć tMap z komponentem docelowym.

Musimy teraz ustawić komponent tMap – w tym celu kliknij na niego dwukrotnie. Otworzy się okno, w którym na obiekcie docelowym należy dodać trzy kolumny: NAME, AGE, END_DATE:

Teraz połączymy atrybuty źródłowe z docelowymi. Przeciągnij atrybut FIRST_NAME i NAME do pola NAME, a następnie wstaw znak spacji między nimi:

row1.FIRST_NAME +" "+  row1.NAME  

Przeciągnij na obiekt docelowy atrybuty AGE i END_DATE.

Proces jest teraz gotowy do uruchomienia.

Uruchomienie procesu

Przejdź do widoku Run i uruchom proces wybierając Run.

Jeśli spodobał Ci się ten kurs to zostaw proszę komentarz poniżej lub udostępnij ten post na swoim Facebook’u, Twitter’ze, LinkedIn lub innej stronie z mediami społecznościowymi.
Dzięki!

Leave a Reply

avatar
  Subscribe  
Powiadom o
Close Menu