Talend Pliki płaskie wykorzystywane są w wielu systemach przetwarzania danych, niezależnie czy mówimy o hurtowniach danych, czy o systemach Big Data. Bardzo często pliki płaskie są używane jako źródła danych, co wynika z wieloletnich praktyk działów biznesowych przedsiębiorstw. Jestem pewna, że nie raz sami spotkaliście się z danymi przechowywanymi przez szeroko rozumiany dział biznesu w plikach MS Excel.
Talend pliki płaskie
W tym szkoleniu pokaże jak zbudować prosty proces integracyjny ładujący dane między plikami płaskimi, jak dodać komponenty na ekranie designera oraz jak je ze sobą połączyć.
Tworzymy proces integracyjny
W repozytorium kliknij prawym przyciskiem myszy na Job Design -> Create job

Pojawi się okno, w którym musisz podać nazwę procesu. Pozostałe pola są opcjonalne. Po przejściu dalej (wybierz Finish) pojawi się puste pole designer’a. (Talend pliki płaskie)

Dodajemy plik źródłowy
Istnieją trzy sposoby na dodanie komponentów do procesu:
- dodanie komponentu z palety:
- przeciągnij i upuść z palety komponentów
- umieść kursor myszy w polu designera i zacznij wpisywać nazwę komponentu

- dodanie komponentu z repozytorium
Jeśli spróbujesz dodać komponent z palety, będzie on zupełnie pusty, co oznacza, że musisz znać strukturę pliku i samodzielnie określić ją w ustawieniach komponentu. Dodanie pliku z repozytorium ma tą zaletę, że schemat pliku jest automatycznie zaczytywany, masz więc mniej rzeczy to ustawienia. Dobrą praktyką jest także dodawanie do repozytorium wszystkich obiektów źródłowych i docelowych, którymi będzie w przyszłości łatwiej zarządzać – zmiana w repozytorium może zostać rozpropagowana we wszystkich procesach które używają danego obiektu. (Talend pliki płaskie)
Pokaże jak dodać komponent źródłowy na dwa sposoby. Pobierzcie jednak najpierw plik źródłowy, który będziemy używać w naszym procesie.
Dodanie schematu pliku ręcznie
Znajdźmy komponent tFileInputDelimited w palecie Files->Input, przeciągnijmy go na płótno designera, a następnie otworzymy widok komponentu. Obok atrybutu Edit schema znajdziemy niewielkich rozmiarów przycisk, wybierzcie go. Pojawi się okno, w którym trzeba ręcznie wpisać nazwy kolumn, ustawić typy danych, maskę daty oraz długości pól. (Talend pliki płaskie)

Następnie ustawcie ścieżkę do pliku źródłowego oraz parametry pliku:

Dodanie pliku poprzez repozytorium
W repozytorium, w polu Metadane, wybierz File Delimited -> Create file delimited.

Podaj ścieżkę do pliku oraz odpowiedni format – w moim przypadku jest to Windows.

W kolejnym kroku ustaw:
- odpowiedni separator (Comma),
- format CSV,
- pierwszy rekord jako nagłówek

W ostatnim kroku Talend zaproponuje Ci typy danych wraz z ich długościami.
Przeciągnij wczytany plik na ekran designera.
Dodajemy plik docelowy
Jako plik docelowy wykorzystamy komponent tFileOutputExcel. Zacznij wpisywać jego nazwę na ekranie designera, następnie zatwierdź wybór – komponent pojawi się na płótnie.
W zakładce komponent, ustaw ścieżkę do pliku docelowego:

To może jakieś transformacje?
Utworzyliśmy już obiekt źródłowy i docelowy. Aby jednak nasz obiekt nie przeładowywał tych samych danych, dodajmy jakieś transformacje – będziemy chcieli połączyć atrybuty FIRST_NAME i NAME. W tym celu użyjemy komponentu tMap. (Talend pliki płaskie)
Mamy w designerze już trzy komponenty, musimy je teraz połączyć aby proces mógł działać poprawnie. Komponenty możemy połączyć na dwa sposoby:
- klikając myszką na ikonę wyjścia (O) znajdującą się na źródłowym komponencie i przeciągając pojawiającą się strzałkę do komponentu tMap

- klikając prawym przyciskiem na źródłowym komponencie, następnie Row -> Main (podobnie pojawi nam się strzałka, którą należy przeciągnąć na komponent tMap

W podobny sposób należy połączyć tMap z komponentem docelowym.
Musimy teraz ustawić komponent tMap – w tym celu kliknij na niego dwukrotnie. Otworzy się okno, w którym na obiekcie docelowym należy dodać trzy kolumny: NAME, AGE, END_DATE:

Teraz w tMap połączymy atrybuty źródłowe z docelowymi. Przeciągnij atrybut FIRST_NAME i NAME do pola NAME, a następnie wstaw znak spacji między nimi:
row1.FIRST_NAME +" "+ row1.NAME
Przeciągnij na obiekt docelowy atrybuty AGE i END_DATE.
Proces jest teraz gotowy do uruchomienia.
Uruchomienie procesu
Przejdź do widoku Run i uruchom proces wybierając Run.

Jeśli spodobał Ci się ten kurs to zostaw proszę komentarz poniżej lub udostępnij ten post na swoim Facebook’u, Twitter’ze, LinkedIn lub innej stronie z mediami społecznościowymi.
Dzięki!
Talend