Tematem tego posta jest: Konfiguracja połączenia Talend i Cloudera. Cloudera jest jednym z trzech głównych graczy na rynku obok Hortonworks i MapR, który dostarcza dystrybucję ogólnopojętego Hadoop.
W tym poście zaprezentuję Ci w jaki sposób należy skonfigurować połączenie w Talend, aby móc połączy się z CDP.
1. Utwórz nowe połączenie w Talendzie -> Konfiguracja połączenia Talend i Cloudera
W sekcji Metadata kliknij prawym przyciskiem myszy na Hadoop Cluser i wybierz Create Hadoop Cluster.

W nowym oknie wpisz nazwę połączenia (opcjonalnie możesz dodać cel oraz opis) i kliknij Next.
W kolejnym oknie „Hadoop Configuration Import Wizard” ustaw kolejno:
- Distribution = Cloudera
- Version = w moim przypadku była to najwyższa dostępna wersja CDH5.12 w trybie YARN. Gdy nie widzisz swojej wersji wybierz, tą która jest najbardziej zbliżona do Twojej.
- Option = Zmień na „Retrieve configuration from Ambari or Cloudera”.
Gdy już mamy wszystko wybrane klikamy przycisk Next. (Konfiguracja połączenia Talend i Cloudera)

Teraz należy wpisać adres serwera, gdzie znajduję się CDP Manager. Standardowy port to 7180. Dodatkowo należy podać użytkownika i hasło do Cloudera Manager.
Gdy mamy już wszystkie pola uzupełnione należy kolejno:
- Kliknąć przycisk „Connect„. Po kilku sekundach powinniśmy mieć w sekcji „Discovered clusters” dostępny nasz klaster do wyboru.
- Kliknąć w przycisk „Fetch„.
Klikamy przycisk „Finished„.

W kolejnym oknie należy uzupełnić podać kolejną porcję informacji.
Bardzo ważne: używaj nazw hostów zamiast adresów IP!
Może się zdarzyć, że nazwy hostów nie będą się rozwiązywać na adresy IP. W takim przypadku należy dodać nazwy hostów do pliku hosts.
Jeśli nie wiesz jak to zrobić wejdź na post: Windows: Jak dodać nazwę oraz IP serwera do pliku hosts?
- Namenode URI – zaczynający się od „hdfs”. Port nie jest konieczny. Domyślny 8080.
- Resource Manager
- Resoure Manager Scheduler
- Job History
- Staging directory
- User name – użytkownik jakim będziesz np. odczytywał/zapisywał dane z HDFS.
Teraz sprawdź swoje połączenie klikając w przycisk „Check Services„.

Pojawi Ci się nowe okno, gdzie Talend sprawdzi połączanie do klastra. Jeśli wszystko będzie w porządku otrzymasz na poziomie każdego serwisu zielony pasek. (Konfiguracja połączenia Talend i Cloudera)

Klikamy przycisk „Finished” i możemy od teraz używać zdefiniowanego połączenia w kolejnych jobach.