Best tutorials to start using the Open Source ETL Talend Open Studio for Data Integration.
Les meilleurs tutoriels pour débuter l'utilisation de l'ETL Open Source Talend Open Studio for Data Integration.
Hi Talend Addicts, Ready to learn more about the Talend great ETL tool! This post is part of the new series discussing the most important things (Tips) to know for anybody who want to tackle the Talend Open Studio for Data Integration Certification Exam. Today's Tip is: Tip #002: Know your tMap Joins! tMap is one, if not THE, most important component in a Talend Job. P ersonally I have never seen any Talend Job without at least one occurence of this component, and believe it or not many questions around this component on the certification exam! the tMap can be used to (obviously) map data from input to output, but even more. Map data - already said that, but very important, so I say it again! Filter input data Filter output data Transform data Join data In today's post I'll focus on the last but not least one - JOIN Data So let's kick this off with some examples; and see what are the different types of joins you can build with Talend tMap component. Settin...
Get link
Facebook
X
Pinterest
Email
Other Apps
Création de routines avec l'ETL Talend Open Studio
Get link
Facebook
X
Pinterest
Email
Other Apps
Ce tutoriel explique la création et l'utilisation des routines de l'ETL Open Source Talend Open Studio dans un job simple.
1. Introduction
Le document suivant nous présente les étapes de création d'une
routine sous Talend Open Studio, pour cela on créera un job très simple
qui lira un fichier texte avec trois colonnes de type float : jour, mois
et année; et le transformera en un fichier avec une seule colonne de
type date sous la forme dd/mm/yyyy.
2. La source et la destination de données
Avant toute création de job on présentera la source et la destination de données.
Pour la source il s'agit d'un fichier texte comportant trois
colonnes délimitées par des points virgules, ces trois colonnes seront
lues par notre job comme des floats.
Notre source ressemblera à ça :
Quant à la destination, il s'agit là aussi d'un fichier texte,
mais cette fois-ci avec une seule colonne de type date sous la forme
dd/mm/yyyy.
Notre destination ressemblera à ça :
3. Job Talend Open Studio
On commence par créer un job vide.
On glisse un composant "tFileInputDelimited" depuis la palette.
Dans l'onglet "Component" on définit le chemin du fichier d'entrée.
On remplit le champ "séparateur de lignes" par "\n".
On remplit le champ "séparateur de champs" par ";"
Puis on clique sur le bouton "..." pour éditer le schéma comme ci-dessous :
Après ça on glisse un composant "tFileOutputDelimited" depuis la palette. Ce dernier représentera notre sortie.
Dans l'onglet "Component" on définit le chemin du fichier de sortie.
On remplit le champ "séparateur de lignes" par "\n"
Puis on clique sur le bouton "..." pour éditer le schéma comme ci-dessous :
Ceci fait on ajoute notre dernier composant "tMap" qui va
servir à faire le lien entre l'entrée et la sortie, mais aussi c'est lui
qui va nous permettre de faire appel à la routine que nous allons
créer.
On lie le composant d'entrée et le "tMap" avec un lien de type
"main", puis le "tMap" et le composant de sortie avec un lien de type
"main" tout en récupérant le schéma de ce dernier. On obtient alors un
job qui ressemble à ça :
4. Création de la routine
La création de routine Talend Open Studio se fait dans l'onglet "Référentiel" sous l'arborescence "Code".
On fait un clic-droit sur "Routines".
Puis on clique sur "Créer une routine"
On remplit les informations jugées nécessaires.
Puis on clique sur "Terminer".
Une fenêtre s'affiche avec une classe Java portant le nom de la
routine créée, c'est à l'intérieur de cette classe qu'on va pouvoir
créer nos routines. D'ailleurs il y'a une classe exemple "helloExample"
qui a été créée par défaut par TOS, on peut la supprimer si on veut.
Ensuite on colle le code suivant :
* needed*tobeconverted.**{example}threefloatToDate(12,8,1974)#Ladate:12Aout1974.*/publicstatic Date threefloatToDate(float j, float m, float a) {if (j ==0|| m ==0|| a ==0)
returnnull;
Calendar gc = Calendar.getInstance();
gc.set(Calendar.DATE, (int) j);
gc.set(Calendar.MONTH, (int) m -1);
gc.set(Calendar.YEAR, (int) a);
return gc.getTime();
}
Ce code représente une fonction Java
normale qui prend comme argument trois floats et qui retourne une date.
Ce code se compose de deux parties, une partie commentaire utilisée par
Talend pour l'affichage de l'aide sur l'utilisation de la fonction,
cette partie n'est pas obligatoire mais je vous conseille de la remplir
quand même, pour savoir comment la remplir, inspirez-vous de la fonction
"helloExample" générée automatiquement après la création de la routine.
Quant à la deuxième partie, c'est le code Java proprement dit, sur
cette partie il n'y a rien à expliquer, c'est du Java pur et dur.
Ceci fait, il suffit maintenant de sauvegarder puis fermer la routine.
5. Utilisation de la routine dans le job TOS
La création de la routine étant terminée on peut maintenant lui faire appel dans notre job.
On retourne sur notre job et on double-clique sur le composant "tMap".
On va sur la partie de droite, dans le schéma de sortie on clique sur la partie "Expression" de la colonne "dateComplete".
La fenêtre "Constructeur d'expression" s'affiche.
Pour faire appel à notre routine on tape le code suivant :
"threefloattodate", le nom de la fonction créée à l'intérieur de la routine ;
Ce qu'il y a entre parenthèse, ce sont les arguments de la
fonction. Il s'agit là de lui faire passer les colonnes récupérées
depuis le fichier d'entrée.
Ceci fait, on clique sur "Ok" pour fermer le constructeur d'expression, puis sur "Ok" pour fermer la fenêtre de Mapping.
Notre job est maintenant terminé on peut le lancer pour vérifier le résultat.
6. Conclusion
Merci d'avoir lu tout ce document :), j'espère qu'il a pu aider
quelques-uns de ses lecteurs, au moins pour les débutants sur TOS.
Ceci dit pour les gens qui souhaiteraient apprendre encore plus je
leur conseille d'aller voir sur ce même blog les autres tutos, sinon je vous donne rendez-vous pour un prochain tuto cette fois-ci sur comment utiliser les variables de contexte dans Talend.
Comments
Post a Comment