Azure Data Factory Series Part 1: Naming Conventions

It is quite important to give your ADF resources meaningful names and follow a consistent naming convention structure. The following suggestions proved to be practical in several projects.

We are eager to learn from you and your experiences so please leave your comment.

There are several types of resources in ADF:

  • Parameters, variables, and activities
  • Pipelines
  • Data Flows
  • Datasets
  • Linked Services
  • Triggers

Please find the naming conventions for the respective resource in the sections below.

Parameters, Variables, and Activities

Parameters and Variables

ParameterDerived from Hungarian notation.

Identifier starts with par followed by data type and free text.

VariableDerived from Hungarian notation.

Identifier starts with var followed by data type and free text.

Parameters and Variables


Set variableSETVAR followed by variable name and followed by the number of the occurrence in the pipeline.
Each portion of the name is separated by an underscore.
The first occurrence of activity SETVAR defining a particular variable starts at 1 and is then incremented with each occurrence.

Two times during a pipeline varStrApprovalNeeded is set to a different value:

LookupType of DDL statement (SELECT, INSERT, CALL) followed by an underscore followed by free text.
Each portion of the name is separated by an underscore.

OthersKeyword (SWITCH, WEB, FUNC, etc.) followed by free text.
Each portion of the name is separated by an underscore.



Data movement PL_DATA_Multiple levels,
separated by underscore
separated by underscore
Main pipeline:

Sub pipeline:

Sub pipeline of sub pipeline:
followed by free text, separated by underscore
Naming conventions for Pipelines/Data Flows

Data Flows

Data FlowPL_FLOW_Multiple levels,
separated by underscore
separated by underscore
Naming conventions for Pipelines/Data Flows


NameData StoreFormatTextExamples
DS_Four letters abbreviation of data storeFour letters abbreviation of formatFree textDS_BLOB_BINA_Sink

Linked Services

NameData StoreTextExamples
LN_Four letters abbreviation of data storeFree textLN_BLOB_itstorage


TR_Four letters abbreviation of type (SCHE, TUMB, STOR)Free textTR_STOR_itconsumption_datastorage_Approved_CSV

Talend Cloud – Battle of the Engines

[et_pb_section][et_pb_row][et_pb_column type="4_4"][et_pb_text]

Cloud vs. Remote

To be honest, it's not really a fight. After all they both play in the same team and can be used hand in hand. But what are the differences between both variants and when to use what engine?
To be really able to judge you need to understand what makes a Cloud Engine and what makes a Remote Engine.

Cloud Engine - Plug & Play

As a proud owner of a Talend Cloud subscription you are provided at least one Cloud Engine or more, depending on your contract. Your Cloud Engines will be completely preconfigured so you won't have to overcome any technical obstacles. You can start right away. Talend charges you with so called tokens. Providing a Cloud Engine costs you 45000 tokens. Cloud Engines are hosted in Amazon Web Services (AWS). It is planned to have your Cloud Engines in Microsoft Azure as well by the end of this year (2019). There are no other costs for you next to the 45000 tokens. It seems obvious that due to this fact there must be some restrictions when using the cloud engines. This is simply due to the fact that Talend won't be able to provide unlimited computing power after paying this one time fee.
As the name indicates, the cloud engine runs in the Talend Cloud. Its data is being exchanged between the cloud engine and the connected cloud SaaS services. Communication and orchestration is directly handled in the cloud between the TMC (Talend Management Console) and the cloud engine.

Cloud Engine facts

(+) comes preconfigured Maximum memory of 525 GB
(+) AWS Cloud (Azure to be released soon) Temporary space of 200 GB
(+) for Data Integration2 VCPU's
(+) Maximum of 3 jobs in parallelMaximum of 225 GB per
(-) Talend API support not yet
Maximum of 3 jobs in
(-) Pipeline Designer support not yet
5000 tokens per engine

Remote Engine - the Allrounder

The small brother or more likely the taller one? "Small" if you take into consideration that you "only" need 9000 tokens for a remote engine. "Tall" if you think of what the remote engine is capable of. What the cloud engine is not able to cover is easily executed by the remote engine. Being sold often as a hybrid-approach in order to serve the needs of the local requirements of the customers and to simplify the transition into the cloud, it is becoming an allrounder. With being available in the AWS as well as in the Azure marketplaces, the remote engine can be used in nearly every setting, may it be on-premise or in the public cloud. The usage of a remote engine is then only limited by the available compute power. The remote engine is available for Windows as well as for Linux run systems. Other costs only occur for the provided infrastructure, whether it be the customer's data center or - in case of a public cloud - the provided virtual machine. The remote engine can be operated from behind a firewall. Its data is only being exchanged between remote engine and its connected services. Communication and orchestration is carried out over a secured https connection to the Talend Cloud, wherewith your data is secure.

Remote Engine facts

(-) needs to be installed and configuredOnly limited by the server's capacity
(+) platform independent 9000 tokens per engine
(+) Unlimited amount of parallel jobs
(+) Talend API Support
(+) Pipeline Designer Support
(+) Available on AWS and Azure marketplace

Cloud, Remote or Hybrid - a choice that will help you

How does the customer benefit from having the choice and what are Talend's hopes in offering the two engines? It sounds very much like a rivalry between these two engines. Why should I use the Cloud Engine if the remote engine can do most of it even better? Simply because: For one, Talend creates the highest level of flexibility for any use case and in any phase of a company's transformation. For two, Talend covers a broad spectrum of customer requirements, no matter if you are already in a cloud, you are just starting or you are planning to move to the cloud at a later point in time.

Different benefits for different situations

You don't use any cloud services by now but like to develop into a serverless direction?

With a hybrid solution you can both access your existing infrastructure via the Remote Engine as well as taking first steps towards a serverless architecture with the Cloud Engine.

You already use one of the big players in the cloud business?

With the help of a cloud engine you can start right away with implementing your requirements in the cloud. Nevertheless, a remote engine can also be a viable option due to being scalable when you need it.

You use cloud and on-premise services?

Also in that case a hybrid approach in the Talend Cloud would be the right option with offering sufficient security for your (local) data. At the same time it offers a seamless transition into a serverless architecture, as soon as older infrastructures are about to be replaced. With Cloud Engines or Remote Engines in a Public Cloud also all other imaginable scenarios are covered.

You are currently happy with your on-premise solution but might want to change later?

Here the Remote Engine can be recommended. Your services will still run locally and no customer data will be exchanged between the Talend Cloud and the Remote Engine. Only the communication and orchestration, e.g. logging or status messages, getting transfered through a secure HTTPS connection.

You move data between Cloud Services?

In this case the Cloud Engine is a simple solution. If you have to deal with more complex requirements then the Remote Engine in the Public Cloud will fullfill your needs.

You would like to combine Cloud Services with On-Premise Services?

Talend Cloud can also cover complex use cases between Remote and Cloud Engines. You might want to create procedures that automatically fetch data from a SaaS Service via the Cloud Engine. In a second step this data could be processed in a Remote Engine to, for example, combine it with Local Services, save it in a Data Warehouse and provide it again with an API.

An easy way to the future

Cloud and Remote Engine - both got its benefits and added values and they are optionally combinable. Also are they easily configured with a Talend Cloud subscription and ready to implement in nearly every infrastructure. This leads to a maximum flexibility in meeting todays and future challenges for your company.

[/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section] Weiterlesen

Managing your SSH-keys

Giving your users access to systems can be a very challenging task. Especially, when the team is growing and changing over time it can be quite a challenge to keep an eye on every login. It is also considerably insecure to use passwords since they can be leaked easily even without intention.

A convenient and secure approach to these challenges is to completely shift all authorization processes to SSH (if possible). Some processes may need SSH2 (like Talend), and some need special algorithms to work (Talend only works with RSA). You can use PuTTygen or Talend itself to create the keys. The hoster (Azure DevOps) requires the public-key in OpenSSH-format.

In this post we will manage our SSH-key for Talend to connect it with Azure DevOps.

Generate Key via OpenSSH

The keys are managed via the "config" file inside your ~/.ssh/ directory. If you have OpenSSH installed on your system you can use this script:

# SSHPATH: dir where key will be stored.
# If dir doesn't exist, it will be created

# NAME: Name of your key.
# It is adviced to name it after used algorithm and/or usage.

# TYPE: Name of used algorithm.
# rsa is default and commonly used, while ed25519 is recommended, 
# but may not work with everything

# SIZE: Size of used key.
# The bigger the better, but slower in generating.
ssh-keygen -f "$SSHPATH$NAME" -t $TYPE -b $SIZE -C "$NAME"

Generate Key via PuTTYgen

Alternatively, you can use PuTTYgen in case you prefer a GUI. It is recommended if your OpenSSH doesn't have SSH2 yet.

Make sure you select a SSH-2 RSA key:

Now click on generate. To create randomness for the SSH-key you will have to move your mouse around. After the process is finished you should see this:

For easier management of the keys it is adviced to add a key-comment within your E-Mail.

Save your private key in your home directory in the .ssh folder. To do so just click on Conversion > Export SSH-Key. Name it id_rsa.

Example: C:\Users\U99999\.ssh\id_rsa

Now copy the contents of the new box or save the public key into a file (via Ctrl + C):

Putting your key on Azure

To get your new secure key on Azure you will have to login to your DevOps account.
On the top right corner please click on your profile and go to security.

Go to your "SSH public keys" and then click on Add.

Paste the public key that you generated before in the provided field and name it Talend.

Conduct your keys

Add this lines to your config-file (~/.ssh/config) :

# Talend
    Port 22
    IdentityFile ~/.ssh/id_rsa

NOTE: In case your firewall blocks this port, you can also tryout other ports (e.g. 443) with this method.

You can also provide SSH-keys for each project seperately. Simply put the repository-link into the "Host" and keep the Hostname. This ensures full control for both client and server for each login, and simplifies management for admins.

To test your key you can try this command in your SSH-supported console/bash:

ssh -vT

And voila, you are done!


Moving Your Use Cases Slowly Towards Talend Cloud – Step by Step

In most organizational scenarios you will not be rolling out your use cases to Talend Cloud with a big bang – meaning that you turn off the old world and turn on the new world.

Getting There - Step by Step

In most cases moving to the cloud will be a step by step process. You will move some of your use cases to the cloud, run and test them there, experience some differences, some limitations maybe and learn gradually what the best practise approach is. This is an iterative process.

Getting Prepared

In order to prepare yourself, you can setup a trial cloud instance as a playground for your first steps with the Talend Cloud. In addition, you can do some online courses offered by Talend, e.g. Cloud Essentials. This really helps you to get familiar with the enviroment.

Getting Support

We can help you every step of the way to your Talend Cloud. We can have workshops with your tech guys, we can set up your infrastructure to work with Talend Cloud - whatever you need in order to successfully migrate to Talend Cloud. In your own pace and tailored to your needs.

Contact us!


Confexx Consulting – Ihr Partner im Metadatenmanagement mit Talend

Unsere erfahrenen Experten der Confexx Consulting unterstützen Sie bei jedem Schritt auf Ihrem Weg hin zum Metadata Management mit Talend. Wir erarbeiten mit Ihnen eine Strategie und installieren und konfigurieren die Applikation auf der Plattform Ihrer Wahl. Wir bauen mit Ihnen zusammen ein Metadata Harvesting auf – das „Ernten“ von Metadaten aus unterschiedlichen Datenquellen. Zu den nutzbaren Datenquellen zählen unter anderem Datenbanken, moderne Self-Service Analysewerkzeuge wie Tableau oder Qlik Sense, Big Data- und Cloud-Plattformen wie AWS, Cloudera und Microsoft Azure sowie weitere beliebige Datenpipelines, die von der Talend Data Fabric Integration-Plattform verwaltet werden. TMM kombiniert diese Daten zu einer umfassenden Sicht auf die gesamte Informationslieferkette. Die TMM stellt mehr als 100 sogenannten Bridges zur Datenintegration zur Verfügung. Wir unterstützen Sie dabei, dass das Harvesting auf die Datenquellen in regelmäßigen Intervallen automatisiert erfolgt, so dass die Veränderungen in den Metadaten in Ihrem Metadatenmanagement System stets zeitnah abgebildet werden. Unser Konzept der ganzheitlichen Beratung baut auf die enge Partnerschaft mit Talend auf. Als Talend Gold Partner stehen wir stets im ganz engen Kontakt zu unseren technischen Ansprechpartnern bei Talend und als Talend Key Partner, speziell in der Region DACH (Deutschland, Österreich, Schweiz), sind wir als erster Partner überhaupt vollumfänglich für Talend TMM (Metadatenmanagement) und MDM (Masterdatenmanagement) zertifiziert. Wir freuen uns, mit Ihnen gemeinsam den Weg zum Metadata Management mit Talend zu gehen. Kontaktieren Sie uns!Weiterlesen

Talend als „Middleware„ für Transformationen und Migrationen Anhand eines Beispiels von einem mittelständigen Unternehmen

Sie sind IT-Leiter eines Herstellers für industrielle Fertigerzeugnisse. Vor kurzem hat Ihr Unternehmen einen spanischen Partner übernommen, um seine Produktpalette zu erweitern. Sie stehen daher vor der Herausforderung Ihre IT-Prozesse zu konsolidieren und möchten sich zunächst auf den Einkauf konzentrieren. Am Hauptsitz besteht dieser vornehmlich aus einem SAP-System mit Oracle-Datenbanken. Da die Einkaufspreise stark durch den Markt und die Mitbewerber beeinflusst werden, findet regelmäßig eine manuelle Marktbeobachtung statt. Dabei werden Internetseiten der Konkurrenz, sowie Online-Portale geprüft und ausführliche Excel-Auswertungen zusammengetragen. Einige Lieferanten senden zudem regelmäßig aktuelle Preislisten per E-Mail. In Spanien wiederum setzt man auf eine individuelle Procurement Software, deren Grundlage eine Cloud-Datenbank darstellt und den Großteil der Datenerfassung abdeckt. Einzelne Excel-Dateien, vornehmlich auf Spanisch, erweitern hier das Marktwissen. Die Prozesse an beiden Standorten sind etabliert, Lizenzen sind langfristig geschlossen und eine kurzfristige Ablösung eines der Systeme ist nur mit hohem finanziellen Aufwand zu stemmen. Sie entscheiden sich daher die vorhandenen Daten auf einfache Weise mit Talend zusammenzuführen. Dabei hilft Talend die spanischen Daten an die zentrale Datenhaltung anzupassen und zu übertragen. Auf der anderen Seite bekommen die spanischen Kollegen nun alle relevanten Unternehmensdaten entsprechend transformiert in ihre Cloud-Datenbank. Im Zuge dieses Zusammenschlusses nutzen Sie Talend auch dazu manuelle Prozesse zu automatisieren. Standardisierte Excel-Dateien werden nun ebenfalls tägliche in die Datenbank übertragen, Internetseiten werden nach brauchbaren Inhalten durchsucht und alle wertvollen Daten aus E-Mails werden extrahiert. Die durch Talend automatisierte Datenextraktion, Transformation und Weitergabe der Daten ermöglicht es zum Beispiel mit Hilfe von Tableau stets aktuelle Auswertung über die Marktlage zu visualisieren. Mögliche Preisschwankungen oder Lieferengpässe können so durchaus schon im Voraus antizipiert werden. Das spart nicht nur Kosten der manuellen Aufbereitung sondern liefert auch Sicherheit für die Zukunft. Natürlich kann Talend Ihnen auch dabei helfen, Ihre IT Infrastruktur zu konsolidieren. Wie Talend Ihnen weiterhelfen kann? Wir beantworten gerne Ihre Fragen, kontaktieren Sie uns hier.Weiterlesen

Ransomware – Die Geißel ihrer Daten

[et_pb_section admin_label="section"][et_pb_row admin_label="row"][et_pb_column type="4_4"][et_pb_text admin_label="Blogtext Ransomware" background_layout="light" text_orientation="left" use_border_color="off" border_color="#ffffff" border_style="solid"] „Gestern Abend ging noch alles!“ klagt ein guter Freund von mir, welcher leider Opfer einer Ransomware Attacke wurde. Sein Firmennetzwerk, welches 20 Rechner und 2 Server beinhaltete, gaben nur noch die Aufforderung, eine bestimmte Summe in Bitcoins zu begleichen. „Ich kann nicht auf die Buchhaltung und Kundendaten zugreifen, was soll ich machen? Soll ich bezahlen? Bekomme ich dann wieder die Kontrolle über meine Daten?“. Kommt ihnen das bekannt vor? Falls ja, wissen sie bereits wie ärgerlich solch ein Zwischenfall ist. Im schlimmsten Fall sind auch keine Backups vorhanden, oder diese sind ebenfalls verschlüsselt. Nun lassen sie uns diesen Fall Analytisch sezieren und auf eine Prävention und Lösung hinarbeiten.

Was ist Ransomware?

Ransomware (auch Erpressungs und Kryptotrojaner genannt), ist eine spezielle Art der Malware. In „harmlosen“ Varianten startet sich mit dem hochfahren des Computers eine bildschirmfüllende Nachricht, in der sie Aufgefordert werden eine Summe mittels anonymer Zahlungsdienste, zu entrichten, da sie ansonsten den Rechner nicht benutzen können. Inwiefern ist dies harmlos? Nun, der Taskmanager lässt sich nicht starten, sie können das Fenster nicht schließen, und die Maus hat ein Eigenleben entwickelt. Ihre Daten sind zu diesem Zeitpunkt unverändert. Eine einfache Reinigung mit einem Live Antiviren-System ist die Lösung.  

Was ist aber wenn sie folgende Bildschirmausgabe sehen?

  bild-maktub-locker [Quelle:] Nun, in diesem Fall sind ihre Daten verschlüsselt. Wie sie sehen ist der Urheber der Nachricht höchste Anonymität aus, da dieser sich nur über das DeepWeb ( auch Darknet gennant) kontaktieren lässt. Was können sie tun um ihre Daten zu retten? Wir haben eine Liste aufgearbeitet nach der sie Vorgehen können, um in solch einen Fall das richtige zu tun: 1. Trennen sie sofort den Rechner vom Netz. Solange die Malware Möglichkeiten hat sich in ihrem Heim oder Firmennetzwerk zu verbreiten, wird sie dies auch tun. 2. Machen sie eine Kopie der verschlüsselten Daten 3. Gehen sie nicht auf die Zahlung ein. Das BSI rät davon ab, da eine Entschlüsselung ihrer Daten seitens der Betreiber dieser Malware äußerst gering ist.    

Ich brauche meine Daten wieder?!

Inzwischen gibt es eine Initiative die von mehreren Institutionen unterstützt wird, und kostenlos versucht zu helfen: bild-crypto-sheriff Bei diesem Webangebot können sie 2 verschiedene verschlüsselte Dateien hochladen (oder die Textnachricht des Bildschirms) hochladen. Der „Crypto Sheriff“ überprüft anhand der einzigartigen Struktur der Verschlüsselung ob bereits ein Entschlüsselungstool für ihren Fall vorhanden ist. Und sollte dies der Fall sein, können sie ihre Daten komplett wiederherstellen.   [/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]Weiterlesen

Cloud Computing-Zukunft: Hybrid Cloud

In der jüngsten Vergangenheit - also vor rund 10 Jahren tauchte der Begriff Cloud Computing erstmals in der IT Szene auf. Von Anbeginn an, wie sollte es erfahrungsgemäß auch anders sein, herrschte bei Beratern, Analysten, Softwareherstellern und natürlich den Anwendern eine große Unklarheit darüber, was das sogenannte Cloud Computing eigentlich in der Praxis bedeutet. Das hat sich grundsätzlich verändert. In der Zwischenzeit setzte sich eine Vielzahl von praxiserprobten Modellen und Verfahren durch. Sie haben einen festen Platz im Alltag der Unternehmens-IT gefunden. Die drastische Veränderung in den vergangenen Jahren: schon bald könnten Hybrid Clouds zum Standart werden.   Alle aktuellen Studien zeigen, dass der überwiegende Teil der deutschen Unternehmen unterdessen in der einen oder anderen Weise Cloud Computing nutzt. So kommt die aktuelle IDS Studie „Hybrid Cloud Deutschland 2014“ zu dem Schluss, dass über 80 Prozent der Unternehmen mit einer Unternehmensgröße von mehr als 100 Mitarbeitern bereits auf Cloud Services zurückgreifen oder sich in der Planungs-/ bzw. Implementierungsphase befinden. Das Hauptargument der Anwender für eine Hybrid Cloud ist letztendlich die höhere Geschwindigkeit, mit der IT Ressourcen zur Verfügung gestellt werden können.   Der hieraus von uns abgeleitete Trend und die daraus resultierende Aufgabenstellung: Künftig wird es darum gehen, einzelne Cloud-Inseln – Schatten IT und eingekaufte Cloud-Services – zusammen zu führen und zu einer Hybrid Cloud zu verknüpfen. Jedoch das hierfür notwendige Wissen, Tools, Mitarbeiter und Prozesse mit entsprechender Erfahrung gibt es meist nur vereinzelt und nicht flächendeckend.     Weiterlesen