DOMemploi
n°1 de l'emploi Outre-mer
facebook twitter RSS
Espace Candidat Espace Entreprise

Page précédente

NSI Consulting
NSI Consulting

BIG DATA- ANALYSE DE DONNEES EN ENVIRONNEMENT HADOOP

Présentation Générale

Cette formation permet de connaître les outils spécifiques au métier de DATA Analyste et de comprendre les besoins métier pour livrer aux décideurs des indicateurs fiables et pertinents, tel est le rôle des Data Analysts. Précisément conçu pour leur apprendre à mettre en oeuvre une solution de Big Data en environnement Hadoop, solution émergente pour les traitements Big Data, ce programme reprend le cheminement logique d'un projet d'analyse de données. De la mise en place d'une solution de stockage HDFS permettant d'organiser un très grand volume d'information, à la réalisation de programmes Pig et Hive qui, convertis en tâches MapReduce, permettent d'agréger et de filtrer les données, tous les aspects seront abordés.

Public visé

Cette formation s'adresse aux :
Analystes de données, Analystes Business Intelligence, Développeurs Business Intelligence, développeurs SAS et tous les autres analystes qui souhaitent en savoir d'avantage sur l'analyse du Big Data dans un cluster Hadoop.

Pour suivre ce cours, les stagiaires doivent connaître :
- Les principes de la programmation et avoir de l'expérience dans le développement de logiciels
- Une connaissance de SQL est un plus
- Une connaissance d'Hadoop n'est pas nécessaire

Objectif

Au terme de ce cours, les stagiaires seront
capables de :
- Comprendre ce que sont Hadoop et YARN
- Connaître les différents outils et les Framework dans un environnement Hadoop 2.0
- Découvrir comment HDFS Federation fonctionne dans Hadoop 2.0
- Appréhender MapReduce
- Savoir utiliser Sqoop pour transférer les données entre Hadoop et une base de données relationnelle
- Comprendre comment exécuter une tâche de MapReduce sur YARN
- Savoir écrire des requêtes HiveSQL pour manipuler des données
- Comprendre comment utiliser le HCatalog avec Pig et Hive

Programme

Module 1 : 1er Partie
- Comprendre Hadoop 2.0
- Le Hadoop Distributed File System (HDFS)
- Introduction aux données dans HDFS
- MapReduce Framework et YARN


Module 2 : 2ème partie
- Introduction à Pig
- Programmation Pig avancée
- Troubleshooting et optimisation avec Pig
- Résolution des problèmes avec Pig
- Logging
- Utiliser l'UI Web d'Hadoop
- Demo optionnelle : résolution d'un Failed Job avec l'UI Web
- Echantillonnage de données et débugage
- Vue d'ensemble des performances
- Comprendre le plan d'exécution
- Astuces pour améliorer la performance de votre Pig Jobs


Module 3 : 3ème partie
- Programmation Hive
- Utilisation de HCatalog
- Programmation de Hive avancée
- Etendre Hive
- Transformation de données avec des Scripts personnalisés
- Fonctions définies par l'utilisateur
- Paramétrer les requêtes
- Exercices Hands-On : transformation de données avec Hive
- Programmation Hive avancée (Suite)
- Analyse de données et statistiques
- Définition workflow avec Oozie

Contact / Candidatures

Pour toutes informations merci de nous contacter par email : formations@nsi-consulting.fr ou par téléphone au 05 96 64 88 84
2002-2016 kelDOM - A propos