À l'issue du programme de formation pour data scientist, les participants maîtriseront l'installation et l'utilisation de modules scientifiques dans un environnement virtuel, la collaboration sur des projets de données, la manipulation et transformation de données pour des analyses complexes, ainsi que la création de visualisations interactives et accessibles adaptées aux besoins des utilisateurs.
INTER
INTRA
SUR MESURE
Cours pratique Disponible en anglais, à la demande
Vous souhaitez une formation adaptée aux spécificités de votre entreprise et de vos équipes ? Nos experts construisent votre formation sur mesure, dans la langue de votre choix !
À l'issue du programme de formation pour data scientist, les participants maîtriseront l'installation et l'utilisation de modules scientifiques dans un environnement virtuel, la collaboration sur des projets de données, la manipulation et transformation de données pour des analyses complexes, ainsi que la création de visualisations interactives et accessibles adaptées aux besoins des utilisateurs.
À l’issue de la formation, le participant sera en mesure de :
Découvrir l’écosystème Python scientifique
Manipuler et analyser des données avec NumPy et Pandas
Visualiser les données simples et interactives avec Matplotlib, Seaborn, Plotly
Mener des projets data science et data vizualisation
Public concerné
Statisticiens, data analysts et data scientists
Prérequis
Connaissances des bases du langage de programmation Python
Certification incluse
L'examen de certification se déroule en ligne, en différé et en français dans le mois qui suit la formation. Il se compose d'un épreuve théorique d'une durée de 20 minutes - 40 questions type QCM vrai / faux et informations à saisir (24 réponses à valider sur 40), et d'une épreuve pratique de programmation (exercice de code) d’une durée de 120 minutes sur un format de 6 exercices (10 critères à valider sur 21).
Méthodes et moyens pédagogiques
Travaux pratiques
Travaux pratiques individuels et en groupe, réflexion collective
Méthodes pédagogiques
Pédagogie active favorisant l'implication personnelle et les échanges entre participants.
Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.
Programme de la formation
L’écosystème Python scientifique
Présentation des packages Python de data science.
Installation de bibliothèques en environnement virtuel: pip et le module venv, miniconda, mamba, miniforge, WinPython.
Environnement de développement.
Utiliser les environnements IPython, Jupyter Notebook, JupyterLab, IDE : l'exemple de Spyder.
Découvrir l’éditeur de texte : VS Code.
La bibliothèque NumPy
Introduction et création de tableaux.
Présentation de la librairie NumPy.
Avantages des tableaux (performance, manipulation des données).
Création de tableaux avec array(), zeros(), ones(), full(), arange(), linspace(), logspace().
Multiplication matricielle avec np.dot et l'opérateur @.
Initialisation avec des données aléatoires (module random).
Manipuler des tableaux et opérations.
Indexation, slicing, et indexation avancée.
Transposer et changer de dimensions de tableaux (transpose(), reshape()).
Concaténer et découper des tableaux (concatenate(), split()).
Manipuler les fonctions classiques et mathématiques (sum(), min(), max(), median().
Comparer et masquer des données avec des masques booléens.
Gestion des données et visualisation.
Charger et sauvegarder des tableaux (loadtxt(), save(), load()).
Utiliser l'option axis dans les fonctions.
Extraire les informations des données.
Utiliser les pratiques de visualisation : choix des modules et types de graphiques.
Générer de graphiques interactifs.
La bibliothèque Pandas
Introduction et structures de données.
Présentation de la bibliothèque Pandas.
Création de séries avec la classe series.
Création de tableaux 2D ou DataFrame avec la classe DataFrame.
Extraction des indices de ligne et de colonne (attributs index et columns).
Lire et exporter des données dans différents formats (csv, xls).
Mettre en œuvre les méthodes de base : head() et tail().
Indexation et slicing : implicite, explicite, et utilisation des indexeurs loc et iloc.
Sélectionner des données et utiliser des expressions booléennes.
Manipulation et transformation des données.
Insérer et modifier des données.
Renommer des colonnes avec rename().
Concaténer des données avec concat() et fusion/jointure avec merge() et join().
Copier des données : copie superficielle ou profonde (copy()).