CONTACT
0

Apprentissage statistique : régressions et analyses discriminantes

Modéliser des phénomènes et faire des prédictions à partir de tableaux de données complexes. Toute une panoplie d’outils à votre service.

Fiche formation

Description

Public concerné

Techniciens, ingénieurs ou chercheurs souhaitant prendre des décisions à partir de grands tableaux de données. Des compétences en mathématiques ne sont pas nécessaires. Une utilisation régulière du logiciel R est très souhaitable.

Prérequis

Avoir suivi la formation Pratique et interprétation des analyses de variance et/ou Introduction aux modèles mixtes OU savoir poser les hypothèses d'un test statistique et interpréter la p-value obtenue ; savoir réaliser des modèles statistiques courants (régression linéaire, ANOVA) et connaitre les conditions de validité. Avoir suivi la formation Introduction au logiciel R OU savoir utiliser le logiciel R pour importer des données, les visualiser, gérer les packages nécessaires et exécuter des lignes de codes. Un questionnaire préalable permettra leur évaluation.

Objectifs pédagogiques

  • Savoir situer les méthodes de regressions et d'analyses discriminantes dans le machine learning
  • Savoir différencier les méthodes de régression des méthodes d'analyse discriminante
  • Etre capable de construire un modèle, de vérifier sa qualité et d'interpréter son contenu
  • Etre capable de choisir le meilleur modèle parmi les modèles construits
  • Savoir mettre en pratique ces méthodes avec le logiciel R

Méthode

La formation consiste en des parties théoriques, puis dirigées (démonstration par l’exemple), puis de mise en situation lors d’applications pratiques (exercices en autonomie avec correction de groupe).

L’enseignement s’appuie sur l’utilisation du logiciel R (ou XLSTAT sur demande). Pour chaque question étudiée on donne une explication sans recours à des notions mathématiques complexes. Pour chaque technique, les stagiaires traitent un exemple en vraie grandeur, éventuellement sur leurs données. On examine les sorties logicielles en insistant sur les difficultés d’interprétation.

Évaluation  

L’évaluation se fait au travers de la réalisation d’exercices en autonomie et d’un questionnaire final de validation des acquis.

Durée et autres formalités

Durée : Trois jours

Interentreprises (Tours ou Gujan-Mestras)

Nombre de stagiaires limité à 6. Dates : nous consulter

Intra-entreprise

Groupe de 12 personnes au plus. Dates : à définir avec le client.

Prix :

1249 €/personne interentreprises
4287 € intra-entreprise

Nos formations sont exonérées de TVA. Un tarif dégressif s'appliquera à partir de 3 formations facturées.

Programme de la formation

Les outils de la fouille des données
  • Apprentissage statistique et Machine Learning
  • Le surapprentissage et comment l’éviter
  • La bibliothèque caret
Les régressions et leurs conditions de validité
  • Présentation et description des données
  • La régression linéaire multiple
    • Conditions de validité
    • Mise en œuvre
    • Régression pas à pas
  • La régression PLS
    • Intérêts ; Interprétation des sorties logicielles et des graphiques factoriels
    • Interprétation des résultats de la régression
    • Classement des variables
    • Estimation de la qualité du modèle
  • Comparaisons de modèles et bilan
  • Exercices en autonomie
Les analyses discriminantes
  • Généralités, matrice de confusion et courbe ROC
  • Importance des variables, prévision de nouveaux cas
  • Présentation et description des données
  • L’analyse discriminante linéaire
  • La régression logistique
  • L’analyse discriminante sur facteurs, PLS-DA
  • Les forêts aléatoires (RandomForest)
  • Les réseaux de neurones
  • Les méthodes à vecteurs support (SVM)
  • Aspects théoriques. Conditions de validité. Mise en œuvre
  • Comparaisons de modèles et bilan
  • Exercices en autonomie
CONTACT
Aperçu du panier