CONTACT

Introduction à l'analyse de données à haut débit avec le logiciel R

Les biologistes sont maintenant très nombreux à produire des données à haut débit. Des milliers de variables avec des petits effectifs posent des problèmes spécifiques mais les outils sont aujourd'hui disponibles pour répondre à ces défis.

Fiche formation

Description

Public concerné

Chercheurs, ingénieurs, techniciens, doctorants ayant à traiter des données issues de spectrométrie, de protéomique, de métabolomique ou génomique (les omiques).

Prérequis

Avoir suivi la formation Notions fondamentales en statistiques OU savoir poser les hypothèses d'un test statistique et interpréter la p-value obtenue ; connaitre les différences entre test paramétrique et test non-paramétrique. Avoir suivi la formation Introduction au logiciel R OU savoir utiliser le logiciel R pour importer des données, les visualiser, gérer les packages nécessaires et exécuter des lignes de codes. Un questionnaire préalable permettra leur évaluation.

Objectifs pédagogiques

  • Savoir vérifier le jeu de données (données manquantes, distributions, qualité …)
  • Etre capable mettre en pratique les méthodes de filtrage des données
  • Savoir utiliser des méthodes de réduction de dimensions et en extraire de l'information
  • Savoir mettre en pratique les tests statistiques inférentiels, adaptés à la taille du jeu de données

.

Méthode

La formation consiste en des parties théoriques, puis dirigées (démonstration par l’exemple), puis de mise en situation lors d’applications pratiques (exercices en autonomie avec correction groupe). Après une présentation générale des défis particuliers associés à ce type de données, on présente les méthodes descriptives puis décisionnelles, sans recours à des notions mathématiques complexes. Tout au long de la formation, les stagiaires mettent les acquis en pratique – en autonomie – sur données réelles. Une rapide introduction au logiciel R est proposée si nécessaire.

Évaluation  

L’évaluation se fait au travers de la réalisation d’exercices en autonomie et d’un questionnaire final de validation des acquis.

Durée et autres formalités

Durée : Trois jours

Interentreprises (Tours ou Narbonne)

Nombre de stagiaires limité à 6. Dates : nous consulter

Intra-entreprise

Groupe de 12 personnes au plus. Dates : à définir avec le client.

Prix :

1590 €/personne interentreprises
4820 € intra-entreprise

Nos formations sont exonérées de TVA.

Programme de la formation

Introduction
    • Données "OMIQUES", qu'est-ce que c'est ?
    • Données brutes et matrices d'expression
    • Problématiques et défis particuliers
    • Logiciels
Brève introduction au logiciel R
Pratique sur données réelles : manipulations préliminaires
      • Chargement et résumé
      • Quelques graphiques simples
      • Travailler sur les log de quantités
      • Transformation d'un tableau de données en matrice d'expression
      • Contrôle de qualité des données
      • Filtrage non spécifique et filtrage spécifique
Statistiques descriptives exploratoires
      • L'analyse en composantes principales (ACP)
      • Classification ascendante hiérarchique (CAH)
      • Heatmap
Statistiques décisionnelles
      • Tests usuels paramétriques et non paramétriques
      • Tri des variables
      • Inflation du risque alpha et comparaisons multiples
      • Pratique : correction des p-values
      • Vérifications par rééchantillonnage
Pratique en autonomie sur des jeux de données réelles.

CONTACT