Introduction à l'analyse de données à haut débit avec le logiciel R

Description

Public concerné

Chercheurs, ingénieurs, techniciens, doctorants ayant à traiter des données issues de spectrométrie, de protéomique, de métabolomique ou génomique (les omiques).

Prérequis

Avoir suivi la formation Notions fondamentales en statistiques OU savoir poser les hypothèses d'un test statistique et interpréter la p-value obtenue ; connaitre les différences entre test paramétrique et test non-paramétrique. Avoir suivi la formation Introduction au logiciel R OU savoir utiliser le logiciel R pour importer des données, les visualiser, gérer les packages nécessaires et exécuter des lignes de codes. Un questionnaire préalable permettra leur évaluation.

Objectifs pédagogiques

Savoir vérifier le jeu de données (données manquantes, distributions, qualité …)
Etre capable mettre en pratique les méthodes de filtrage des données
Savoir utiliser des méthodes de réduction de dimensions et en extraire de l'information
Savoir mettre en pratique les tests statistiques inférentiels, adaptés à la taille du jeu de données

Méthode

La formation consiste en des parties théoriques, puis dirigées (démonstration par l’exemple), puis de mise en situation lors d’applications pratiques (exercices en autonomie avec correction groupe). Après une présentation générale des défis particuliers associés à ce type de données, on présente les méthodes descriptives puis décisionnelles, sans recours à des notions mathématiques complexes. Tout au long de la formation, les stagiaires mettent les acquis en pratique – en autonomie – sur données réelles. Une rapide introduction au logiciel R est proposée si nécessaire.

Évaluation

L’évaluation se fait au travers de la réalisation d’exercices en autonomie et d’un questionnaire final de validation des acquis.