Analyse des données

de la Donnée à l'Information

Le Big Data en Statistiques

Historiquement, la Statistique permettait la vérification d'une hypothèse par une expérience planifiée où quelques variables étaient observées pour un nombre raisonnable d'individus. Aujourd'hui, ce ne sont plus les hypothèses mais les données qui sont le fondement de la réflexion statistique. Et dans de nombreuses applications industrielles, la quantité et la complexité des données explosent : c'est l'avènement du Big Data.

Ces données sont non seulement massives, mais aussi très complexes de par leur hétérogénéité et la vélocité des flux, ce qui nécessite souvent une structure de stockage adaptée. Une fois les clusters mis en place, il reste à effectuer une analyse statistique pour transformer ces données en information.

La Statistique pour le Big Data permet donc d'extraire de l'information à partir des données, de façon descriptive ou inférentielle. Il s'agit de mesurer des phénomènes, de dégager des tendances et des structures porteuses d'information.

Les problématiques associées

Les 3V du Big Data font surgir des problématiques statistiques qui permettent l'extraction d'information à partir des données :

Volume : Deux approches statistiques sont utilisées pour parer au problème du volume de données; l'échantillonnage ou l'utilisation de méthodes échelonnables : Scala, Mahout, RHadoop, parallélisation, compressed sensing, parcimonie…

Variété : L'hétérogénéité et la variabilité des données induisent des structures très complexes dont il faut comprendre la géométrie : Recalage, Dynamic Time Warping, Scattering, inférence Bayésienne, comportement moyen…

Vélocité : L'important flux des données nécessite des méthodes de décision adaptatives ou séquentielles : Non Negative Matrix Factorisation, Descente de Gradient Stochastique, Systèmes de recommandation, Bandit manchot…

Exemples de réalisations

Web app Shiny


Visualisation


Structuration des données


Prévision de flux - Exemple en trafic routier