Open Data : le Big Data au service de nouveaux usages urbains

Open Data : le Big Data au service de nouveaux usages urbains

Mercredi soir au Node de Bordeaux s’est tenue la première Data Night, consacrée, vous vous en doutez, aux Data dans toute leur splendeur ! Big Data, Small Data, Open Data, Machine Learning, Data Scientists, analyse prédictive, statistiques, modèles… tous les mots-clés et buzzwords autour du Big Data ont été abordés par les quatre intervenants : Alexandre Vallette, Louis Dorard, Bastien Murzeau et Raphaël Cherrier.

Mais c’est l’Open Data, avec son énorme potentiel et sa complexité, qui a particulièrement passionné le public, venu en nombre (haha) pour l’occasion. Voici d’ailleurs une datavisualisation sur l’audience préalablement google-isée, servie en introduction de la soirée :

Open Data : le Big Data au service de nouveaux usages urbains

Big Data, Open Data… Tout le monde veut s’inscrire dans la tendance

L’annonce de l’événement compare le Big Data au sexe chez les adolescents : et oui, tout le monde en parle, personne ne sait réellement comment faire, mais tout le monde pense que les autres le pratiquent, alors tout le monde clame qu’il le fait ! Dans ce contexte, compliqué de définir clairement le Big Data et tous ses dérivés comme le Small Data ou l’Open Data

Une des conférences nous a, heureusement, proposé quelques pistes. Il faut bien sûr partir de la base, la Data. Ce n’est pas nouveau, il s’agit bien de données, rangées dans des tableaux, avec des lignes et des colonnes. Louis Dorard pose l’exemple d’une entreprise qui possède des données sur sa clientèle : une ligne pour chaque client, une colonne pour chaque attribut client.

Et le Big Data dans tout ça ? C’est comme un très gros tableau de données. Car sa caractéristique principale est bel et bien là, dans les centaines de tera octets de données brutes à exploiter, plus impressionnant qu’une usine à sites me diriez vous ! D’ailleurs, certains disent qu’on parle de Big Data quand Excel plante, voire même quand Excel rame, car il n’est alors plus possible de travailler correctement sans un autre outil adapté.

Mais attention, le Big Data ne se résume pas qu’à un problème de taille. Le « Big » dans Big Data, c’est aussi l’importance de l’impact du traitement que l’on en fait… D’ailleurs, il ne faut pas croire que l’Open Data ne peut pas être « Big ».

Le Big dans Big Data

A ce moment-là, on comprend l’enjeu principal qui entoure le Big Data ou l’Open Data : c’est de réussir à tirer des liens de cause à effet, des relations entre les données.

Le Machine Learning au service de l’automatisation du traitement des Big Data

Le Big Data, et par extension l’Open Data, se travaillent de la manière suivante :

  1. Collecte
  2. Stockage
  3. Traitement
  4. Visualisation

Ce travail, effectué par des personnes que l’on appelle notamment des Data Scientists, sert principalement une activité stratégique pour les entreprises : l’analyse prédictive des Big Data (ou Open Data, donc).

Réalisée de manière traditionnelle, elle consiste à utiliser des inputs et des outputs pour construire des modèles (les fameuses relations de cause à effet introduites plus haut), puis à tester ces modèles en établissant des prédictions, vérifiées sur un panel d’inputs et d’outputs réservés.

Open Data et Big Data : prédictif, modèles, inputs et outputs

Alors, le Machine Learning permet d’automatiser et de simplifier la création de modèles. Les outils permettent en effet de mettre en évidence des liens traditionnellement invisibles et de trouver un moyen de représenter ces relations, afin qu’elles soient comprises. La compréhension des données devient ainsi un enjeu majeur, et permet de passer, d’après L. Dorard, des Big Data 1.0 aux Big Data 2.0 :

  1. Collecte
  2. Stockage
  3. Traitement
  4. Visualisation
  5. Compréhension

Je vous invite vivement à parcourir sa présentation, intitulée Big Data 2.0, disponible sur SlideShare. Louis Dorard est également l’auteur de Bootstrapping Machine Learning (livre que nous n’avons malheureusement pas réussi à remporter !).

Derrière le Big Data et l’Open Data : un nouveau métier d’analyse prédictive

Les différents intervenants sont d’accord pour dire que la valeur du Big Data est de rendre possible la prédiction du comportement d’un client (et, la plupart du temps, celui des usagers pour l’Open Data) en utilisant les données existantes et de permettre une prise de décision efficace. On parle même d’intelligence artificielle. Un exemple du prédictif ? Le traitement automatique du SPAM par les boîtes mail.

Mais il y a bien des limites et des risques à cette énorme opportunité : il ne faut pas oublier l’impact des facteurs extérieurs sur le comportement des clients/utilisateurs/usagers. Il ne faut pas non plus influencer l’environnement de collecte initial par des prédictions qui impacteraient le comportement des utilisateurs. Un exemple Open Data serait celui d’un service qui prédirait l’affluence dans une administration publique : un facteur extérieur à ne pas oublier dans cette prédiction serait la météo ; de plus, il y aurait bel et bien un risque d’influencer le comportement des usagers à la découverte des Open Data correspondantes et ainsi d’inverser les tendances d’affluence…

Du coup, pour les organisations, la dimension stratégique des Big Data et de l’Open Data se trouve dans ce qu’elles font des données (on parle de différents types de traitements comme la classification, la régression…) et des conclusions qu’elles tirent de leur traitement.

Open Data et Big Data, importance du traitement et des conclusions

Pour les aider dans cette tâche complexe, de nombreux acteurs se partagent le marché des Big et Open Data, tous plus spécialisés les uns que les autres. Pour Bastien Murzeau, CTO de la startup PredicSis, la clé est peut-être donc dans le prédictif « pour tous ».

Open Data : une ouverture des données au nom de l’utilité publique ?

L’Open Data, autrement dit les données ouvertes, est le terme qui définit les données produites par des organisations et diffusées de manière structurée, en libre accès. Si l’Open Data n’est pas fermée (haha) aux différents secteurs -public et privé- il s’avère qu’elle concerne souvent les institutions du domaine public.

En effet, les données sont vues comme un nouvel « or noir » pour les entreprises, un or noir qui a donc une valeur marchande. Dans cette optique, il est invraisemblable pour elles de permettre leur utilisation libre, sans compromis financier, autrement dit, de transformer les Big en Open Data. Les institutions de l’Etat, elles, sont censées oeuvrer pour le bien public. Financées par l’argent des contribuables, il semble logique qu’elles rendent publiques les données… publiques. Malgré tout, les pros et les antis défendent chacun leur point de vue sur l’Open Data.

Dans son intervention consacrée à l’Open Data dans les villes, le fondateur de Snips Alexandre Vallette explique l’objectif de l’ouverture de ces données par « rendre digitale la donnée publique » et se pose la question de la délimitation de la donnée publique : quelles données peuvent être considérées comme publiques ?

D’après lui, l’Open Data pose une autre question éthique : il y aurait les bonnes ou les mauvaises données, ou plutôt les bonnes et les mauvaises intentions d’utilisation des données. Il donne l’exemple des Google Glass, souvent décrites comme le grand méchant loup de la vie privée.

Qu’on se rassure, dans le cas de l’Open Data, on se concentre sur les données qui seront utiles pour la communauté : prédire la congestion des routes, expliquer les résultats électoraux, prédire l’affluence des bureaux de poste, etc.

Open Data : des prédictions dans les villes

D’ailleurs, l’enjeu principal de l’Open Data est de traiter des flux de données qui évoluent en temps réel, contrairement au Big Data « classique », contenu dans des tableaux plus figés.

Open Data, le nouveau carburant des smart cities

L’Open Data s’inscrit dans la construction de ce qu’on nomme les smart cities. A l’instar des « smart » phones, les villes, connectées et quantifiées, deviennent intelligentes. D’après IBM, ce sont le crowdsourcing, les devices mobiles et les données issues des capteurs qui permettront à la ville de « nous aider à y vivre ».

Il y a notamment un domaine où l’Open Data fait d’ores-et-déjà ses preuves : le transport urbain. Raphaël Cherrier, fondateur de Qucit, une autre startup dédiée aux données ouvertes dans les milieux urbains, nous parle ainsi des prédictions réalisées avec les Open Data du Vcub, les vélos en libre service de la Communauté Urbaine de Bordeaux.

Les utilisations urbaines potentielles de l’Open Data sont nombreuses : mettre fin au cauchemar des stations pleines ou vides, mettre en lumière les vélos qui semblent cassés, déterminer la demande si des vélos avaient été disponibles, commander le réassort des stations… On peut même imaginer ces principes pour les voitures, les trams, les bus… !

Bien entendu, l’utilisation du Big Data et de l’Open Data a un lien fort avec les objets connectés (on vous en avait d’ailleurs parlé dans notre article sur les tendances marketing à suivre en 2014). Et pas uniquement les objets… L’avenir serait d’envisager l’utilisateur comme capteur volontaire de données pour améliorer les services voire définir de nouveaux usages et créer ainsi la Ville de demain.

 

Sources des images :

Yuna s'occupe de stratégies digitales. Elle accompagne les équipes tout au long de la conception stratégique et créative : benchmarks, moodboards, recommandations, articles, livres blancs...