Blockchain, valeur et complexité

Il y a quelques mois, ma curiosité m’a poussé à investir quelques kopecks dans les devises virtuelles. A ce moment je n’avais qu’une vague idée de ce que j’achetais vraiment et plusieurs questions se sont imposées à moi. Pourquoi certaines cryptomonnaies ont-elles une valeur plus élevée que d’autres ? Qu’est-ce qui différencie la valeur d’une pièce d’or d’un jeton électronique ?  Peut-on objectivement estimer la valeur d’un Bitcoin ? En persévérant et en retournant ces questions, j’en suis arrivé à des éléments réponses. Et entre temps, j’ai arrêté d’investir dans les cryptomonnaies !

Sommaire

1 – Valeur et complexité
2 – Théorie de la valeur
3 – L’analogie de la Mine d’or
4 – Le Bitcoin vaut-il 233 euros ?
5 – Conclusion

Valeur et complexité

Commençons par une citation. Et pas de n’importe qui ! Jean-Paul Delahaye est un informaticien-mathématicien et enseignant-chercheur français. Reconnu comme l’un des premiers à avoir vulgarisé le fonctionnement du Bitcoin en France, il est un fin connaisseur de la cryptomonnaie. Fin 2017 il écrivait cette phrase sur son blog :

« Le bitcoin tient parce que la profondeur logique de sa blockchain est grande et s’accroît au fur et à mesure qu’on calcule des SHA256 […] le bitcoin repose sur quelque chose de matériel ou de quasi-matériel : du contenu en calcul »
De quoi est fait le Bitcoin?, octobre 2017

Décortiquons-la.

Le début est simple. Le terme « Bitcoin tient » signifie tout simplement que la blockchain Bitcoin fonctionne de manière autonome et sans accros. « Ça roule Raoul » aurait pu convenir mais n’a pas été retenu par l’auteur.

La suite est un peu plus compliquée avec deux termes liés : le « contenu en calcul » et « la profondeur logique ».

Ce qu’on appelle le « contenu en calcul » ce sont des résultats numériques qui se suivent et qui sont stockés dans une blockchain. Sans rentrer dans l’explication de comment les blocs sont mathématiquement liés les uns aux autres, il est plus simple de prendre l’exemple d’une suite arithmétique classique. Si l’on considère les dix premiers termes de la suite de Fibonacci mis bout-à-bout nous avons « 0112358132134″. Cette suite de nombres accolés est en fait très comparable à une blockchain puisque qu’elle n’est pas aléatoire et reflète bien du contenu calculé selon la formule de progression de la suite. La chaîne numérique « 5647684534123418 » que j’ai tapé aléatoirement sur mon clavier ne semble pas refléter une quelconque progression mathématique. Elle n’est donc pas comparable à une blockchain a priori.

L’idée de « profondeur logique » est moins évidente et se rapproche de ce que l’on nomme complexité en mathématiques. La complexité est une mesure à la fois de la difficulté d’obtention d’un résultat ainsi que son caractère d’incompressibilité. Si l’on reprend l’exemple de la suite de Fibonacci, le n-ième terme est calculé par la formule F(n)=F(n-1)+F(n-2) que je qualifie de simple car le calcul s’effectue rapidement avec des termes F(n) relativement courts. Si l’on considère maintenant une suite définie par C(n)=C(n-1)^[100*C(n-2)]! le calcul devient plus délicat. Non seulement l’effort calculatoire est exponentiel à chaque itération mais on se retrouve rapidement avec des termes extrêmement longs. On peut dire avec les mains que la chaîne numérique « F(1)F(2)…F(100) » est moins complexe que la chaîne numérique « C(1)C(2)…C(100) ». Comparer la profondeur logique de deux chaînes numériques construites à partir de deux algorithmes différents est finalement assez simple à appréhender. Encore plus simple, si l’on considère seulement F(n) et que l’on compare les chaînes [[F(1);F(50)]] et [[F(1);F(1000)]] on remarque que la première est plus courte et plus facile à obtenir. L’idée de la correspondance entre complexité et longueur de chaîne pour un même algorithme émerge donc très naturellement.

Dernière précision. Le calcul arithmétique dans Bitcoin n’est pas engendré par une suite arithmétique traditionnelle mais par un algorithme dit de cryptage asymétrique appelé SHA256. Asymétrique signifie que calculer l’image de la fonction est difficile mais que l’opération inverse, à savoir vérifier que son antécédent correspond bien à l’image, est simple. Voilà pour la présentation des termes.

On recolle les morceaux !

Résumons les propos de Delahaye en trois points : (1) La complexité d’une blockchain augmente avec le temps (« la profondeur logique de sa blockchain s’accroît ») puisque son contenu en calcul grandit avec les transactions. (2) La complexité c’est donc une mesure de la difficulté pour obtenir cette blockchain. Plus elle est complexe plus il est difficile de la contrefaire – puisqu’il y a plus de contenu à falsifier. (3) La capacité d’une blockchain à croître de manière autonome et sans être falsifiée (« elle tient ») est une source de valeur. En effet cela démontre la robustesse du système, sa résilience.

En résumé : la complexité du calcul que renferme une blockchain est une mesure de sa valeur. Pourquoi est-ce intéressant ? Parce que la complexité est un critère objectif et intrinsèque propre à n’importe quelle blockchain : les comparer devient simple. De plus la complexité se révèle être un excellent indicateur de confiance. Si l’on s’autorise quelques approximations, la complexité d’une blockchain est sa taille informatique, tout simplement. Pour deux algorithmes de hash comparables du moins. Rappelez-vous de l’exemple de la suite de Fibonacci.

A retenir
Plus une blockchain est longue, plus elle est issue d’un effort de calcul important, plus elle est mathématiquement sécurisée. Il est donc raisonnable de lui affecter plus de valeur. Par ce principe il devient possible de comparer la valeur des blockchains rien qu’en comparant leurs tailles.

La blockchain Bitcoin grandit de manière quasi-exponentielle avec le temps, blockchain.info, avril 2018

Pour autant, l’idée de valeur reste floue et mérite d’être discutée plus en détails.

Théorie de la valeur

La question de la valeur d’une cryptomonnaie est essentielle puisque la théorie économique admet plusieurs définitions de ce qu’on appelle valeur. A ce propos, le billet du philosophe Thomas Schauder La valeur des choses dépend-elle de leur prix ? (Le Monde, janvier 2018) dresse une comparaison éclairante et accessible entre la valeur d’usage et la valeur d’échange, deux manières classiques d’aborder la notion.

Pourtant dans notre cas, la valeur attribuée à la taille d’une blockchain n’est ni sa valeur d’usage, puisque la monnaie est un objet avec peu de praticité, ni sa valeur d’échange, puisque celle-ci est fixée par le marché. Il s’agit d’une valeur objective de l’effort nécessaire pour aboutir à cette chaîne, une valeur d’obtention en quelque sorte. Considérer l’ensemble de l’effort utile pour arriver à la blockchain(1) revient grosso modo à comptabiliser l’ensemble des coûts électriques associés aux calculs cryptographiques depuis la première transaction, qui sont appelés communément « coûts de minage » par la communauté blockchain(2).

A retenir
La valeur intrinsèque d’une blockchain est équivalente au coût électrique associé à l’effort de minage. Ce coût est différent de sa valeur marchande.

(1) par « effort utile » je signifie que les contributions « perdantes » dans la compétition de minage ne sont pas à comptabiliser. En effet, bien qu’ayant eu lieu leurs traces ne subsistent pas dans la chaîne principale et ne participent donc pas à la complexité de l’objet. Elles ne sont donc pas « utiles ». Par définition, tout calcul basé sur une estimation sans distinction de la consommation électrique du minage est de fait surévaluée.

(2) ce calcul est approximatif puisque l’on a négligé les contributions matérielles (hardware) et humaines (développement informatique) aux coûts difficilement évaluables mais vraisemblablement très minoritaires.

L’Ethereum est la Blockchain la plus lourde en avril 2018, bitinfocharts.com

L’analogie de la mine d’or

Dès 2009 la connexion entre valeur et coût électrique est relevée par le fondateur du Bitcoin, Satoshi Nakamoto ! Il établit une analogie intéressante entre l’extraction de l’or et le coût du calcul cryptographique pour une cryptomonnaie.

En effet, l’exploitation d’un métal précieux à partir de minerais souterrains nécessite, un effort qui est quantifiable et qui peut être ramené à un coût d’exploitation. Rappelons que ce coût pour la découverte, l’extraction et le raffinage du métal précieux est différent de sa valeur d’échange qui dépend seulement du cours du marché (la demande rapportée à l’offre). Tant que ce coût d’exploitation ou d’obtention est inférieur au cours du marché (35 k€/kg d’or en 2018) il est économiquement viable d’exploiter une mine d’or puisque la revente assure une plus-value. De la même manière pour une cryptomonnaie, que tant que les coûts pour effectuer ces calculs sont inférieur au cours de la devise virtuelle, il est intéressant de prendre part à l’effort calculatoire pour assurer son bon fonctionnement. On construit sur la base de cette analogie le mot minage renvoyant à l’effort mis en œuvre pour le calcul.

Ce que l’on sait moins, c’est que les règles à la base du fonctionnement du Bitcoin favorisent l’apparition de cette situation. Id est favoriser un coût de minage inférieur au cours du marché pour inciter les mineurs à fournir de la puissance de calcul et maintenir le réseau fonctionnel.

A retenir
Il est viable de miner pour le compte d’une blockchain si les coûts électriques associés à la compétition de minage sont inférieurs au cours du marché. Un mécanisme existe pour favoriser cette situation.

Le Bitcoin vaut-il 233 euros ?

Avec toutes les considérations abordées plus haut, il devient possible de mettre en place des indicateurs simples et de mener des calculs de valeur.

La valeur unitaire moyenne d’un jeton

On appelle jeton, l’unité monétaire d’une cryptomonnaie. Son coût d’obtention moyen est défini comme la valeur du calcul de la blockchain ramené au nombre de jeton en circulation. Puisque la quantité de calcul croît à chaque transaction, son coût d’obtention croît également pour un volume de jeton fixe, puisque la plupart des blockchains ont une émission de jetons très progressive au cours du temps.

VUMJ = valeur du calcul de la blockchain / nombres de jetons en circulation

A quelques approximations près, on trouve qu’un BTC renferme 233€ de travail calculatoire contre 27,64€ pour un ETH. Il est a priori justifié que le cours du BTC soit supérieur à celui de l’ETH sur l’argument objectif de la confiance.

(Edit 08/08/2018)
Ce résultat est basé sur l’estimation annuelle publiée par Digiconomist des coûts de minage ainsi qu’au taux euro-dollars à la date d’écriture de l’article  (juin 2018). L’hypothèse principale est que ce coût a augmenté quasi-exponentiellement sur la période non couverte par l’estimation du site. On néglige également la variation du nombre de Bitcoin sur la période. Pour le détail de ce calcul, je vous invite à consulter la section commentaires.

VUMJ (BTC) = (3,55b$ + 1,09b$)/ 17,1 millions = 233€

VUMJ (ETH) = (2,4b$ + 0,81b$) / 100 millions = 27,64€


La valeur d’obtention rapportée au cours du marché

La valeur des marchés est une valeur subjective et humaine qui fixe le prix des choses. Ainsi une baguette de pain à 1,5€ vaut probablement des dizaines de fois son prix de revient, qui est essentiellement donné par le prix de sa matière première (farine, eau, levure) et du travail pour l’obtenir (transport, stockage, cuisson, frais). L’iPhone 8 Plus est vendu $799 par Apple avec un coût de revient estimé à $295 soit 50% de marge à chaque produit vendu. Pour autant, il n’existe aucune règle générale entre ces deux coûts si ce n’est que l’on cherche en principe à maximiser les marges et qu’il est interdit de vendre à perte.

Dernier exemple. Le prix d’extraction de l’or est d’environ $919 par once alors que son cours est approximativement de $1 270. Le rapport donne une marge de 38%.

A retenir
On a calculé un coût de revient de 233€ pour le Bitcoin alors que son cours évolue à 5 400€. La marge est de 2 320%. Pour Ethereum est sensiblement plus bas avec un coût de revient de 27,64€ et un cours à 375€. La marge est cette fois-ci de 1 360%. A chacun de se faire sa propre opinion.

Conclusion

En introduction nous nous demandions Pourquoi certaines cryptomonnaies ont-elles une valeur plus élevée que d’autres ? On sait maintenant que la valeur de revient d’une cryptomonnaie provient uniquement du nombre d’informations mathématiques qu’elle contient grâce à des milliards de transistors qui travaillent sans relâche de la matière électrique pour la transformer en matière arithmétique. Qu’est-ce qui différencie la valeur d’une pièce d’or d’un jeton électronique ? Finalement pas grand chose, les deux tirent leur valeur de leur rareté. Si ce n’est que dans un cas les pièces d’or ont une existence palpable avec une valeur d’usage faible. Leurs coûts d’obtention provient du travail de la terre dans les carrières pour en extraire le précieux métal. Un jeton de cryptomonnaie comme le Bitcoin n’a lui pas d’existence physique, ce n’est que mathématique et informatique pour une valeur d’usage nulle. Leur coût d’obtention provient de la création ex nihilo de la monnaie par des règles de minage communément acceptées. Peut-on objectivement estimer la valeur d’un Bitcoin ? Oui et non. On ne peut pas anticiper la fluctuation des valeurs d’échange des Bitcoins. L’offre et la demande sur les marchés ne peuvent évidemment pas se prévoir, sauf délits d’initiés. En revanche, on peut calculer objectivement le coût d’obtention d’un BTC, quantité à rapprocher de la notion de valeur-travail au sens marxiste (taskforce). Une comparaison au cours du marché est rendue possible mais n’éclairera que partiellement.

A retenir
La valeur marchande des choses ne dépend que de la valeur que l’on veut bien leur donner. A vous de croire, ou ne pas croire.

Bitcoin, le rêve inachevé de Nakamoto

En 2018 cela fera 10 ans que Bitcoin a été imaginé. Son parcours remarquable fait de lui la principale blockchain en notoriété et en capitalisation. Pour autant, est-ce que Bitcoin a vraiment atteint ses objectifs ? Après une remise dans le contexte sur ce qu’est Bitcoin nous reviendrons sur les raisons de son relatif échec en tant que Monnaie Numérique universelle.

Une publication idéaliste

L’histoire débute en octobre 2008 avec la publication du document fondateur de la technologie blockchain. Répondant au doux nom de « Bitcoin A Peer-to-Peer Electronic Cash System » son auteur Satoshi Nakamoto balance une bombe de 9 pages dans le cyber-espace. Il s’agit d’un manuscrit rédigé dans un anglais impeccable et au style très universitaire comme en témoigne sa mise en page LaTeX. Rien ne présage alors le retentissement planétaire du concept de cette monnaie numérique (Bitcoin) et de la solution technique qui lui est associée (Blockchain). Elles seront toutes deux copiées et adaptées de maintes fois, d’abord dans l’univers des cryptomonnaies puis dans des cadres d’utilisation variés. En 2017, leur intérêt devient prépondérant dans les sphères médiatiques, économiques et financières.

Le nombre de recherches associées aux termes Bitcoin et Blockchain est en forte augmentation en 2017
Source : Google Trend, mars 2018

Régulation, spéculation, Smart Contract, fermes de minages, pénurie de GPU, Nakamoto n’avait certainement pas imaginé toutes les conséquences à moyen terme qu’auraient Bitcoin! Au moment de sa publication, son ambition était pourtant simple et claire :  créer une monnaie électronique échangeable directement et sans intermédiaire. Sa force ? Une idée géniale, la blockchain. Sa faiblesse ? Avoir pensé Bitcoin comme une solution technique. En confondant usage et outil, Nakamoto a probablement oublié le plus fondamental dans un échange commercial : l’humain.

La fin des institutions financières

La publication de Nakamoto survient après la crise des subprimes de 2007 alors qu’un vent de critiques souffle sur les excès de certaines institutions financières. L’arrivée de la devise virtuelle est une réaction libertaire hi-tech d’une petite communauté d’idéalistes et de passionnés. L’idée sous-jacente est la remise en cause du rôle de médiation des entités tierces. En cas de litige, le dialogue instauré par le médiateur peut en effet aboutir à l’annulation d’une transaction, ce qui met à mal la vision d’échanges voulus comme définitifs par Nakamoto (completely non-reversible transations are not really possible, since financial institutions cannot avoir mediating dispute). La seconde motivation pour créer une devise virtuelle indépendante se situe au niveau des frais de services, puisque garantir de la confiance et un service de médiation… ça se paie ! Avec des impacts collatéraux à ces frais :

(1) ils limitent la taille minimale d’une transaction (the cost of mediation increases transaction costs, limiting the minimum practical transaction size and cutting off the possibility for small casual transactions). C’est le cas pour certaines commissions fixes qui nous empêchent de régler de petits montants par carte bancaire – en dehors du sans contact – puisque les commerçant ne veulent pas assumer ces coûts.

(2) ils peuvent être augmentés par des frais de second ordre en raison de l’assymétrie paiement-service. Une transaction peut toujours être révoquée mais un service déjà effectué ne peut pas l’être (there is a broader cost in the loss of ability to make non-reversible payments for nonreversible services). En cas de litige, les frais engagés pour le service doivent être assumés par l’une des parties.

Une monnaie sans organe de contrôle

Pour pallier à ces désagréments de médiation et de frais, Bitcoin propose une solution aussi radicale qu’ambitieuse : la suppression de tout intermédiaire (we propose a solution to the double-spending problem using a peer-to-peer network). La conséquence est immédiate avec la garantie de l’irréversibilité des échanges commerciaux et la suppression des frais de commission. La fonction de confiance devient ainsi transférée dans la technologie blockchain du réseau (an electronic payment system based on cryptographic proof instead of trust) et la fonction de médiation n’est plus assurée. Attention aux erreurs, vous n’aurez pas de service après-vente.

Pour implémenter concrètement cette idée, le réseau imaginé par Satoshi doit fonctionner de manière distribuée et autonome. Comme vous le savez, ce sont les nœuds du réseau (des ordinateurs) qui fournissent la puissance de calcul nécessaire pour qu’il perdure et consolide sa blockchain au fur et à mesure des transactions (minage). Des primes sont alors reversées aux mineurs pour les gratifier de leur contribution au bon fonctionnement du système (this adds an incentive for nodes to support the network. In our case, it is CPU time and electricity that is spended). C’est ce réseau Bitcoin qui est officiellement lancé le 3 janvier 2009, date historique à laquelle le premier bloc est miné par Nakamoto. Le réseau pensé théoriquement prend vie !

Sauf avancée mathématique majeure mettant à mal la fonction cryptographique de hashage  SAH-256, on estime aujourd’hui que les technologies blockchain et en particulier le protocole Bitcoin deviennent pratiquement inviolables à mesure qu’ils grossissent (the probability drops exponentially as the number of blocks the attacker has to catch up with increases). Architecte prudent, Nakamoto anticipe dans son papier que des attaques peuvent survenir si un contributeur venait à posséder plus de 51% des nœuds du réseau, ce qu’il tempère par la gravité limitée d’un tel contrôle et de la très faible probabilité que cela se produise. Au final, son idée est couronnée de succès avec la création d’un réseau sécurisé, persistant et autonome depuis près de 9 ans. Tout au plus, différentes versions de la blockchain ont pu apparaître à cause de groupes de nœuds dissidents dans la manière de gérer les transactions (forks). En résumé, on peut globalement dire que la mécanique blockchain a apporté une solution innovante au problème de la non réplicabilité des données numériques pour un système autonome. Sinon quoi, on pourrait répliquer de l’argent à l’infini. Alors tout est si rose ?

Invention géniale, objectifs ratés

Malgré des qualités techniques évidentes, les imperfections du Bitcoin sont nombreuses et souvent confinées au silence par les crypto-incitateurs. Mes lectures ainsi qu’une analyse critique de la situation m’a permis d’en établir une liste non exhaustive.

La première objection est la remise en question de la nature profonde de monnaie du Bitcoin. La crypto-currency n’a d’ailleurs jamais caché son ambition de devenir La monnaie numérique universelle. Pour autant, devenir une monnaie d’échange ne se décrète pas : la devise doit atteindre un certain seuil de reconnaissance, d’acceptation et de stabilité. Aujourd’hui, le constat est plutôt amer puisque le Bitcoin est décrié par de nombreuses institutions, inutilisable dans la pratique et extrêmement volatile. On peut considérer le Bitcoin comme une devise financière robuste, mais certainement pas comme une monnaie d’échange pratique puisqu’il n’en a pas les qualités requises. Au lecteur qui doute : a-t-il jamais vu quelqu’un acheter une baguette du pain en Bitcoin ?

Le Bitcoin est un actif volatile, après avoir pris 1 300% sur l’année 2017, le prix du marché a drastiquement chuté début 2018. Source : bitcoin.info, mars 2018.

Seconde raison, il s’agit de l’échec de la suppression des intermédiaires. Comme on l’a vu, Bitcoin s’est fixé comme objectif de se suffire à lui-même dans les échanges commerciaux avec la suppressions des frais et l’introduction de l’irréversibilité des échanges. C’était sans compter qu’une écrasante majorité des transactions passent aujourd’hui par des plateformes tierces (Kraken, Coinbase, Bitstamp…). Côté pile, elles ont le mérite d’être plus pratiques et plus simples à appréhender que les clients lourds traditionnels (Bitcoin Core). Côté face, leurs frais de commission et leur forte exposition aux vols et piratages (MtGox, Coincheck) posent des questions profondes en apparentes contradiction avec l’esprit Bitcoin. Confier la gestion des opérations et le stockage des clés privées à des tiers, c’est créer un maillon faible autour d’un protocole justement réputé pour sa robustesse. Passer par une plateforme tierce c’est donc réintroduire des frais d’exécution autour d’une monnaie qui avait l’ambition de s’en passer. Toujours sur la thématique des frais, il est intéressant de pointer un autre point assez antinomique au cœur du système. Pour pallier la décroissance du nombre de BTC émis (jusqu’à l’arrêt du mécanisme d’émissions vers 2100) Nakamoto a laissé la possibilité aux mineurs de rajouter des frais de transaction en plus de la récompense provenant du minage (the incentive can also be funded with transaction fees). Il s’agit à mon sens d’un aveu d’échec de la philosophie du Bitcoin, puisque l’on ne pourra jamais totalement se passer de frais…

Les principales plateformes d’échange versus le volume de Bitcoin échangé. Source : data.bitcoinity.org

Raison numéro trois, le manque de transparence de Bitcoin. Dans sa conception, Bitcoin ne permet pas d’identifier les donneurs d’ordres qui sont masqués derrière des pseudonymes. Agrémenté de quelques mesures de protection supplémentaires les identités des émetteurs et bénéficiaires deviennent absolument impossibles à remonter. C’est pour cette raison que le darknet a massivement adopté Bitcoin comme son moyen de paiement officiel très tôt après sa sortie. Il n’est pourtant pas inutile de rappeler que la philosophie de Bitcoin tourne autour des notions de transparence et de neutralité. Alors pourquoi utiliser le mot transparence alors que les transactions sont facilement opaques ? Les têtes pensante des cryptomonnaies ont utilisé cet adjectif pour qualifier la possibilité de suivre le trajet de chaque fraction de Bitcoin lorsqu’il change de propriétaire… chose qui en pratique se révèle assez inutile puisque la correspondance avec l’identité du propriétaire n’est pas possible à établir. Mieux, il est aujourd’hui possible d’obtenir un nouveau pseudonyme à chaque ordre de transaction (= une adresse publique) pour mieux brouiller les pistes. Lorsque Bitcoin parle de transparence je comprends le droit de posséder ses données de manière indépendante. Ne pas vouloir partager ses informations avec un organisme tiers lors d’un transfert d’argent (banque, Paypal, Apple Pay etc.) reste en soit tout à fait légitime. Mais la terminologie de transparence est particulièrement mal choisie puisque le but final est de rendre opaque ses opérations aux yeux des institutions et des Etats. Je parlerai plutôt de traçabilité partielle. Sur ce sujet, le récent Bitcoin, la monnaie acéphale s’épanche longuement à défendre le terme de transparence que permet l’anonymat cryptographique de Bitcoin contre les lois liberticides du renseignement. Il aurait été plus pertinent de s’interroger sur la notion de société open source (transparence, lisibilité, ouverture) en possible contradiction avec la notion de liberté individuelle qui permet de disposer de ses données en toute indépendance (fermeture, cryptage, vie privée).

Quatrième raison, les limites de scalbilité de la technologie blockchain. La croissance exponentielles de la blockchain Bitcoin (160 Go le 03/03/2018) n’a en effet pas été suffisamment anticipée par le brillant (mais pas omniscient) Nakamoto. La compétition du minage se faisant, le résultat direct sont des coûts énergétiques disproportionnés pour faire fonctionner le réseau. Digiconomist a publié une étude de référence sur la consommation Bitcoin qui a été largement reprise dans les médias, mais aussi critiquée pour son mode de calcul qui repose sur des hypothèses énergétiquement défavorables. J’ai envie de dire peu importe. En effet, l’ordre de grandeur de la consommation du réseau Bitcoin ne change pas fondamentalement en prenant en compte des hypothèses plus favorables (on parle d’un facteur 2). Ainsi, en mars 2018 on estime la consommation annuelle du réseau pour la blockchain Bitcoin à 53TWh ; soit approximativement la même quantité d’électricité consommée en un an par le Bangladesh, pays de 163 millions d’habitants ! Ce problème est aujourd’hui non résolu et propre à toutes les blockchains modernes créées après Bitcoin. Pourquoi est-ce si grave ? Parce que cette critique énergétique n’est pas d’ordre philosophique, pratique ou économique puisqu’elle a des conséquences palpables et néfastes dans notre monde réel. En d’autres mots, on gaspille chaque jour dans des fermes de minage des ressources électriques faramineuses pour un système monétaire qui ne fonctionne pas. Rappelons-nous que les deux usages répandus du Bitcoin sont aujourd’hui la spéculation et le trafic. Pour ce dernier, il reste marginal puisque des études montrent que 95% des volumes échangés le sont en liquide. En première approximation, on peut donc conclure que cette énergie électrique est dépensée à des seules fin de spéculation.

Raison cinq, le système monétaire déflationniste du Bitcoin est difficilement compatible avec l’économie réelle. En effet, les cryptomonnaies n’ont pas été conçues pour le crédit et n’en généralement sont pas capable en l’état. Id est, avec ses 21 millions d’unités en circulation à terme, l’approche économique de Bitcoin se base sur la division du fini (déflation) plutôt que sur l’émission perpétuelle de monnaie (inflation). Cette approche est intéressante et fut anticipée de longue date par Nakamoto : sous réserve de succès il avait prévu que la métrique de la monnaie allait se contracter à mesure que l’unité prendrait de la valeur. Pour continuer à pouvoir faire des transactions aussi petites (précises) que l’on veut et de tout temps, Nakamoto a fixé arbitrairement la plus petite quantité échangeable dans le protocole comme une fraction de 108 BTC. A titre de comparaison, cette quantité est plus fine qu’un centime d’euro tant que le taux de change ne dépasse pas 1 BTC = 1 000 000 €. Mieux encore, Nakamoto a laissé la possibilité de mettre à jour Bitcoin par l’ajout de digit supplémentaires si la finesse de la mesure venait à devenir insuffisante. Cette digression étant faite, ce mode de fonctionnement divisionniste ne permet pas de générer du crédit à ce jour. En d’autres mots, il n’est pas possible de créer de l’argent à des fins de prêt puisque toutes les unités seront à terme émises… ce qui est problématique. Le pilier de l’économie réelle est en effet basée sur la création d’argent ex nihilo par les institutions financière et les Etats. On génère ainsi des créances qui sont remboursée par le futur travail des bénéficiaires ; cela équivaut à dire que l’on passe la plupart de notre temps à rembourser des emprunts virtuels afin de leur donner une consistance par le fruit de notre travail. Le corollaire est une légère perte de valeur unitaire de la devise (inflation) qui est continue dans le temps, ce qui est incompatible avec un système divisionnaire. La création continue de monnaie pour le prêt, deuxième pilier central d’une monnaie dans une économie, n’est pas non plus couvert par Bitcoin.

Raison six, la difficile législation du Bitcoin. Si les cryptomonnaies décentralisées sont existentiellement libertaires, elles n’en demeurent pas moins assujetties à respecter la loi. Oui mais quelle loi puisque qu’elles ne connaissent pas les frontières ? A tout instant Bitcoin est distribué dans autant de pays qu’il existe de nœuds dans le réseau. Sur un système centralisé, la problématique de la législation est relativement simple puisque la domiciliation du serveur hébergeant le système informatique fait fois. Ici, la loi peut éventuellement s’appliquer à l’utilisateur situé physiquement à un endroit donné lorsqu’il passe un ordre Bitcoin, mais certainement pas à l’ensemble de la trésorerie personnelle de l’utilisateur ni au réseau en général. Chers législateurs, la question reste ouverte.

Conclusion

Preuve de concept magnifique, la publication de Nakamoto et le réseau Bitcoin lui  étant attaché restera comme un nouveau jalon dans la longue histoire de la monnaie. Pour la première fois devise et informatique convergent pour former un objet hybride et génial, cristallisant une idée originale et libertaire (non sans paradoxes). Mais les difficultés sont nombreuses : énergétiques, techniques, légales, d’usage. L’économie de ce monde n’étant pas que mathématique et abstraite, puisque profondément humaine et subjective, le Bitcoin se révèle profondément inadapté et inapte à incarner son rôle de monnaie numérique universelle. Son émergence restera probablement comme une curiosité contemporaine qui finira par se fâner d’elle-même… ou prospérer sous des formes plus vertueuses.

Sources

  • Satoshi Nakamoto, Bitcoin: A Peer-to-Peer Electronic Cash System, Bitcoin.org, 31 Octobre 2008 (9 pages)
  • J. Favier, A Takkal Bataille, Bitcoin, la monnaie acéphale, Edition CNRS 2016 (280 pages)
  • Jean Paul Delahaye, Ne nions pas le problème électrique du Bitcoin, 24 décembre 2017 (article de blog)
  • Jean-Luc Gandi, Mike Hearn : « Bitcoin a échoué », 15 janvier 2016 (article de blog)

Data analyse : comment l’étonnante loi de Benford permet de traquer la fraude en entreprise ?

Saviez-vous que vous rencontrez plus régulièrement des nombres qui commencent par le chiffre « 1 » que des nombres qui commencent par le chiffre « 9 » ? Ce résultat surprenant fait l’objet de nombreuses publications mais n’est pas encore largement dans le monde de l’entreprise. Pourtant, à l’heure du tout digital, cette loi constitue un outil intéressant pour lutter contre les falsifications des données dans le traitement numérique de masse. Après une introduction théorique et jalonnée d’exemples, on expliquera comment tester concrètement vos données avec l’aide d’un fichier Excel en décrivant certaines bonnes pratiques d’utilisation. Prêt, feu, partez !

La loi de Benford

Énoncée simplement elle stipule que dans une liste numérique quelconque, si vous regroupez les nombres selon leur premier chiffre significatif, vous en dénombrerez plus qui commencent par « 1 » que par « 2 » que par « 3 » et ainsi de suite jusqu’à « 9 ».

Par exemple : le registre des amortissements des biens de la ville de Paris – accessible en Open Data – dénombre plus de 40 000 valeurs de biens à l’achat avec un montant exprimé en euros. En analysant cet échantillon de données, j’ai pu mettre en évidence les fréquences d’apparitions du premier chiffre significatif comme suit :

Analyse de Benford des acquisitions de la ville de Paris par rapport à la loi statistique théorique, opendata.paris.fr – décembre 2017

Ce qui frappe c’est que ces fréquences semblent strictement décroissantes alors que notre intuition suggère qu’elles devraient être uniformes : on en veut pour preuve les nombres générés aléatoirement par l’informatique qui sont équiprobables. Pourtant, il ne s’agit pas d’un biais de l’échantillon mais bel et bien d’un phénomène de fond connu sous le nom de son codécouvreur : la loi de Benford. Des études portant sur des milliards de données diversifiées (mathématiques, géographiques, financières etc) ont montré que que ce résultat de Benford est persistant.  Si la loi fut d’abord empirique, il est maintenant prouvé qu’elle est rigoureusement vraie pour certains types de données. On l’exprime par la formule suivante :

P(c) = Log10(1 + c/10) avec c pour le premier chiffre significatif à prendre parmi {1,2,3,4,5,6,7,8,9} et P(c) la probabilité associée à sa fréquence d’apparition.

Faites l’expérience suivante : prenez un journal au hasard, ouvrez une page au hasard et relevez le premier nombre contenu dans la page. Vous aurez environ Log10(1 + 1/10) ≈ 30% de chance qu’il commence par un « 1 » et seulement Log10(1 + 9/10) ≈ 4,5% de chance qu’il commence par un « 9 ». Ce résultat est si étonnant que l’on voit tout de suite le potentiel d’un jeu de hasard exploitant ce résultat 😉

Dans cette loi, il existe aussi une formulation de second niveau qui porte sur les k-ème chiffres significatifs. La probabilité devient quasiment équilibrée dès la 4ème décimale. En d’autres termes un « 1 » a quasiment autant de chance d’apparaitre qu’un « 9 » dès que l’on avance dans la composition d’un nombre dans sa forme canonique.

Des propriétés singulières

La propriété la plus remarquable est que loi de Benford est indépendante de la mesure. En d’autres termes, si l’on compile des données financières exprimées en euros et qui suivent la loi de Benford, la transformation de ces données dans une autre devise suivra également la loi ! Pour les curieux, il existe une démonstration simple de l’invariance par la multiplication.

Autre conséquence : la loi reste valable indépendamment de la base numérique choisie. Dire que l’on suit cette loi dans la base 6 – communément utilisée dans le système heure, minute, seconde – revient à la probabilité donnée par la formule P(c) = Log6(1 + c/6). Bref, la distribution reste « de Benford » si l’on décide de convertir des données dans n’importe quelle autre base !

Pour en savoir davantage sur l’aspect mathématique, je vous conseille l’article de Jean-Paul DELAHAY (Pour La Science 351, décembre 2006) ou le billet d’Elise Janvresse sur le blog Images des mathématiques (CNRS). La page anglaise de Wikipedia sur le sujet contient également quelques informations complémentaires à ce sujet.

Pour l’heure on va souffler un peu et revenir à un domaine plus terre-à-terre…

Benford par la pratique : la détection de fraudes

Pendant des années ce résultat est resté une curiosité mathématique sans réelle application. Dès 1972, Variant souligne l’utilité potentielle de cette loi pour détecter la présence de possibles de fraudes dans des bases de données. L’idée d’utiliser cette loi en comptabilité est apparue à la fin des années 1980 dans un rapport de recherche du chercheur néo-zélandais, Charles Carslaw. Dans les années 1990, l’économiste américain Mark Nigrini popularise l’idée.

Propice à la comptabilité, cette idée peut en fait être extrapolée à d’autres départements comme la Qualité ou le Marketing ; dans un contexte où les données chiffrées sont devenues prépondérantes en entreprise. Des écarts trop importants à la loi peuvent être détectés et présager d’éventuelles erreurs ou fraudes.

Mais concrètement, quels sont les outils existant pour tester la loi de Benford sur vos Data ? Si l’on peut trouver assez facilement des codes en MatLab et Python, leur nature limite l’audience à des personnes plutôt aguerries.  Internet étant beaucoup moins prolixe en Excel de qualité, j’ai décidé de développer une solution moi-même. Voici deux fichiers légèrement différents que je partage de manière libre et qui vous permettrons de tester facilement vos données :

Fichiers Excel

Analyse_Benford_Simple.xlsx

Permet de tester sur deux chiffres l’adéquation de vos données par rapport à la loi de Benford et de tracer les histogrammes de fréquence. Il est conseillé d’utiliser des échantillons significatifs de plus de 2000 valeurs.

  • La seule limite de taille est celle du nombre de lignes d’Excel un peu supérieure à 1 million.
  • L’adéquation à la loi est automatiquement calculée par la loi statistique du Chi-deux (par chiffre et par décimale).
  • Un manuel d’utilisation est intégré dans le fichier.

Advanced_Benford_Analysis.xlsm

Reprend les fonctionnalités du fichier précédent avec une analyse plus fine :

  • Neuf décimales sont testées au lieu de 2 (en pratique les 4 premières ont un intérêt).
  • Possibilité de tester les échantillons par lots avec un rapport détaillé au test d’adéquation du Chi-deux.
  • Une fonction benfordProbability permet de calculer la probabilité dans la base de son choix, pour n’importe quelle chiffre et rang de la décimale.
  • Le fichier est en anglais et contient un manuel d’utilisation succinct.
  • Il est nécessaire d’autoriser les macro (VBA) pour que le code puisse s’exécuter.

 Domaines d’application et limites

Le domaine d’application de la loi est crucial et pourtant ce n’est pas évident de le déterminer a priori. Les données les plus candidates à suivre la loi doivent être étalées et régulières avec une taille d’échantillon significatif.

Certains jeux de données ne suivent pas la loi de manière évidente : pas question de tester la loi sur la taille de la population d’un pays car la grande majorité mesure 1.x mètre. De même certaines enseignes pratiquent des prix de la forme x.99€ ce qui peut fausser le résultat sur les décimales. Pour d’autres échantillons c’est plus compliqué. Un bon échantillon de Benford au sens mathématique est engendré par la multiplication entre elles de variables indépendantes [1] ; ce critère n’est malheureusement pas utilisable facilement en pratique. Ce que l’on peut dire c’est que certaines données sont parfaitement en adéquation avec la loi, d’autres tendent vers la loi et d’autres ne fonctionnent pas sans qu’une fraude soit à suspecter.

En utilisant les bonnes pratiques du tableau ci-dessous, on écarte déjà certains nombres de cas simples qui ne suivent pas la loi :

Récapitulatif des bonnes pratiques de sélection des échantillons à tester par Benford

Je dirai donc qu’il faut manier la loi avec prudence et garder un esprit critique sur les éventuels « faux positifs ». Des articles détaillés proposent d’autres bonnes pratiques en la matière [2] [3] et les plus aguerris d’entre vous pourrons utiliser d’autres tests statistiques en complément du Chi-deux (test binomial, Kolmogorov-Smirnov etc.) pour affiner l’analyse. Gardez en tête que la loi de Benford est un outil très puissant mais qu’il ne faut pas conclure trop hâtivement si la corrélation du Chi-deux est inférieure à 95%. Des investigations plus poussées doivent être menées lorsqu’un doute apparait.

Conclusion

In theory, practice is the same as theory, but not in practice.

Voilà qui résume bien la situation !
Gardez les yeux bien ouvert sur vos jeux de données 🙂👍🏻

Sources

[1]   Nicolas Gauvrit et Jean-Paul Delahaye, Pourquoi la loi de Benford n’est pas mystérieuse (2008)

[2]   J.M Pimbley, Benford’s, Law and the Risk of Financial Fraud (2014)

[3]   Adrien Bonache, Jonathan Maurice, Karen Moris, Détection de fraudes et loi de Benford : quelques risques associés (2010)

Quid de l’accessibilité du service public connecté ?

L’arrivée de services connectés dans l’espace public n’est pas sans poser de questions profondes. Comment faire bénéficier aux citoyens un service numérique qui nécessite peu d’équipement préalable et qui reste simple et accessible en dépit de contraintes technologiques ? C’est une question qui a été abordée lors d’une conférence de l’ACSEL en octobre dernier, voici quelques éléments de réponse et mon point de vue sur la question.

Rendre l’information accessible

La première étape est évidemment de rendre disponible l’information des systèmes d’information publics. Aujourd’hui, c’est en partie chose faite au niveau national avec le site data.gouv.fr et localement avec des sites dédiés comme OpenData Paris. Leurs missions ? Fournir des données publiques ouvertes et libres (« Open Data ») et inciter les gens à en faire usage.

« Oui mais », monsieur tout-le-monde n’est pas forcément expert et il y trouvera son compte seulement si on lui facilite l’accès à ces données. Peu enclin à lire des log de de raw data, une interface simple et universelle est quasi obligatoire. Pourtant, mettre en place cet habillage cosmétique pour tous n’est pas toujours si simple…

La difficulté du multiplateforme

Nous sommes en 2009 et la première App Vélib’ sort pour accompagner le service qui est installé dans la capitale. Dans l’air du temps, elle est disponible sur iPhone (iOS3 pour les nostalgiques) ou uniquement disponible sur iPhone devrait-on dire. A l’époque les smartphones en sont à leurs débuts et l’appareil d’Apple qui est considéré haut de gamme, représente 10% du marché mobile. Pour le reste des utilisateurs, soit 90% de l’écosystème mobile, ils doivent passer directement par la borne pour gérer l’emprunt du vélo… autant dire qu’ils perdent une sérieuse partie de l’intérêt du service. Quelques mois plus tard l’application arrive enfin sur les autres plateformes, ouf ! Apprendre de ses erreurs est un chemin sinueux puisque l’histoire se répète en décembre 2011 avec le lancement du service Autolib… La mairie de Paris ambitionnait-elle d’offrir des iPhone à tous les habitants ?! 🙂

Source : IDC/Gartner – ZDnet.fr

Soyons rassurés ! En 2017, le multiplateforme pour les appareils mobiles est devenu un problème très secondaire. Très simplement : avec 99,6% du marché détenu par iOs (17,9%) et Android (81,7%), un développement sur ces deux systèmes assure une couverture de service quasi complète du parc. Pour les autres systèmes : une application web (autrement dit un site internet comme on disait à l’époque) est suffisant dans la majorité des cas. Aujourd’hui les navigateurs sur mobiles sont performants, les sites sont responsive et le HTML5 a tué les technologies propriétaires et peu portables comme Silverlight ou Flash, ce qui n’était pas le cas au début des années 2010. Un hic persiste : la problématique de la rétro-compatibilité des applications avec des OS anciens, mais on dévie du sujet… Alors, où est le problème si toutes les plateformes sont desservies ? Et bien c’est le smartphone en lui-même…

Le devoir moral de posséder un smartphone

Aujourd’hui, le débat de fond  est moins sur la compatibilité du terminal que sur la possession d’un appareil. En pour cause, on oublie souvent un peu vite les 35% de Français qui n’ont pas de smartphone et les 15% de Français sans accès internet (ARCEP, 2016). Ce sont autant de personnes qui ne peuvent pas bénéficier facilement du service public numérique et si l’on peut attendre que ces chiffres baissent avec le temps, on peut affirmer qu’ils ne sont pas encore négligeables et doivent êtres pris en compte.

On voit bien que la question autour de l’universalité et de l’accessibilité de l’information publique est plus vaste et plus épineuse que la simple compatibilité logicielle ou la mise à disposition des données. Encore un exemple : en 2016 le gouvernement choisit de développer une appli pour le service Alerte Attentats (SAIP) au lieu d’un universel service SMS en cas d’alerte. On assiste alors à une polémique (justifiée) comme quoi une partie de la population est mise à l’écart. De plus, l’inexcusable dysfonctionnement du service le soir des attentats de Nice aurait probablement pu être atténué avec un service SMS simple et robuste. Bref, il serait judicieux de conserver des moyens de consultation traditionnels pour tous les services connectés publics en cours de déploiement ; par exemple pour les compteurs communicants dont le relevé est accessible uniquement en ligne.

Et demain ?

En tout état de cause les smartphone vont devenir la norme et on peut raisonnablement penser que la fracture numérique va s’atténuer. Pourtant, on voit qu’il existe au-delà une problématique forte autour de la notion de service public numérique et le pré-requis de posséder un appareil numérique personnel.  S’il n’y a rien de révolutionnaire dans le fait que la technologie laisse certaines personnes en marge, il est bon de l’avoir en tête et de trouver des solutions simples et accessibles.

Souvenez-vous de votre lointain grand grand oncle qui n’avait pas le téléphone fixe dans les années 1990… il n’y a qu’un pas pour penser que l’histoire qui se répète !

 

Que peut-on attendre de la science des données pour l’Internet des Objets ?

Quels sont les différents types de données générées automatiquement ? Quelles est le rapport entre l’IoT et le Big Data ? Et surtout, que peut-on attendre de la science de l’analyse des données pour l’Internet des Objets ? L’ambition de cet article est de tenter une réponse simple (et assez scolaire, je l’avoue) à ces questions compliquées et de développer un point de vue basé sur des publications d’acteurs de premier plan.
Bonne lecture 🙂 !

La data science commence dans notre environnement quotidien

Quel est le point commun entre passer ma carte de fidélité à la caisse du supermarché, utiliser mon application de géolocalisation favorite ou amener mon véhicule à un contrôle technique ? A priori aucun, en première approche ces situations sont très différentes. Et pourtant, le plus petit dénominateur commun de ces scènes de la vie courante c’est la production automatique de données ! Omniprésentes et invisibles, elles quantifient méticuleusement le monde réel sans que l’on y fasse particulièrement attention.

D’où viennent ces données automatiques ?

Cette remontée de data a plusieurs facteurs de déclenchement, que l’on peut classer en deux grandes catégories : celles qui ont une causalité humaine directe et celles qui sont produites par des machines sans espèce d’intervention.

Pour les causes humaines, on peut distinguer plusieurs sources de déclenchement : les actions physiques (passage d’un portique, le déclenchement d’une chasse d’eau etc.), les interactions avec un terminal numérique (application, borne numérique, etc.) et les enregistrements d’informations dans un fichier (formulaire, communication de données personnelles etc.). Discrétisés puis consignés, nous alimentons sans le savoir de gigantesques entrepôts de données par nos faits et gestes quotidiens.

Contrairement à un tweet ou à une photo, une donnée générée automatiquement n’est pas le fruit de notre volonté immédiate

L’autre source de production de data provient des machines. Bien que restrictif, le concept de relève à distance (télérelève) est capable de générer des données de manière régulière (mode temporisé) ou évènementielle (mode déclenché). Il s’agit d’une pratique courante pour remonter un grand nombre d’informations avec une tendance qui va s’accélérer comme on va le voir.

Bref point historique sur la télémétrie

La collecte d’informations issues de capteurs est utilisée dans l’industrie depuis la fin des années 1980, principalement à titre de maintenance préventive. Appelée Machine-to-Machine (M2M) cette télérelève est aujourd’hui supplantée par un autre concept dont on entend régulièrement parler : l’Internet des Objets (IoT). Comme son nom l’indique, cette manière de transmettre de l’information fonctionne à des échelles plus globales (Internet) et de préférence avec des objets-capteurs et non plus des machines. Ils ont ceci de différent que sans connectivité, l’objet ou le capteur perd toute utilité. Au contraire, la connectivité dans une machine n’est pas essentielle : la retirer n’empêche en principe pas son bon fonctionnement. Pour parler de manière générale de tous ces types de terminaux, on utilise parfois le terme d’appareils connectés (devices).

Cependant, la différence IoT – M2M ne se limite pas seulement à la nature de l’appareil en bout de ligne et la valeur ajoutée de la connectivité. Elle est également technologique puisque les moyens de transmission, les réseaux utilisés, l’autonomie des appareils ou l’intelligence embarquée sont en principe différents. Mais elle est aussi et surtout conceptuelle : l’Internet des Objets impacte des secteurs beaucoup plus variés avec des cas d’usages multiples. Contrairement au M2M, l’exploitation des données issues de l’IoT est complexe et sert de socle à de la prise de décision. Ces données sont en général représentées avec des méthodes graphiques (data-visualisation). Enfin, le volume de données généré par l’IoT est en principe plus grand de plusieurs ordres de grandeurs par rapport au M2M.

Humains ou machines, M2M ou IoT : la certitude est que le monde autour de nous est en permanence retranscrit en jeux de données qui sont de plus en plus volumineux.

Les appareils connectés vont devenir une source prépondérante dans la production de données

Souvenons-nous du temps analogique ! Durant des millénaires la production matérielle, intellectuelle et artistique assimilable à des données était exclusivement le fruit de l’Homme. Devenue digitale, la production engendrée par l’humain (documents, tweets, dessins industriels, photographies…) est vouée à devenir minoritaire face aux volumes générés automatiquement par les appareils connectés et les algorithmes. Ce phénomène est visible pour l’IoT dans l’illustration ci-dessous qui prend une part de plus en plus importante par rapport à l’ensemble des données produites et stockées à l’échelle de la planète. On appelle ce volume global l’Univers Numérique (ou DU pour Digital Universe) qui est lui-même en croissance forte.

Les systèmes embarqués de l’Internet des Objets génèrent des quantités de données en croissance exponentielle. Ils deviendront prochainement le premier volume de données.
Source : EMC/IDC, « Digital Universe of Opportunities », 2014

Des quantités de plus en plus importantes

Après 2010, le phénomène d’accélération dans la production de data a bénéficié d’une large couverture médiatique et d’une prise de conscience collective.
Cette année-là, Eric Schmidt, le patron de Google, estimait déjà que « tous les deux jours, nous produisons autant d’informations que nous en avons générées depuis l’aube de la civilisation jusqu’en 2003 ».

En 2017, on estime que la taille de l’Univers Numérique croit de 40% par an (1) ce qui pourrait représenter 44 000 milliards de gigaoctets en 2020, soit 10 fois plus qu’en 2013 (2). N’essayez pas de vous représenter ce volume, cela dépasse l’entendement.

Prévision du nombre d’objets connectés dans le monde : leur augmentation a un impact direct sur le volume d’informations croissant généré par l’IoT. Cette croissance est plus rapide que celle de l’Univers Numérique ce qui aboutit à un ratio Vol(IoT) de plus en plus important.
Source : Oliver Wyman, 2016

Avec 10% de l’Univers Numérique en 2020 et en croissance exponentielle, on estime que les données brutes produites par l’ensemble des appareils connectés deviendront rapidement le volume de données le plus important. Il dépassera la production de type algorithmique qui se base sur l’analyse des jeux de données existants (modélisation, traitement statistique…) ou sur une production ex nihilo (cryptographie, simulation, apprentissage profond…) ainsi que la production humaine directe.

Boosté par la généralisation de l’IoT, le volume de données va exploser à l’échelle mondiale. Si le stockage de l’information semble aujourd’hui relativement maîtrisé, la question fondamentale tourne autour de l’exploitation de ces gigantesques entrepôts de données (datawarehouse).

Des données déjà nombreuses, mais pas forcément utilisables

Un rapport publié en 2016 rend compte d’un phénomène de fond : 85% des données en entreprise seraient aujourd’hui non pertinentes (3).
Cela interroge sur la qualité et l’exploitabilité des données collectées d’une part. D’autre part, il faut mettre ce chiffre en perspectives avec les limites algorithmiques de l’exploitation des jeux de données : une problématique courante chez les géants du web, dans les secteurs du Renseignement et de la Défense, ou dans la recherche scientifique lorsque l’on parle d’association de collections de données extrêmement volumineuses (4). Cette limite est un sujet primordial et est actuellement l’objet d’intenses recherches.

L’évolution vers un Internet des Objets intelligent dépend des avancées de la science des données

La taille de l’Univers Numérique croit, les appareils connectés génèrent en proportion toujours plus de données (et pas toujours utiles) que l’on n’arrivera bientôt plus à exploiter. Se dirige-t-on vers un scénario catastrophe ? J’ai tendance à croire que non : avec l’effet combiné de la recherche sur le sujet, de l’augmentation des puissances de calcul et de prises de conscience simples (« quantité ne signifie pas qualité »), il semble que l’on puisse faire des progrès significatifs. Dans cette partie, je vous propose un tour d’horizon des prochaines étapes clés menant vers des réseaux d’objets connectés plus intelligents.

© blog.alexandre-gambuto.com, librement inspiré d’une intervention de Alcatel-Lucent

– Phase I : enjeux déjà maîtrisés

Collecte de données : il s’agit de la transmission de l’information et de son stockage. La transmission se fait aujourd’hui à bas coût avec un large spectre de technologies et ne semble pas constituer un frein majeur pour l’IoT. Côté stockage, la formalisation des bases relationnelles dans les années 1970 pose les fondements du stockage structuré qui est encore utilisé de nos jours. À la fin des années 2000 le modèle relationnel est remis en cause pour certaines problématiques de performance et dans un souci de scalabilité. Apparaît le stockage non structuré avec des solutions dites noSQL, qui connaissent un grand succès et représentent aujourd’hui la majorité des données stockées.

Monitoring, reporting : il s’agit du traitement de la donnée. Pour du temps réel on parlera plutôt de monitoring (indicateur d’état dynamique) et pour une analyse consolidée sur un jeu « à froid » on parlera plutôt de reporting.
Exemple : sur un tableau de bord d’une voiture l’afficheur de vitesse peut être considéré comme du monitoring alors que l’analyse des rythmes de production du mois sur un TCD d’Excel est du reporting.

Contrôle à distance : il s’agit de l’envoi d’informations ou d’ordres vers des appareils connectés capables de la recevoir dans un premier temps, de l’interpréter et de réagir. Cela concerne les objets ayant un minimum d’intelligence embarquée (i.e non limités à un simple capteur unidirectionnel).
Exemple : piloter une cocotte-minute connectée à distance

– Phase II : les enjeux actuels

Modélisation : la modélisation de jeux de données est la capacité à trouver un motif élémentaire redondant et/ou un schéma mathématique qui décrit les tendances d’évolution du système.
Exemple : une fonction périodique, un modèle proie-prédateur

Knowledge-based system : il s’agit de la capacité à cataloguer un grand nombre de modélisations de données dans un contexte particulier, que l’on peut appliquer rapidement à un jeu du même contexte.

Prédictibilité : cette étape vient naturellement comme la suivante, elle décrit la capacité à identifier rapidement le modèle qui convient et pouvoir anticiper les évolutions futures et quantifier l’incertitude.

Le contrôle intelligent : cela revient à optimiser un système de manière automatique et en temps réel, en associant la prédictibilité au contrôle à distance du parc d’objets.

La principale difficulté de la mise en place d’un contrôle intelligent provient de la taille des collections de données. L’essor du Smart (City, Grid, IoT) est majoritairement rapporté à un problème de Big Data.

– Phase III : futurs enjeux

L’enjeu ultime est l’intégration d’une couche d’apprentissage profond dans l’ensemble de la chaine de valeur. L’interopérabilité est un enjeu de taille puisque ce système pourrait devenir global. Il aurait ainsi la capacité à se modéliser lui-même et de s’appliquer automatiquement un contrôle intelligent à des fins d’optimisation.

Si ce lointain rêve devient réalité dans les prochaines décennies, on pourra peut-être se rappeler des mots du célèbre physicien Stephen Hawking, à qui l’on doit des avancées théoriques significatives dans le domaine de la cosmologie :

« Réussir à créer une intelligence artificielle serait le plus grand événement dans l’histoire de l’homme. Mais ce pourrait aussi être le dernier. »

Ou encore :

« L’impact à court terme de l’intelligence artificielle dépend de qui la contrôle. Et, à long terme, de savoir si elle peut être tout simplement contrôlée. »

Nous voilà prévenus !

  1. Pwc
  2. EMC/IDC, 2014
  3. Databerg 2016, Veritas Technologies
  4. Le Big Data un enjeu économique et scientifique, CNRS