Nous sommes en 2024 et on pourrait penser qu’il est facile d’obtenir des données cryptographiques, car Etherscan, Dune et Nansen vous permettent de voir les données que vous souhaitez à tout moment. Enfin, en quelque sorte.
Vous voyez, dans le monde normal du Web2, lorsque vous avez une entreprise avec 10 employés et 100 000 clients, la quantité de données que vous produisez ne dépasse probablement pas des centaines de gigaoctets (en haut). Cette échelle de données est suffisamment petite pour que votre iPhone puisse traiter toutes vos questions et tout stocker. Cependant, une fois que vous avez 1 000 employés et 100 000 000 de clients, la quantité de données que vous traitez est probablement de plusieurs centaines de téraoctets, voire de plusieurs pétaoctets.
Il s’agit d’un défi fondamentalement différent, car l’échelle à laquelle vous traitez nécessite beaucoup plus de considérations. Pour traiter des centaines de téraoctets de données, vous avez besoin d’un cluster d’ordinateurs distribués vers lesquels envoyer les tâches. Lorsque vous envoyez ces tâches, vous devez penser à :
-
Que se passe-t-il si un travailleur ne fait pas son travail ?
-
Que se passe-t-il si un travailleur prend beaucoup plus de temps que les autres ?
-
Comment déterminer quel travail confier à quel travailleur ?
-
Comment combiner tous leurs résultats et garantir que le calcul a été effectué correctement
Ce sont toutes des considérations que vous devez prendre en compte lorsque vous traitez des données volumineuses sur plusieurs machines. L’échelle engendre des problèmes invisibles pour ceux qui ne travaillent pas avec ce domaine. Les données sont l’un de ces domaines où plus vous évoluez, plus vous avez besoin d’infrastructures pour les gérer correctement. Des problèmes invisibles pour la plupart des gens. Pour gérer cette échelle, vous devez également faire face à des défis supplémentaires :
-
Des talents extrêmement spécialisés qui savent faire fonctionner des machines à cette échelle
-
Le coût de stockage et de calcul de toutes les données
-
Planification et architecture prospectives pour garantir que vos besoins peuvent être pris en charge
C’est drôle, dans le Web2 tout le monde voulait que les données soient publiques. Dans le Web3, elles le sont enfin, mais très peu de gens savent comment faire le travail nécessaire pour leur donner un sens. Un fait trompeur à ce sujet est qu’avec un peu d’aide, vous pouvez obtenir votre ensemble de données à partir de l’ensemble de données global assez facilement, ce qui signifie que les données « locales » sont faciles à obtenir, mais que les données « globales » sont difficiles à obtenir (des choses qui concernent tout et tout le monde).
Comme si les choses n’étaient pas déjà compliquées avec l’échelle à laquelle vous devez travailler. Une nouvelle dimension rend les données cryptographiques difficiles et c’est le fait que vous avez une fragmentation continue en raison des incitations financières du marché. Par exemple :
-
L’émergence de nouvelles blockchains. Il existe près de 50 L2, 50 sont connues pour être à venir et des centaines d’autres sont en cours de développement. Chaque L2 est en fait une nouvelle source de base de données qui doit être indexée et configurée. Heureusement, elles sont standardisées, mais on ne peut pas toujours en être sûr !
-
L’essor des nouvelles machines virtuelles. EVM n’est qu’un domaine parmi d’autres. SVM, Move VM et bien d’autres arrivent sur le marché. Chaque nouveau type de machine virtuelle implique un schéma de données entièrement nouveau qui doit être pris en compte à partir des premiers principes et d’une compréhension approfondie. Combien existe-t-il de machines virtuelles ? Les investisseurs vont en encourager une nouvelle à hauteur de plusieurs milliards de dollars !
-
L’émergence de nouvelles primitives de compte. Les portefeuilles de contrats intelligents, les portefeuilles hébergés et l’abstraction de compte ajoutent une nouvelle complication à la façon dont vous interprétez réellement une donnée. L’adresse de l’expéditeur peut ne pas être en réalité l’utilisateur réel, car elle a été soumise par un relais et l’utilisateur réel se trouve quelque part dans le mélange (si vous cherchez suffisamment).
La fragmentation peut être particulièrement difficile étant donné que vous ne pouvez pas quantifier ce que vous ne connaissez pas. Vous ne connaîtrez jamais tous les L2 qui existent dans le monde et les machines virtuelles qui en sortiront au total. Vous pourrez suivre le rythme une fois qu’ils auront atteint une échelle suffisante, mais c’est une autre histoire.
Ce dernier point surprend beaucoup de gens, je pense, car oui, les données sont ouvertes, mais non, elles ne sont pas facilement interopérables. Vous voyez, tous les contrats intelligents que l’équipe assemble sont comme une petite base de données à l’intérieur d’une base de données plus grande. J’aime les considérer comme des schémas. Toutes les données sont là, mais la façon dont vous les assemblez est généralement comprise par l’équipe qui a développé les contrats intelligents. Vous pouvez passer du temps à les comprendre vous-même si vous le souhaitez, mais vous devrez le faire des centaines de fois pour tous les schémas potentiels. Et comment allez-vous vous permettre de le faire sans dépenser de grosses sommes d’argent sans acheteur de l’autre côté de la transaction ?
Si cela vous semble trop abstrait, laissez-moi vous donner un exemple. Vous demandez « Dans quelle mesure cet utilisateur utilise-t-il les ponts ? ». Bien que cela se présente comme une seule question, elle comporte de nombreux problèmes imbriqués. Décomposons-la :
-
Vous devez d’abord connaître tous les ponts existants. Également sur les chaînes qui vous intéressent. S’il s’agit de toutes les chaînes, nous avons déjà mentionné ci-dessus pourquoi cela est difficile.
-
Ensuite, pour chaque pont, vous devez comprendre comment fonctionnent leurs contrats intelligents
-
Une fois que vous avez compris toutes les permutations, vous devez maintenant raisonner sur un modèle qui peut unifier tous ces schémas individuels
Chacun des défis ci-dessus est très difficile à résoudre et nécessite beaucoup de ressources.
Alors, à quoi tout cela mène-t-il ? Eh bien, l’état de l’écosystème que nous avons aujourd’hui est tel que…
-
Un écosystème dans lequel personne ne sait vraiment ce qui se passe. Il y a juste une notion vague d’activité difficile à quantifier correctement.
-
Le nombre d’utilisateurs est gonflé et les sybils sont difficiles à détecter. Les mesures commencent à devenir inutiles et peu fiables ! Ce qui est vrai ou faux n’a même pas d’importance pour les acteurs du marché, car tout se ressemble.
-
Principaux problèmes liés à la concrétisation de l’identité sur la chaîne. Si vous souhaitez avoir un sens aigu de l’identité, des données précises sont essentielles, sinon votre identité est déformée !
J’espère que cet article vous aura aidé à ouvrir les yeux sur les réalités du paysage des données dans le domaine des crypto-monnaies. Si vous êtes confronté à l’un de ces problèmes ou si vous souhaitez apprendre à les surmonter, contactez-nous : mon équipe et moi-même nous attaquons à ces problèmes.