Échange de crypto Échange de crypto
Ctrl+D Échange de crypto
ads

Le défi du surajustement dans l'analyse de la blockchain

Author:

Time:

Les modèles d'apprentissage automatique ont tendance à sur-adapter lorsqu'ils sont utilisés avec des ensembles de données blockchain. Qu'est-ce que le surajustement et comment y remédier ?

À première vue, l'idée d'utiliser l'apprentissage automatique pour analyser les ensembles de données blockchain semble très attrayante, mais c'est une route difficile. Parmi ces défis, le manque d'ensembles de données étiquetés reste le plus grand défi à surmonter lors de l'application de méthodes d'apprentissage automatique aux ensembles de données blockchain. Ces limitations conduisent de nombreux modèles d'apprentissage automatique à fonctionner avec de très petits échantillons de données pour entraîner et suroptimiser ces modèles, provoquant le phénomène de surajustement. Aujourd'hui, je veux creuser le défi du surajustement dans l'analyse de la blockchain et suggérer des solutions.

Le surajustement est considéré comme l'un des plus grands défis des applications modernes d'apprentissage en profondeur. Conceptuellement, le surajustement se produit lorsqu'un modèle génère des hypothèses qui sont trop bien adaptées à celles d'un ensemble de données particulier pour s'adapter à de nouveaux ensembles de données. Une analogie utile pour comprendre le surajustement est de le considérer comme une illusion dans le modèle. Essentiellement, le modèle hallucine/sur-adapte lorsqu'il déduit des hypothèses erronées à partir de l'ensemble de données. Beaucoup de choses ont été écrites sur le surajustement depuis les débuts de l'apprentissage automatique, donc je ne pense pas qu'il y ait une façon intelligente de l'expliquer. Pour les ensembles de données blockchain, le surajustement est le résultat direct de données étiquetées manquantes.

Les "avis directeurs" des cinq départements de la nouvelle zone de Xiong'an : Utilisation multidimensionnelle de la blockchain et d'autres technologies de l'information pour améliorer la construction d'infrastructures financières vertes : Jinse Finance a rapporté que récemment, les cinq départements de la nouvelle zone de Xiong'an a publié "Soutien financier pour un financement vert, à faible émission de carbone et de haute qualité dans la nouvelle zone de Xiong'an" Opinions directrices sur le développement", le système de politique financière verte, le système organisationnel et le système de produits construits dans les "Opinions directrices" ont trois " Caractéristiques de Xiongan". Il montre que la mise en évidence du leadership de l'innovation scientifique et technologique, de l'utilisation multidimensionnelle de la blockchain, du big data, de l'intelligence artificielle et d'autres technologies de l'information, améliore la construction d'infrastructures financières vertes telles que la bibliothèque de projets verts, la collecte et la comptabilité des informations sur le carbone, le crédit vert système de données et améliorer l'efficacité des services financiers verts . (Site officiel de Xiongan, Chine) [2022/9/13 13:26:03]

Les chaînes de blocs sont de grandes structures de données semi-anonymes dans lesquelles tout est représenté à l'aide d'un ensemble commun de constructions, telles que des transactions, des adresses et des blocs. De ce point de vue, il existe un minimum d'informations pour prouver l'enregistrement de la blockchain. S'agit-il d'une opération de transfert ou de paiement ? Est-ce l'adresse d'un portefeuille d'investisseur personnel ou d'un portefeuille froid d'échange ? Ces qualificatifs sont cruciaux pour les modèles d'apprentissage automatique.

Imaginez que nous créons un modèle pour détecter les adresses d'échange dans un ensemble de blockchains. Ce processus nous oblige à former le modèle à l'aide d'un ensemble de données existant d'adresses de blockchain, ce qui, nous le savons tous, n'est pas très courant. Si nous utilisions un petit ensemble de données d'EtherScan ou d'autres sources, le modèle pourrait sur-ajuster et faire des classifications incorrectes.

Faction Force | He Yingqi : Blockchain est d'une grande aide pour l'industrie hôtelière : Dans la "faction Golden Strength" d'aujourd'hui, en réponse à la question "Pensez-vous que l'intégration de la gestion de l'industrie hôtelière et de la blockchain peut résoudre le Quels sont les points faibles dans ce domaine », a souligné He Yingqi, directeur général de BTG Homeinn Blockchain Company : l'industrie hôtelière est une industrie intéressante. L'émergence de la technologie blockchain peut démontrer certains scénarios intéressants. Par exemple, nous avons 150 millions de membres qui séjournent chaque année dans nos chambres d'hôtel et génèrent des points, les clients et l'écologie environnante de l'hôtel peuvent-ils créer une chaîne de valeur ? Nous avons des centaines d'hôtels qui ouvrent chaque année, le financement de la chaîne d'approvisionnement peut-il être plus pénétrant ? Je peux personnellement dire que la blockchain est d'une grande aide pour l'industrie. [2019/12/6]

L'un des aspects qui rend le surajustement si difficile est qu'il est difficile de généraliser à travers différentes techniques d'apprentissage en profondeur. Les réseaux de neurones convolutifs ont tendance à développer des modèles de surajustement différents de ceux observés pour les réseaux de neurones récurrents par rapport aux modèles génératifs, et ce modèle peut être extrapolé à tout type de modèle d'apprentissage en profondeur. Ironiquement, la tendance au surajustement augmente linéairement avec la puissance de calcul des modèles d'apprentissage en profondeur. Étant donné que les agents d'apprentissage en profondeur peuvent générer des hypothèses complexes presque gratuitement, la possibilité de surajustement augmente.

Voix | CITIC Securities : L'accent mis sur les politiques va remodeler l'écologie du marché de la blockchain et apportera une nouvelle série d'opportunités de développement : Jinse Finance rapporte que CITIC Securities prédit qu'après beaucoup de boue et de sable, l'attention politique va remodeler l'écologie du marché de la blockchain et apporter un nouvelle série d'opportunités de développement. À l'avenir, les entreprises dotées d'avantages en matière de qualification, de technologie et d'innovation de produits inaugureront un marché plus large grâce à l'encouragement de politiques. [2019/11/7]

Le surajustement est un défi constant dans les modèles d'apprentissage automatique, mais lorsque vous travaillez avec des ensembles de données blockchain, c'est presque une évidence. La réponse évidente au surajustement est d'utiliser un ensemble de données d'entraînement plus grand, mais ce n'est pas toujours une option. Chez IntoTheBlock, nous rencontrons souvent le défi du surajustement, et nous nous appuyons sur une série de méthodes de base pour résoudre le problème.

Trois stratégies simples pour lutter contre le surajustement sur les ensembles de données Blockchain

La première règle d'or contre le surajustement est de le reconnaître. Bien qu'il n'y ait pas de solution miracle pour empêcher le surajustement, l'expérience pratique a montré que certaines règles simples, presque de bon sens, peuvent aider à prévenir ce phénomène dans les applications d'apprentissage en profondeur. Pour éviter le surajustement, des dizaines de bonnes pratiques ont été publiées, qui contiennent trois concepts de base.

Voix | Chain Tower Think Tank : les projets de bien-être public blockchain de mon pays représentent 75 % du monde : Chain Tower Think Tank a publié aujourd'hui le rapport de recherche sur le bien-être public Blockchain 2018. Selon les statistiques incomplètes de BlockData, il existe au total 12 projets de bien-être public blockchain. Il y a 9 projets chinois, représentant 75 %. La plupart d'entre eux utilisent la technologie blockchain pour améliorer l'efficacité opérationnelle des projets ou plateformes de bien-être public traditionnels, et quelques-uns sont développés pour les startups blockchain. [2018/10/19]

Rapport données/hypothèses

Le surajustement se produit généralement lorsqu'un modèle génère trop d'hypothèses sans données correspondantes pour les tester. Par conséquent, les applications d'apprentissage en profondeur doivent essayer de maintenir un rapport approprié entre l'ensemble de données de test et l'hypothèse à évaluer. Cependant, ce n'est pas toujours une option.

Il existe de nombreux algorithmes d'apprentissage en profondeur (tels que l'apprentissage inductif) qui reposent sur la génération continue de nouvelles hypothèses, parfois plus complexes. Dans ces cas, il existe des techniques statistiques qui peuvent aider à estimer le nombre d'hypothèses correctes pour optimiser les chances d'en trouver une qui est proche de la bonne. Bien que cette méthode ne puisse pas fournir une réponse exacte, elle peut aider à maintenir un rapport statistiquement équilibré entre le nombre d'hypothèses et la composition de l'ensemble de données. Le professeur de Harvard Leslie Valiant explique brillamment ce concept dans son livre "Probably Right".

Actualités | Les Philippines lancent un site d'achat en ligne compatible avec la blockchain : Selon Cryptoves, une société locale de technologie financière (fintech) a lancé un site de commerce électronique basé sur la blockchain appelé CashCart.io, alimenté par le support NEM et Proximax. Lors d'un lancement en douceur au cours du week-end, le fondateur et PDG Fruvy Rivera a déclaré qu'il envisageait que CashCart devienne le leader des achats en ligne d'ici cinq à 10 ans. [2018/9/26]

Le rapport données/hypothèses est très apparent lors de l'analyse de la blockchain. Supposons que nous construisons un algorithme prédictif basé sur une année de transactions blockchain. Comme nous ne savions pas quel modèle d'apprentissage automatique tester, nous avons utilisé une approche de recherche d'architecture neuronale (NAS) qui a testé des centaines de modèles par rapport à un ensemble de données blockchain. En supposant que l'ensemble de données ne contient qu'une seule année de transactions, l'approche NAS peut produire un modèle qui correspond parfaitement à l'ensemble de données d'apprentissage.

Prend en charge des hypothèses simples

Une idée conceptuellement triviale mais techniquement difficile pour empêcher les modèles d'apprentissage en profondeur de sur-adapter est de générer continuellement des hypothèses plus simples. certainement! La simplicité est toujours meilleure, n'est-ce pas ? Mais qu'est-ce qu'une hypothèse plus simple dans le contexte des algorithmes d'apprentissage en profondeur ? Si nous devons réduire cela à un facteur quantitatif, je dirais que le nombre d'attributs dans une hypothèse d'apprentissage en profondeur est directement proportionnel à sa complexité.

Les hypothèses simples sont souvent plus faciles à évaluer que d'autres hypothèses avec de lourdes propriétés computationnelles et cognitives. Par conséquent, les modèles plus simples sont généralement moins sujets au surajustement que les modèles complexes. Maintenant, la prochaine pièce évidente du puzzle consiste à trouver comment générer des hypothèses plus simples dans des modèles d'apprentissage en profondeur. Une technique moins évidente consiste à attacher une certaine forme de pénalité à l'algorithme en fonction de la complexité estimée. Le mécanisme a tendance à favoriser des hypothèses plus simples et approximativement précises plutôt que des hypothèses plus complexes (et parfois plus précises) qui peuvent échouer lorsque de nouveaux ensembles de données deviennent disponibles.

Pour expliquer cette idée dans le contexte de l'analyse de la blockchain, imaginons que nous construisons un modèle de classification des transactions de paiement dans une blockchain. Le modèle utilise un réseau neuronal profond complexe qui génère 1000 caractéristiques pour effectuer la classification. S'il est appliqué à une blockchain plus petite telle que Dash ou Litecoin, le modèle sera très probablement surajusté.

Équilibre Biais/Variance

Le biais et la variance sont deux estimateurs clés dans les modèles d'apprentissage en profondeur. Conceptuellement, le biais est la différence entre la prédiction moyenne du modèle et la valeur correcte que nous essayons de prédire. Un modèle avec un biais élevé accorde peu d'attention aux données d'apprentissage, simplifiant ainsi le modèle. Entraîne toujours un taux d'erreur élevé sur les données d'entraînement et de test. Alternativement, la variance fait référence à la variabilité des prédictions du modèle pour un point de données donné ou à une valeur qui nous renseigne sur la distribution des données. Un modèle à forte variance accorde beaucoup d'attention aux données d'apprentissage et ne parvient pas à généraliser à des données qu'il n'a jamais vues auparavant. En conséquence, ces modèles fonctionnent bien sur les données d'apprentissage, mais ont des taux d'erreur élevés sur les données de test.

Comment le biais et la variance sont-ils liés au surajustement ? En termes très simples, l'art de la généralisation peut être généralisé en réduisant le biais d'un modèle sans augmenter sa variance. Une bonne pratique en apprentissage profond consiste à le modéliser pour comparer périodiquement les hypothèses résultantes à un ensemble de données de test et évaluer les résultats. Si l'hypothèse continue à produire la même erreur, nous avons un gros problème de biais et devons ajuster ou remplacer l'algorithme. À l'inverse, s'il n'y a pas de modèle clair d'erreurs, le problème est un écart et nous avons besoin de plus de données.

En résumé

• Tout modèle de faible complexité - sujet à un sous-ajustement en raison d'un biais élevé et d'une faible variance.

• Tout modèle de complexité élevée (réseau de neurones profonds) - sujet au surajustement en raison d'un faible biais et d'une variance élevée.

Dans le contexte de l'analyse de la blockchain, la friction biais-variance est omniprésente. Revenons à notre algorithme, qui tente de prédire le prix en utilisant de nombreux facteurs de blockchain. Si nous utilisions des méthodes de régression linéaire simples, le modèle pourrait ne pas être approprié. Cependant, si nous utilisons un réseau de neurones ultra-complexe avec un petit ensemble de données, le modèle peut sur-ajuster.

L'utilisation de l'apprentissage automatique pour analyser les données de la blockchain est un espace naissant. En conséquence, la plupart des modèles souffrent des défis traditionnels des applications d'apprentissage automatique. Fondamentalement, le surajustement est l'un des défis omniprésents dans l'analyse de la blockchain en raison du manque de données étiquetées et de modèles bien entraînés

Tags:

Dogecoin
Golden Depth 丨Jimmy Song Year of the Rat Interview: BTC, BCH et BSV peuvent-ils coexister?

Golden Finance Blockchain 4 février News Le développeur principal de Bitcoin Jimmy Song a récemment accepté une interview exclusive avec ChainTalk, dans laquelle il a parlé de son point de vue sur Bitcoin.

State Street Bank : Focus sur 5 tendances importantes dans le développement des actifs numériques

La façon dont State Street, la deuxième plus grande banque dépositaire au monde avec des actifs équivalant à 10 % des actifs mondiaux, voit l'avenir de la création, de la négociation.

Wang Yongli : Comment afficher le taux de croissance des agrégats monétaires

Si l'on considère l'évolution du taux de croissance des agrégats monétaires de mon pays de 2009 à 2019.

Le défi du surajustement dans l'analyse de la blockchain

Les modèles d'apprentissage automatique ont tendance à sur-adapter lorsqu'ils sont utilisés avec des ensembles de données blockchain. Qu'est-ce que le surajustement et comment y remédier ?À première vue.

La réglementation de la société de chiffrement de Singapour "Loi sur les services de paiement" entre en vigueur

La loi sur les services de paiement, la réglementation régissant les opérations des sociétés de crypto-monnaie à Singapour, est entrée en vigueur le 28 janvier. Selon l'Autorité monétaire de Singapour.

Square reçoit un brevet pour le réseau de paiement Fiat-Cryptocurrency

Jack Dorsey's Square a obtenu un brevet pour un réseau de paiement fiat-to-crypto.

Opinion | Comment évolue la Balance ?

À 10h00 le 31 janvier, la 46e diffusion en direct de BlockMania AMA se poursuivra. BlockMania s'engage à apporter la connaissance et la pensée les plus profondes de l'industrie de la blockchain à l'industrie et au pub.

ads