Cleora est un modèle open-source et haute performance pour créer des plongements d'entités (embeddings) stables et inductifs à partir de données relationnelles hétérogènes et d'hypergraphes à grande échelle. Écrit en Rust avec une API Python, il offre une vitesse et une scalabilité inégalées pour des tâches telles que les systèmes de recommandation et l'analyse de graphes.

5
Ajouté le : 2025-08-12
Type de tarification Gratuit
Trafic mensuel : 50.6K

Médias sociaux

| | | | | | | | | | |

Cleora Aperçu

Cleora est un modèle open-source polyvalent, développé par l'équipe de Synerise.com, conçu pour l'apprentissage efficace et scalable de plongements d'entités à partir de données relationnelles complexes et hétérogènes. Il excelle dans la transformation d'entités et de leurs interactions — comme des produits dans un panier d'achat, des utilisateurs sur un réseau social ou des protéines dans un système biologique — en vecteurs numériques significatifs. Ces vecteurs, ou plongements, capturent les relations et similitudes sous-jacentes, les rendant inestimables pour les tâches d'apprentissage automatique en aval.

Construit avec un cœur haute performance en Rust et exposé via un paquet Python convivial (pycleora), Cleora atteint des vitesses de traitement qui sont des ordres de grandeur plus rapides que les méthodes traditionnelles comme DeepWalk ou PyTorch-BigGraph. Il fonctionne sur le principe de projections aléatoires itératives sur une matrice de transition de Markov dérivée des données, une méthode qui évite le bruit et l'inefficacité de l'échantillonnage négatif. Cela lui permet de traiter des graphes et des hypergraphes extrêmement grands sur une seule machine, un avantage significatif pour les applications du monde réel.

Comment utiliser Cleora

L'utilisation de Cleora est simple pour les développeurs et les scientifiques des données familiers avec Python. Le processus implique généralement ces étapes :

  1. Installation : Installez le paquet Python directement avec pip : pip install pycleora.
  2. Préparation des données : Structurez vos données en une série d'hyperarêtes. Une hyperarête est un groupe d'entités co-occurrentes. Par exemple, une ligne de votre fichier d'entrée pourrait représenter tous les produits achetés lors d'une seule transaction, séparés par des espaces. Cela peut être préparé à partir d'un DataFrame pandas ou de n'importe quel itérateur Python.
  3. Création de la matrice : Utilisez la fonction SparseMatrix.from_iterator() pour convertir vos données préparées en une matrice de transition de Markov creuse. Cette matrice représente les relations au sein de votre hypergraphe.
  4. Initialisation des plongements : Vous pouvez laisser Cleora initialiser les vecteurs de plongement de manière déterministe ou fournir vos propres vecteurs initiaux. Cette fonctionnalité unique vous permet d'incorporer des informations externes, telles que des plongements de texte (par ex. Sentence-BERT) ou d'images (par ex. ViT), dans la structure du graphe.
  5. Propagation : Effectuez quelques itérations de propagation de Markov en utilisant mat.left_markov_propagate(embeddings). Typiquement, 3 à 7 itérations sont suffisantes. Moins d'itérations capturent la co-occurrence directe, tandis que plus d'itérations capturent une similarité contextuelle plus profonde.
  6. Normalisation : Normalisez les vecteurs de plongement résultants, généralement avec une norme L2, pour s'assurer qu'ils résident sur une hypersphère. Cela les rend comparables en utilisant la similarité cosinus ou le produit scalaire.
  7. Utilisation : Les vecteurs normalisés finaux sont vos plongements d'entités, prêts à être utilisés pour des tâches de recommandation, de classification, de clustering ou de recherche de similarité.

Fonctionnalités principales de Cleora

  • Performance Extrême : Écrit en Rust et optimisé pour la concurrence et la cohérence du cache, ce qui le rend exceptionnellement rapide.
  • Scalabilité : Capable de plonger des graphes et des hypergraphes extrêmement grands avec des milliards d'arêtes sur une seule machine de base.
  • Apprentissage Inductif : Peut générer des plongements pour des entités nouvelles et jamais vues à la volée sans ré-entraîner tout le modèle, résolvant efficacement le problème du démarrage à froid (cold start).
  • Stable & Déterministe : Contrairement à des méthodes comme Node2vec, Cleora produit les mêmes plongements pour les mêmes données d'entrée à travers plusieurs exécutions, garantissant la reproductibilité et la stabilité.
  • Support des Hypergraphes : Gère nativement les hypergraphes (par ex. produits dans un panier, utilisateurs dans un groupe), ce qui est plus puissant que la simple décomposition de graphes par paires.
  • Intégration Python : Offre une API Python (pycleora) transparente avec une intégration profonde avec NumPy pour une utilisation facile dans les flux de travail de la science des données.
  • Initialisation Personnalisée : Permet aux utilisateurs d'initialiser les plongements avec des vecteurs d'autres sources (par ex. modèles de texte, d'image), permettant une analyse multimodale.

Cas d'utilisation pour Cleora

La polyvalence de Cleora le rend adapté à un large éventail d'applications dans diverses industries :

  • E-commerce : Créer de puissants plongements de produits pour les systèmes de recommandation (par ex. 'les clients qui ont acheté ceci ont aussi acheté...'), la similarité de produits et l'analyse de paniers.
  • Analyse des réseaux sociaux : Plonger les utilisateurs et le contenu pour identifier les communautés, prédire les connexions et recommander du contenu.
  • Bio-informatique : Analyser les interactions entre les protéines, les médicaments et les gènes en les plongeant en fonction de leur co-occurrence dans les voies biologiques.
  • Services financiers : Détecter les activités frauduleuses en identifiant des schémas inhabituels dans les graphes de transactions.
  • Recherche académique : Analyser les réseaux de co-auteurs pour découvrir des communautés de recherche et des auteurs influents.

Avantages de Cleora

Cleora se distingue des autres cadres de plongement par plusieurs avantages clés :

  • Vitesse Inégalée : Il est significativement plus rapide (par ex. plus de 190 fois plus rapide que DeepWalk dans les benchmarks) que de nombreuses alternatives populaires.
  • Prêt pour la Production : Sa stabilité, son inductivité et sa capacité de mise à jour en temps réel le rendent idéal pour un déploiement dans des environnements de production en direct.
  • Plongements de Haute Qualité : La méthode des marches aléatoires explicites sur une matrice de transition complète, sans échantillonnage négatif, conduit à des plongements de meilleure qualité et plus précis.
  • Efficacité des Ressources : Il est conçu pour fonctionner efficacement sur une seule machine, réduisant le besoin de clusters de calcul distribué coûteux.
  • Simplicité et Flexibilité : Le modèle est conceptuellement simple mais puissant, offrant une flexibilité dans l'entrée des données et l'initialisation des plongements.

Tarification et plans

Cleora est un projet entièrement open-source publié sous la licence MIT. Cela signifie qu'il est complètement gratuit à utiliser, à la fois à des fins académiques et commerciales. Il n'y a pas de plans payants ni de coûts cachés. Le code source est publiquement disponible sur GitHub pour que quiconque puisse l'utiliser, l'inspecter ou y contribuer.

Cleora Commentaires (0)

Aucun commentaire pour l'instant, soyez le premier à commenter !

Connectez-vous pour laisser un commentaire

Connectez-vous maintenant

Cleora Alternatives

Voir tout
Streamlit

Streamlit

Streamlit est un framework Python open-source qui permet aux développeurs et aux data scientists de créer et de …

864.9K
Gratuit
Fast.ai

Fast.ai

Fast.ai est un institut de recherche dédié à rendre l'apprentissage profond accessible à tous. Il propose des cours …

402.1K
Gratuit
Gradio

Gradio

Gradio est une bibliothèque Python open-source qui vous permet de construire et de partager rapidement des interfaces web …

238.7K
marimo

marimo

marimo est un notebook Python réactif et open-source pour la science des données et l'IA modernes. Il offre …

173.1K
Gratuit
TensorFlow

TensorFlow

TensorFlow est une plateforme open-source de bout en bout pour l'apprentissage automatique développée par Google. Elle fournit un …

737.3K
Rerun

Rerun

Rerun est une pile de données open-source pour l'IA Physique, fournissant de puissants outils de journalisation et de …

59.1K
MOSTLY AI

MOSTLY AI

MOSTLY AI est une plateforme d'intelligence des données spécialisée dans la génération de données synthétiques de haute qualité …

58.9K
Gratuit
Metaflow

Metaflow

Un framework Python centré sur l'humain, originaire de Netflix, pour construire et gérer des projets de science des …

19.7K
Gratuit
Flower

Flower

Flower est un framework open-source convivial pour l'apprentissage fédéré, l'analyse et l'évaluation. Il permet d'entraîner des modèles d'IA …

70.4K
Eventual

Eventual

Eventual construit l'avenir de l'infrastructure de données avec Daft, un moteur de requête open-source haute performance pour les …

8.0K

Cleora Fonction d'intégration

Copiez simplement le code d'intégration ci-dessous et collez ce superbe badge sur votre blog, article ou site officiel pour diriger le trafic directement vers la page de cet outil et augmenter rapidement votre visibilité et votre base d'utilisateurs !

ToolMage
ToolMage
FOLLOW US ON
88
Comment l'installer ?
Lien copié dans le presse-papiers !