Gestion de données


Intégration de données
  • SQLite … du SQL dans un fichier !

    Découvrez dans cet article la base de données SQLite mais surtout voyez comme il est simple de l’utiliser au travers de Python et Java !

  • Le Web Scraping

    Le Web Scrapping est une technique bien souvent indispensable pour enrichir ses données brutes. Découvrez comment écrire simplement des scripts Python pour aspirer les données d’un site web.

  • Le Profiling

    Découvrez comment les outils d’analyse de données peuvent vous aider à préparer votre modèle de Machine Learning ou tout simplement garantir le succès de vos projets data.

  • TUTO : Insérer des Data Controls (Informatica MDM)

    Cet article vous présente pas à pas comment configurer des Data Controls avec informatica MDM Hub.

  • TUTO : Configurer les Messages Trigger (Informatica MDM)

    Au travers de ce tutoriel vous découvrirez comment configurer pas à pas le bus JMS de JBoss pour récupérer les messages trigger de la solution informatica MDM.

  • TUTO : Appel du SIF Informatica MDM

    Dans ce court tutoriel vous découvrirez comment appeller un service du SIF informatica MDM via un appel web service.

Manipulation de données
  • Un service REST qui traite des factures scannées en Python

    Je vous propose dans ce post de créer un web service (RESTFul) en Python qui récupérera une image (JPEG) pour ll’analyser et la traiter afin d’en renvoyer les éléments constitutifs.

  • Débuter avec Tesseract

    Intéressé par les OCR ? découvrez comment utiliser Tesseract (OCR Open Source) en ligne de commande mais aussi via Python.

  • Les expressions régulières (RegEx)

    Découvrez dans cet article comment construire ses expressions régulières puis les utiliser avec Python et Java.

  • Les sacs de mots

    Pour faire suite à mon article sur la gestion des chaînes de caractères, voici un premier volet qui va nous permettre d’avoir une approche progressive du traitement de ce type de données. Loin de toute approche sémantique (qui fera l’objet d’un post ultérieur) nous allons aborder ici la technique des sacs de mots

  • Gérer les chaînes de caractères

    Si vous désirez avoir une approche analytique de vos données, vous avez bien sur été confronté à la difficulté d’exploiter des chaînes de caractères. A tel point que bien souvent vous avez certainement dû en mettre de coté certaines. Manque d’outillage, complexité de gérer des sémantiques complexes … Dans cet article (premier d’une série) nous allons aborder ces problèmes et surtout voir comment les résoudre.

  • SQLite … du SQL dans un fichier !

    Découvrez dans cet article la base de données SQLite mais surtout voyez comme il est simple de l’utiliser au travers de Python et Java !

  • Le Web Scraping

    Le Web Scrapping est une technique bien souvent indispensable pour enrichir ses données brutes. Découvrez comment écrire simplement des scripts Python pour aspirer les données d’un site web.

  • Traiter des données de localisation

    Découvrez dans cet article comment utiliser, nettoyer et visualiser simplement des données géo-localisées avec Python.

  • La qualité de données : carburant de l’IA !

    Comment la qualité de données peut aider les Data Scientistes dans leur quête d’une meilleure prédictivité.

Qualité de données
  • Les expressions régulières (RegEx)

    Découvrez dans cet article comment construire ses expressions régulières puis les utiliser avec Python et Java.

  • Traiter des données de localisation

    Découvrez dans cet article comment utiliser, nettoyer et visualiser simplement des données géo-localisées avec Python.

  • Le Profiling

    Découvrez comment les outils d’analyse de données peuvent vous aider à préparer votre modèle de Machine Learning ou tout simplement garantir le succès de vos projets data.

  • La qualité des données, un projet métier avant tout

    Découvrez via cet article pourquoi la qualité de données est non seulement un élément essentiel mais aussi structurant pour les métiers eux même.

MDM & référentiels
  • PIM et Intelligence Artificielle

    Découvrez dans cet article comment les algorithmes d’intelligence artificielle boostent Informatica Product 360 pour automatiser encore plus vos processus de gestion de données produit.

  • Démo : Préréférencement de données produit alimentaires

    Découvrez comment Informatica Product 360 vous permet d’accélérer et surtout de fiabiliser vos échanges de données produits avec vos fournisseurs.  

  • TUTO : Insérer des Data Controls (Informatica MDM)

    Cet article vous présente pas à pas comment configurer des Data Controls avec informatica MDM Hub.

  • TUTO : Configurer les Messages Trigger (Informatica MDM)

    Au travers de ce tutoriel vous découvrirez comment configurer pas à pas le bus JMS de JBoss pour récupérer les messages trigger de la solution informatica MDM.

  • TUTO : Appel du SIF Informatica MDM

    Dans ce court tutoriel vous découvrirez comment appeller un service du SIF informatica MDM via un appel web service.

  • Vidéos : Informatica TCR

    Découvrez au travers de cette démo comment la solution Informatica peut vous aider à mieux gérer et centraliser vos informations client.

  • TUTO : Créer des règles de validation dans Informatica MDM Hub

     Objectif L’objectif est de configurer l’affichage de messages d’erreur ciblés sur des champs en particulier à l’aide d’une cleanse function dans Informatica MDM Hub. Process Développement d’une Cleanse Function En input : les champs à contrôler En output : un String « validationStatus ».     ATTENTION : la syntaxe est importante. La syntaxe du message doit être « nom_de_l’input.message d’erreur ; » Il est possible de construire un message qui concerne plusieurs champs. Il suffit de mettre les messages les un à la suite des autres avec pour séparation un « ; ». Exemple : on souhaite afficher un message ciblé sur les champs CODE_NAT et NOM. « CODE_NAT.Msg erreur de validation 1;NOM.Msg erreur de validation 2; » Faire pointer le message sur l’output « validationStatus ». Configuration au niveau de l’IDD Au niveau du subject area concerné, onglet cleanse, choisirla bibliothèque correspondante à la cleanse function, et en dessous la cleanse function. Sélectionner ensuite les inputs correspondant. Pour l’output « validationStatus » ne rien renseigner. Résultat dans l’IDD Dans l’IDD, si les champs saisis ne sont pas valides, ils seront encadrés en rouge. En passant la souris sur ces champs, le message d’erreur s’affiche.

  • Vidéos : Informatica PIM 7.1.2 – Le portail fournisseur

    Présentation du portail fournisseur d’Informatica PIM 7.1.2 au travers d’une petite vidéo.

  • Pourquoi une meilleure connaissance client va devenir un enjeu majeur dans l’assurance?

    Cet article présente comment une démarche RCU permettra aux assureurs d’une part de répondre à leur obligations réglementaire mais aussi et surtout de mieux réussir leur politique de fidélisation.

  • Master Data Management : PIM, CDI ou Multi-domaine ?

    Les solutions de MDM ont maintenant atteint un certain stade de maturité et pléthore d’éditeurs proposent des solutions qui permettent de mettre en œuvre plus ou moins rapidement un référentiel d’entreprise. Pensez-vous être capable de faire votre choix entre CDI, PIM ou solutions multidomaines ?

  • TUTO : MDM Informatica – Création des hiérarchies

    Découvrez au travers d’un tutoriel simple et surtout guidé pas à pas comment créer une hiérarchie dans Informatica MDM Hub.

Big Data
  • Le big data est-il mort ? Vive le Machine Learning

    Vous avez remarqué ? on ne parle plus ou presque de Big Data ! Pourtant ce Buzword a été le cœur de la stratégie marketing de beaucoup d’entreprises et éditeurs de logiciels autour de la données. Mais si qu’en est-il réellement ? il est difficile d’imaginer que le déluge de données n’aura pas lieu.

  • Vous avez dit Open Data … oui mais où ?

    Vous cherchez des données ? mais … vous ne savez pas où. Je vais essayer dans cet article de vous fournir un certain nombre de liens vers les sites d’Open Data les plus utiles.

  • Accéder à Hive & HDFS via PySpark

    Découvrez dans ce tuto comment récupérer via Python (PySpark) vos données dans Hadoop HDFS et Hive.

  • Big data, au-delà du concept un nouvel axe de développement stratégique

    Parler Big Data c’est aujourd’hui évoquer un nouveau phénomène. Marketing « poussif » ou bien réel conséquence d’une informatique qui évolue et change constamment ? Ce phénomène ne peut plus laisser indifférent. Essayons d’y voir plus clair …