loader from loading.io

#4.3 AWS met le catalogue de données au coeur de sa Data Zone

Decideo - Data Science, Big Data, Intelligence Augmentée

Release Date: 01/20/2024

#5.5 Le nouveau SaaS, vous connaissez ? show art #5.5 Le nouveau SaaS, vous connaissez ?

Decideo - Data Science, Big Data, Intelligence Augmentée

Un « nouveau » paradigme apparait, le SaaS ! Non, pas celui que vous croyez ! Vous vous dites, ça y est, on l’a perdu ! Il est resté en 1999 à la création de Salesforce ! Non, car si le SaaS est bien vivant depuis 25 ans, le nouveau SaaS pointerait le bout de son nez selon les oracles du marketing. Nous serions en train de passer du Software as a Service au Service as a Software. Que c’est beau le monde du marketing ! Allez, je vous explique. Le principe du Software as a Service a combiné depuis plus de deux décennies l’évolution...

info_outline
#5.4 Jean-Georges Perrin, Pape du Data Mesh et des Data Contracts show art #5.4 Jean-Georges Perrin, Pape du Data Mesh et des Data Contracts

Decideo - Data Science, Big Data, Intelligence Augmentée

Dans cet épisode, nous recevons Jean-Georges Perrin. Ce nom ne peut vous être inconnu si vous vous intéressé au "shift-left" qui émerge dans le monde des données. Les utilisateurs prennent peu à peu le contrôle de leurs données, et cela a été théorisé en 2020 dans un livre développant le concept de Data Mesh. Au Data Mesh, il manquait une dimension, celle du "comment". Jean-Georges Perrin a été un des premiers à mettre en application ce concept, chez Paypal. Et parmi les premiers, avec Andrew Jones, à s'intéresser aux supports du Data Mesh, les Data Contracts. Au point qu'il...

info_outline
#5.3 Cartographie des données et des systèmes avec David Bougearel de Cartographit show art #5.3 Cartographie des données et des systèmes avec David Bougearel de Cartographit

Decideo - Data Science, Big Data, Intelligence Augmentée

Dans cet épisode, nous recevons David Bougearel, fondateur de Cartographit, un nouvel outil de cartographie du système d'information, qui s'appuie sur les normes de cartographie de l'ANSSI. Les différentes couches cartographiées incluent donc les couches des données, des processus et des applications. Cela fait-il de Cartographit un outil potentiel de gouvernance des données ? Nous abordons ce sujet et différentes questions connexes. - La cartographie du Système d'Information (SI) offre une vue d'ensemble, un inventaire global du SI, incluant les données (objets d'information)....

info_outline
#5.2 IA ? Et si nous parlions français ! show art #5.2 IA ? Et si nous parlions français !

Decideo - Data Science, Big Data, Intelligence Augmentée

Vous en avez assez d’entendre parler de LLM, de prompt, de text token, ou de adversarial machine learning ? Ça tombe bien, le 6 septembre dernier, le Journal Officiel de la République Française a publié, pour la rentrée des classes, la liste relative au vocabulaire de l’intelligence artificielle. La commission d’enrichissement de la langue française a retenu quatorze termes ; elle les a traduits, et définit.   Ainsi, vous pourrez parler de Grands Modèles de Langage, les GML ; d’instructions génératives pour les prompts, de jeton textuel pour les text...

info_outline
#5.1 Le MIT classe 777 risques potentiels liés à l'IA show art #5.1 Le MIT classe 777 risques potentiels liés à l'IA

Decideo - Data Science, Big Data, Intelligence Augmentée

Le MIT a recensé 777 risques potentiels liés à l’IA dans une base de données partagée gratuitement Cet été, le MIT nous a fait un cadeau ! Le prestigieux organisme de recherche américain a publié un référentiel complet des risques liés à l’intelligence artificielle. L’objectif : vous aider à cartographier l’ensemble des risques qui pèsent sur votre entreprise afin de les mesurer, les quantifier et les mitiger par la suite. Si vous suivez mes contenus sur le thème de la gouvernance des données et de l’intelligence artificielle, vous avez déjà été...

info_outline
#4.24 Gagner aux JO, est-ce une question de data ? show art #4.24 Gagner aux JO, est-ce une question de data ?

Decideo - Data Science, Big Data, Intelligence Augmentée

Vous avez 23 ans, vous mesurez 1 mètre 77, et vous pesez 72 kilos ? Vous avez, contrairement à moi, le profil idéal pour remporter le 100 mètres, épreuve reine de l’athlétisme aux jeux olympiques. Si en revanche vous avez plus de 27 ans… désolé, vous êtes déjà disqualifié par l’analyse statistique. Cependant, si vous êtes un peu en surpoids, jusqu’à 108 kilos, vous pouvez tenter le lancer de poids. Les grands triompheront au lancer de disque, quant aux plus petits qu’un mètre soixante… ils n’ont que peu de chance d’obtenir une médaille en athlétisme. Non,...

info_outline
#4.23 Gouvernance des données orientée métier, quelques prérequis show art #4.23 Gouvernance des données orientée métier, quelques prérequis

Decideo - Data Science, Big Data, Intelligence Augmentée

Gouvernance des données : quelques prérequis organisationnels Ayant l’opportunité d’accompagner de nombreuses entreprises dans la mise en place d’une gouvernance des données orientée métier, je voudrais partager avec vous aujourd’hui quelques prérequis organisationnels. Eloignés des habituels conseils sur les outils à déployer, je constate que les premiers pas à réaliser, et pas les plus faciles, sont liés aux personnes et à l’organisation. Trois questions ! Qui ? Cela peut paraitre évident, mais dans la réalité, la nomination claire et affirmée de la...

info_outline
#4.22 La donnée sous tous les angles, avec Philippe Charpentier, CTO de NetApp show art #4.22 La donnée sous tous les angles, avec Philippe Charpentier, CTO de NetApp

Decideo - Data Science, Big Data, Intelligence Augmentée

Avec Philippe Charpentier, le CTO de NetApp France, nous abordons le "contenant" des données. Contenant et contenu sont mutuellement indispensables, et ils répondent tous deux à des contraintes différentes : - Les data sont enfin reconnues comme des actifs informationnelles de l'entreprise, il faut donc les protéger. Quels sont les enjeux actuels liés à la sécurité et à la confidentialité de ces données collectées par toutes les entreprises ? - Peut-on et doit-on tout conserver ? L'IA semble nous dire que oui, les lois sont un peu moins d'accord. Comment arbitrer ? - Un des...

info_outline
#4.21 IBM se lance dans le data mesh avec Data Product Hub show art #4.21 IBM se lance dans le data mesh avec Data Product Hub

Decideo - Data Science, Big Data, Intelligence Augmentée

IBM se lance à son tour dans le data mesh et les data products. L’entreprise l’a annoncé cette semaine, à l’occasion d’un séminaire de présentation de son offre appelée IBM Data Product Hub. Cette tendance, le « shift left », consiste à transférer peu à peu la responsabilité des data aux utilisateurs métiers, et l’autonomie qui va avec. Que vous appliquiez à la lettre les principes du data mesh ou si vous créez simplement des data products pour remplacer vos entrepôts de données centralisés, vous allez passer par la recherche et l’installation d’une...

info_outline
#4.20 Cinq ans de prison, si vous tentez de prévoir les décisions d'un juge show art #4.20 Cinq ans de prison, si vous tentez de prévoir les décisions d'un juge

Decideo - Data Science, Big Data, Intelligence Augmentée

5 ans de prison, si vous tentez de prévoir la décision d’un juge … mais comme toujours, les lignes jaunes sont contournables, pour peu que l’on prenne le temps de comprendre la loi. Je vous parle ici d’une disposition liée à l’utilisation de l’intelligence artificielle dans le cadre de procédures judiciaires, tentant de prédire quel sera le comportement de tel ou tel juge dans une affaire, et pour les parties prenantes d’adapter leur stratégie. Aux Etats-Unis, vous l’avez certainement vu dans de nombreuses séries criminelles, la technologie est utilisée pour analyser...

info_outline
 
More Episodes

Un peu comme Monsieur Jourdain faisait de la prose sans le savoir, la mode semble aujourd’hui de faire du Data Mesh sans le dire. Presque toutes les entreprises que je rencontre testent actuellement le concept de Data Product, permettant de faire négocier directement les producteurs et les consommateurs de données. Mais personne ne semble utiliser le terme de Data Mesh. Alors certes, inventé par Zhamak Dehghani en 2019, le data mesh est également devenu pour son inventeur l’occasion de promouvoir un outil informatique ad-hoc.

Mais c’est surtout parce que le data mesh est assez contraignant, si l’on en respecte l’ensemble des principes. Les entreprises choisissent donc plutôt de s’en inspirer et de sélectionner les règles qu’elles souhaitent appliquer.

Se pose bien entendu la question de l’architecture informatique qui va supporter ces data products. Hors de question de laisser chaque utilisateur gérer cela de son côté. Ce serait une catastrophe technique et de conformité. Mais on ne veut pas non plus revenir à une centralisation, dans un outil technique inaccessible aux utilisateurs… nous n’aurions alors pas progressé par rapport au data warehouse… Et n’oublions pas, pour compléter le tableau, que ces data products vont devoir partager la scène, pendant plusieurs années sans doute, avec les architectures centralisées actuelles. Difficile d’imaginer qu’une grande entreprise ait la maturité nécessaire pour que tous les utilisateurs prennent dès maintenant le contrôle de leurs données. Il va donc falloir gérer une transition par étape, avant d’envisager de décommissioner les systèmes centraux.

Amazon propose d’apporter une réponse avec un nouveau produit, appelé Data Zone. Il s’agit d’un “espace”, où l’on va pouvoir conserver l’ensemble des données, qu’elles soient dans des data lakes, des data products, avec une logique de place de marché. En parallèle, Amazon lance un outil d’intelligence artificielle générative au service de la donnée. Il s’appelle Data Genie. Il va fonctionner de concert avec le catalogue de données Amazon Glue Data Catalog. Et s’appuie sur ce catalogue pour y ajouter un glossaire métier, permettant à l’IA générative de créer des descriptions automatisées, et de comprendre des requêtes en langage naturel. Amazon reconnait que “cela ne remplacera jamais la description rédigée par un spécialiste métier”, mais c’est une avancée intéressante. Attention cependant, les descriptions sont uniquement générées en anglais pour l’instant.

Dans le cadre de la compréhension des requêtes envoyées par l’utilisateur en langage naturel (d’ailleurs cela fonctionne ici en français, en espagnol et en anglais), plutôt que de vectoriser l’ensemble des données pour essayer de les comprendre, Amazon Genie s’appuie là encore sur le catalogue; et c’est lui qui est vectorisé - à la clef, gain d’espace, de temps de calcul et de coût. Cela renforce la place centrale de la gouvernance des données, et de son catalogue au coeur de la plateforme data. Bien sur cela ne fonctionne que si vous utilisez l’ensemble de l’écosystème Amazon. L’éditeur nous dit que le lien peut être fait avec des catalogues existants tels que Collibra ou Alation, mais cela suppose un export de tout le catalogue au format JSON… je n’appelle pas cela de l’intégration.

Alors, la Data Zone est-elle plus claire que les Data Plate-forme, Data Hub, Data Fabric et autres Data Trucs inventés par chaque fournisseur ? Je n’en suis pas certain, mais en plaçant le catalogue de données au centre de sa Data Zone, Amazon clairement va dans la bonne direction, celle de la gouvernance des données. Et celle d’une gouvernance appliquée à une architecture moderne, autour des data products, préservant cependant l’existant.