loader from loading.io

#3.16 Et si l'IA ne pouvait que regresser...

Decideo - Data Science, Big Data, Intelligence Augmentée

Release Date: 06/20/2023

#5.5 Le nouveau SaaS, vous connaissez ? show art #5.5 Le nouveau SaaS, vous connaissez ?

Decideo - Data Science, Big Data, Intelligence Augmentée

Un « nouveau » paradigme apparait, le SaaS ! Non, pas celui que vous croyez ! Vous vous dites, ça y est, on l’a perdu ! Il est resté en 1999 à la création de Salesforce ! Non, car si le SaaS est bien vivant depuis 25 ans, le nouveau SaaS pointerait le bout de son nez selon les oracles du marketing. Nous serions en train de passer du Software as a Service au Service as a Software. Que c’est beau le monde du marketing ! Allez, je vous explique. Le principe du Software as a Service a combiné depuis plus de deux décennies l’évolution...

info_outline
#5.4 Jean-Georges Perrin, Pape du Data Mesh et des Data Contracts show art #5.4 Jean-Georges Perrin, Pape du Data Mesh et des Data Contracts

Decideo - Data Science, Big Data, Intelligence Augmentée

Dans cet épisode, nous recevons Jean-Georges Perrin. Ce nom ne peut vous être inconnu si vous vous intéressé au "shift-left" qui émerge dans le monde des données. Les utilisateurs prennent peu à peu le contrôle de leurs données, et cela a été théorisé en 2020 dans un livre développant le concept de Data Mesh. Au Data Mesh, il manquait une dimension, celle du "comment". Jean-Georges Perrin a été un des premiers à mettre en application ce concept, chez Paypal. Et parmi les premiers, avec Andrew Jones, à s'intéresser aux supports du Data Mesh, les Data Contracts. Au point qu'il...

info_outline
#5.3 Cartographie des données et des systèmes avec David Bougearel de Cartographit show art #5.3 Cartographie des données et des systèmes avec David Bougearel de Cartographit

Decideo - Data Science, Big Data, Intelligence Augmentée

Dans cet épisode, nous recevons David Bougearel, fondateur de Cartographit, un nouvel outil de cartographie du système d'information, qui s'appuie sur les normes de cartographie de l'ANSSI. Les différentes couches cartographiées incluent donc les couches des données, des processus et des applications. Cela fait-il de Cartographit un outil potentiel de gouvernance des données ? Nous abordons ce sujet et différentes questions connexes. - La cartographie du Système d'Information (SI) offre une vue d'ensemble, un inventaire global du SI, incluant les données (objets d'information)....

info_outline
#5.2 IA ? Et si nous parlions français ! show art #5.2 IA ? Et si nous parlions français !

Decideo - Data Science, Big Data, Intelligence Augmentée

Vous en avez assez d’entendre parler de LLM, de prompt, de text token, ou de adversarial machine learning ? Ça tombe bien, le 6 septembre dernier, le Journal Officiel de la République Française a publié, pour la rentrée des classes, la liste relative au vocabulaire de l’intelligence artificielle. La commission d’enrichissement de la langue française a retenu quatorze termes ; elle les a traduits, et définit.   Ainsi, vous pourrez parler de Grands Modèles de Langage, les GML ; d’instructions génératives pour les prompts, de jeton textuel pour les text...

info_outline
#5.1 Le MIT classe 777 risques potentiels liés à l'IA show art #5.1 Le MIT classe 777 risques potentiels liés à l'IA

Decideo - Data Science, Big Data, Intelligence Augmentée

Le MIT a recensé 777 risques potentiels liés à l’IA dans une base de données partagée gratuitement Cet été, le MIT nous a fait un cadeau ! Le prestigieux organisme de recherche américain a publié un référentiel complet des risques liés à l’intelligence artificielle. L’objectif : vous aider à cartographier l’ensemble des risques qui pèsent sur votre entreprise afin de les mesurer, les quantifier et les mitiger par la suite. Si vous suivez mes contenus sur le thème de la gouvernance des données et de l’intelligence artificielle, vous avez déjà été...

info_outline
#4.24 Gagner aux JO, est-ce une question de data ? show art #4.24 Gagner aux JO, est-ce une question de data ?

Decideo - Data Science, Big Data, Intelligence Augmentée

Vous avez 23 ans, vous mesurez 1 mètre 77, et vous pesez 72 kilos ? Vous avez, contrairement à moi, le profil idéal pour remporter le 100 mètres, épreuve reine de l’athlétisme aux jeux olympiques. Si en revanche vous avez plus de 27 ans… désolé, vous êtes déjà disqualifié par l’analyse statistique. Cependant, si vous êtes un peu en surpoids, jusqu’à 108 kilos, vous pouvez tenter le lancer de poids. Les grands triompheront au lancer de disque, quant aux plus petits qu’un mètre soixante… ils n’ont que peu de chance d’obtenir une médaille en athlétisme. Non,...

info_outline
#4.23 Gouvernance des données orientée métier, quelques prérequis show art #4.23 Gouvernance des données orientée métier, quelques prérequis

Decideo - Data Science, Big Data, Intelligence Augmentée

Gouvernance des données : quelques prérequis organisationnels Ayant l’opportunité d’accompagner de nombreuses entreprises dans la mise en place d’une gouvernance des données orientée métier, je voudrais partager avec vous aujourd’hui quelques prérequis organisationnels. Eloignés des habituels conseils sur les outils à déployer, je constate que les premiers pas à réaliser, et pas les plus faciles, sont liés aux personnes et à l’organisation. Trois questions ! Qui ? Cela peut paraitre évident, mais dans la réalité, la nomination claire et affirmée de la...

info_outline
#4.22 La donnée sous tous les angles, avec Philippe Charpentier, CTO de NetApp show art #4.22 La donnée sous tous les angles, avec Philippe Charpentier, CTO de NetApp

Decideo - Data Science, Big Data, Intelligence Augmentée

Avec Philippe Charpentier, le CTO de NetApp France, nous abordons le "contenant" des données. Contenant et contenu sont mutuellement indispensables, et ils répondent tous deux à des contraintes différentes : - Les data sont enfin reconnues comme des actifs informationnelles de l'entreprise, il faut donc les protéger. Quels sont les enjeux actuels liés à la sécurité et à la confidentialité de ces données collectées par toutes les entreprises ? - Peut-on et doit-on tout conserver ? L'IA semble nous dire que oui, les lois sont un peu moins d'accord. Comment arbitrer ? - Un des...

info_outline
#4.21 IBM se lance dans le data mesh avec Data Product Hub show art #4.21 IBM se lance dans le data mesh avec Data Product Hub

Decideo - Data Science, Big Data, Intelligence Augmentée

IBM se lance à son tour dans le data mesh et les data products. L’entreprise l’a annoncé cette semaine, à l’occasion d’un séminaire de présentation de son offre appelée IBM Data Product Hub. Cette tendance, le « shift left », consiste à transférer peu à peu la responsabilité des data aux utilisateurs métiers, et l’autonomie qui va avec. Que vous appliquiez à la lettre les principes du data mesh ou si vous créez simplement des data products pour remplacer vos entrepôts de données centralisés, vous allez passer par la recherche et l’installation d’une...

info_outline
#4.20 Cinq ans de prison, si vous tentez de prévoir les décisions d'un juge show art #4.20 Cinq ans de prison, si vous tentez de prévoir les décisions d'un juge

Decideo - Data Science, Big Data, Intelligence Augmentée

5 ans de prison, si vous tentez de prévoir la décision d’un juge … mais comme toujours, les lignes jaunes sont contournables, pour peu que l’on prenne le temps de comprendre la loi. Je vous parle ici d’une disposition liée à l’utilisation de l’intelligence artificielle dans le cadre de procédures judiciaires, tentant de prédire quel sera le comportement de tel ou tel juge dans une affaire, et pour les parties prenantes d’adapter leur stratégie. Aux Etats-Unis, vous l’avez certainement vu dans de nombreuses séries criminelles, la technologie est utilisée pour analyser...

info_outline
 
More Episodes

Et si la regression de l’IA était la bouée de sauvetage de l’Être humain…

Pour bien comprendre l’IA, il faut comprendre le principe de base de l’apprentissage machine. On apprend à la machine, on la dresse. Au risque de paraître à contre-courant, l’IA n’est pas “intelligente”, c’est du dressage. Comme je l’explique dans mes formations, l’IA fonctionne un peu comme votre chien. Il est “intelligent” car il a compris que, en échange d’une friandise ou d’une caresse, il vous ramène la balle que vous avez lancée. Si vous appelez cela de l’intelligence, d’accord; moi, je préfère appeler cela du dressage.

Quoiqu’il en soit, l’IA fonctionne sur le même principe. C’est ce que l’on appelle des données d’entrainement. Vous montrez à l’algorithme ce qui s’est passé. Il en déduit ce qui va se passer.

Première contrainte, vous devez avoir des données sur ce qui s’est passé dans le passé. Sans données d’entrainement, aucune prédiction n’est possible. Et ne me parlez pas des générateurs de données d’entrainement, qui représente sans doute le pire des biais que vous pouvez enseigner à vos systèmes d’IA. Pas de données, pas de prévisions !

Dans le cas des IA génératives, comme ChatGPT, dont on parle beaucoup depuis six mois, ou de ses équivalents graphiques comme MidJourney; l’entrainement est réalisé à partir de contenus récupérés sur Internet ou dans différentes bases de données. Si vous demandez à MidJourney de dessiner un ordinateur à la manière de Picasso, il copiera l’ensemble des caractéristiques des tableaux de Picasso qui ont servi de base à son apprentissage et produira un nouveau dessin. Ce nouveau dessin sera ensuite intégré dans sa base de connaissance et servira à son tour de donnée d’entrainement, etc.

Et c’est là qu’à moyen terme, l’apprentissage machine creuse sa propre tombe. L’IA produit du contenu à partir du contenu existant. Dans le cas d’un tableau style Picasso, ou d’un texte style Victor Hugo, ce n’est bien sur ni du Picasso, ni du Victor Hugo, mais une copie. Cette même copie servira par la suite à alimenter les prochaines phases d’apprentissage.

Un article sur le sujet a été récemment publié sur Arxiv : “The Curse of Recursion: Training on Generated Data Makes Models Forget” - La malédiction de la récursivité : L'entraînement sur des données générées fait oublier les modèles. Cet article explique comment, à force de créer des contenus basés sur les contenus eux-mêmes générés par une IA générative, le système perd peu à peu de sa substance. A force de copier la copie de la copie de la copie, le contenu généré devient le plus petit dénominateur commun du tableau de Picasso ou du texte de Victor Hugo.

En résumé, pour paraitre intelligente, une IA générative a besoin de contenu humain original pour améliorer en permanence la copie qu’elle génère. Se posent alors deux questions.

Premièrement, dans un monde où plus personne ne voudrait travailler, et où tout le monde utiliserait l’IA, comment continuerait-on à progresser ? La réponse est simple, nous ne progresserons plus. Plus de découverte scientifique, plus d’imagination, juste des copies de copies de copies. Imaginez que tout le monde confie la rédaction de ses pages web ou de ses fiches produits à une IA générative… ce n’est plus la terre qui serait plate, mais bien l’ensemble des sites Web ainsi conçus.

Deuxièmement, les humains créateurs de contenus accepteront-ils que leurs créations soient pillées par les IA génératives sans leur accord ? J’ai déjà démontré que les IA génératives ne respectent ni les droits d’auteur ni le copyright, et ne mentionnent aucune de leurs sources. Et je plaide d’ailleurs pour la mise en place d’une balise permettant de publier du contenu sur Internet, et d’indiquer que l’on refuse son indexation par les IA génératives.

Donc si ces IA ne disposent plus de contenu original et humain pour apprendre, elle perdront peu à peu de leur valeur. C’est ce qu’explique l’article que je citais il y a quelques instants.

N’ayez donc pas peur de ces IA ! Utilisez les pour ce qu’elles savent faire : ramener la baballe. Et donnez leur une caresse. Pour l’imagination, la découverte, la création, l’originalité, faites confiance à l’Être humain. Son processus de création est cependant le même que l’IA. Quand l’Homme apprend, il lit, il regarde, il s’inspire. La différence vient après ! Il ne se contente pas de plagier, il veut ajouter sa propre dimension, sa propre recherche. Et c’est cela qui fait sa valeur !