Faire en sorte que l'IA se comporte et comment nous pouvons savoir quand ce n'est pas le cas

De nos jours, il ne se passe pas une semaine sans que l’IA ne trouve de nouvelles façons de nous surprendre et de nous alarmer, parfois les deux en même temps. En fait, l’IA existe depuis longtemps et elle nous apporte un certain nombre de choses si utiles que nous en sommes venus à la tenir pour acquise. Nous nous plaignons tous de la correction automatique et du texte prédictif, par exemple, mais nous les utilisons tous.

Mais lorsque l’IA générative a fait son apparition il y a quelques mois, le choc a été d’un autre ordre. L'IA générative peut désormais générer du texte et des images à partir d'une simple invite d'une phrase. Il s'agit même de créer des vidéos réalistes. Et ensuite ?

On ne peut nier les nombreuses implications de l’IA. Mais pour cette chronique, je me concentrerai sur une seule qui représente une menace sérieuse pour les auteurs et les éditeurs : la création de faux livres. Pour le secteur de l’édition, les inquiétudes concernant un soudain tsunami de faux livres encombrant le marché sont bien réelles. L’IA est aujourd’hui capable d’imiter les auteurs de manière crédible. Mais même les faux livres les plus horribles peuvent rivaliser avec les vrais livres publiés par de vrais éditeurs.

Les coupables sont les grands modèles de langage, ou LLM, qui ont été formés via une exploration Web à une échelle époustouflante de contenu en ligne, y compris des joyaux tels que CommonCrawl (six milliards de pages Web) et books3 (190 000 livres électroniques, dont beaucoup prétendument piraté). Ces LLM ne sont pas des bases de données géantes qui régurgitent simplement du contenu réel ; au lieu de cela, ce sont des moteurs de prédiction qui utilisent tout le contenu sur lequel ils ont été formés pour générer du nouveau contenu.

Malgré ce que certains prétendent être une origine quelque peu sordide, les LLM se révèlent très utiles à bien des égards. Les écrivains, les étudiants, les universitaires, les chercheurs et les hommes d’affaires les utilisent quotidiennement pour rationaliser leur travail. Mais comment maîtriser les comportements irresponsables sans perdre toute cette utilité indéniable ?

Deux méthodes sont en tête de liste. Premièrement, nous devons développer un moyen de documenter le contenu authentique, notamment si ce contenu a été généré partiellement ou entièrement par l’IA. Deuxièmement, nous devons développer un moyen d'identifier le contenu dont son créateur souhaite interdire l'utilisation pour la formation d'un LLM. Plus important encore, ces éléments doivent être inviolables ou au moins inviolables.

Je pense que la combinaison de trois normes offre une solution potentielle. J'ai déjà écrit sur C2PA, la Coalition pour la provenance et l'authenticité du contenu. Il s'agit d'une norme technique permettant d'intégrer des informations de provenance dans des ressources multimédias, notamment du texte, des images et des vidéos. Il est largement adopté, non seulement par les organisations médiatiques, mais également récemment par OpenAI, Meta et Google.

Moins connue mais extrêmement importante est une norme du W3C appelée Verifiable Credentials. Il permet aux créateurs et aux droits-
Les détenteurs doivent attribuer correctement le contenu en intégrant les informations d'identité dans le fichier multimédia ou en liant les informations d'identification à l'extérieur, en dehors de l'actif lui-même.

« 

Pour les auteurs et les éditeurs préoccupés par les contrefaçons de l’IA, une solution viable se profile à l’horizon – et les éléments s’assemblent rapidement.

»

Le ciment qui promet de maintenir le tout ensemble est l'International Standard Content Code (ISCC), qui permet d'associer les métadonnées du produit, les informations de provenance comme C2PA et les informations d'identification vérifiables à l'ISCC lui-même, même dans les cas où les métadonnées sont supprimées d'un fichier.

L'ISCC n'est pas une métadonnée au sens conventionnel du terme et n'est pas intégré dans un actif. Au lieu de cela, il est généré à partir de l'actif, y compris, lorsqu'il est appliqué, ses informations C2PA, ses certificats et ses informations d'identification. L'ISCC est composé de quatre composants qui décrivent le contenu sur différentes couches et lui permettent d'évaluer la similarité des métadonnées, la similarité du contenu, la similarité des données et l'intégrité des données entre deux instances d'un ISCC.

Ainsi, une déclaration publique d’un ISCC peut permettre la liaison persistante des métadonnées, des droits, de l’attribution et d’autres informations (telles que « ne pas utiliser pour entraîner l’IA ») à l’actif numérique réel. Et en générant l'ISCC de leur côté, les fournisseurs d'IA peuvent dériver la déclaration intégrée incluant l'attribution appropriée de l'ISCC et respecter les exigences définies par les titulaires légitimes des droits. Tout cela aide les joueurs responsables à jouer de manière responsable et les joueurs irresponsables à être découverts. Pour les auteurs et les éditeurs préoccupés par la montée des contrefaçons d’IA, cela signifie qu’une solution réalisable se profile à l’horizon. Et les pièces s’assemblent rapidement.

Bill Kasdorf est directeur chez Kasdorf & AssociatesLLC, et partenaire fondateur de Publishing Technology Partners.

Une version de cet article est parue dans le numéro du 18/03/2024 de Éditeurs hebdomadaire sous le titre : Faire en sorte que l'IA se comporte