Un rapport révèle que plus de 139 000 scénarios de films et séries servent de données pour des systèmes d’intelligence artificielle.
Un rapport de The Atlantic met en lumière l’utilisation massive de dialogues issus de films et de séries télévisées pour entraîner des modèles d’intelligence artificielle. Parmi les données utilisées, on retrouve plus de 139 000 scripts provenant de sources variées : 346 scripts de Ryan Murphy, 616 épisodes des ‘Simpsons‘, et l’intégralité des séries ‘The Wire‘, ‘The Sopranos‘ et ‘Breaking Bad‘. Tous les films nommés pour l’Oscar du Meilleur Film de 1950 à 2016 sont également concernés.
Les dialogues exploités ne sont pas tirés directement des scénarios officiels, mais proviennent des fichiers de sous-titres disponibles sur le site OpenSubtitles.org. Ces fichiers, extraits de DVDs, Blu-ray ou de flux en ligne, offrent un aperçu brut des dialogues, souvent proches de la langue parlée, ce qui les rend particulièrement intéressants pour la formation des IA.
Selon The Atlantic, des entreprises comme Apple, Meta, Nvidia et Salesforce ont utilisé ce corpus pour développer divers modèles de langage. Les sous-titres, faisant partie d’un ensemble de données nommé ‘The Pile‘, sont exploités pour enrichir les capacités conversationnelles des chatbots, rendant leurs dialogues plus naturels et leur compréhension des références culturelles plus fine.
Le rapport souligne que, bien que ces données soient librement accessibles en ligne, leur utilisation à des fins de développement d’IA soulève des questions éthiques et légales, notamment en matière de droits d’auteur. Certaines entreprises affirment que ces données sont utilisées uniquement à des fins de recherche, mais les modèles créés sont souvent accessibles pour un usage plus large, ce qui pourrait potentiellement concurrencer le travail des scénaristes.
Enfin, Atlantic propose un outil permettant de rechercher les œuvres spécifiques qui ont été utilisées dans cette base de données, offrant une plus grande transparence sur l’étendue des contenus exploités. L’utilisation de ces dialogues pour la formation des IA pose ainsi de nombreuses questions sur la propriété intellectuelle et les droits des créateurs face à ces nouvelles technologies…