Reddit va mettre à jour la norme web pour bloquer le scraping automatisé des sites web information fournie par Reuters 25/06/2024 à 21:45
((Traduction automatisée par Reuters, veuillez consulter la clause de non-responsabilité https://bit.ly/rtrsauto))
La plateforme de médias sociaux Reddit
RDDT.N a déclaré mardi qu'elle mettrait à jour une norme web utilisée par la plateforme pour bloquer le grattage automatisé de données sur son site web, à la suite d'informations selon lesquelles des startups d'intelligence artificielle contournaient la règle pour collecter du contenu pour leurs systèmes.
Cette décision intervient alors que des entreprises d'intelligence artificielle ont été accusées de plagier le contenu d'éditeurs pour créer des résumés générés par l'IA sans en donner le crédit ou en demander la permission.
Reddit a indiqué qu'il mettrait à jour le protocole d'exclusion des robots, ou "robots.txt", une norme largement acceptée destinée à déterminer quelles parties d'un site sont autorisées à être explorées.
L'entreprise a également indiqué qu'elle maintiendrait la limitation du débit, une technique utilisée pour contrôler le nombre de requêtes provenant d'une entité particulière, et qu'elle empêcherait les robots inconnus et les robots d'exploration d'effectuer du "data scraping" (collecte et sauvegarde d'informations brutes) sur son site web.
Plus récemment, le fichier robots.txt est devenu un outil clé utilisé par les éditeurs pour empêcher les entreprises technologiques d'utiliser gratuitement leur contenu pour former des algorithmes d'intelligence artificielle et créer des résumés en réponse à certaines requêtes de recherche.
La semaine dernière, , une lettre adressée aux éditeurs par la startup TollBit, spécialisée dans les licences de contenu, indiquait que plusieurs entreprises d'IA contournaient la norme web pour gratter les sites des éditeurs.
Cette lettre fait suite à une enquête de Wired , qui a révélé que la société de recherche en IA Perplexity avait probablement contourné les efforts déployés pour bloquer son robot d'exploration du web via robots.txt.
Au début du mois de juin, l'éditeur de médias économiques Forbes a accusé Perplexity d'avoir plagié ses articles d'investigation pour les utiliser dans des systèmes d'IA génératifs sans en donner le crédit.
Reddit a déclaré mardi que les chercheurs et les organisations telles que l'Internet Archive continueraient à avoir accès à son contenu pour un usage non commercial.