Les sites se bousculent pour bloquer le robot d'exploration ChatGPT après l'apparition des instructions

Sans publicité, OpenAI a récemment ajouté des détails sur son robot d’indexation, GPTBot, sur le site de documentation en ligne. GPTBot est le nom de l’agent utilisateur que l’entreprise utilise pour récupérer des pages Web afin de former les modèles d’intelligence artificielle derrière ChatGPT, tels que GPT-4. Plus tôt cette semaine, certains sites Ils ont rapidement annoncé leur intention Pour empêcher GPTBot d’accéder à son contenu.

Dans la nouvelle documentation, OpenAI indique que les pages Web explorées avec GPTBot « seront probablement utilisées pour améliorer les futurs modèles » et que permettre à GPTBot d’accéder à votre site « peut aider les modèles d’IA à devenir plus précis et à améliorer leurs capacités globales et leur sécurité ».

OpenAI affirme avoir mis en place des filtres qui garantissent que GPTBot n’accède pas aux sources qui se trouvent derrière des murs payants, qui collectent des informations personnellement identifiables ou à tout contenu qui enfreint les politiques d’OpenAI.

La nouvelle de la possibilité de bloquer les formations OpenAI (si vous les respectez) arrive trop tard pour affecter les données de formation existantes pour ChatGPT ou GPT-4, qui ont été supprimées sans annonce il y a des années. OpenAI a collecté des données se terminant en septembre 2021, qui est le seuil « cognitif » actuel pour les modèles de langage OpenAI.

Il est à noter que les nouvelles instructions Peut être pas Empêcher les versions de navigation Web de ChatGPT ou des plug-ins ChatGPT d’accéder aux sites Web existants pour relayer les informations mises à jour à l’utilisateur. Ce point n’est pas expliqué dans la documentation, et nous avons contacté OpenAI pour clarification.

READ L'iPhone 14 Plus ne fait face à aucun retard près d'une semaine après l'ouverture des précommandes au milieu de rapports de faible demande

La réponse se trouve dans le fichier robots.txt

Selon OpenAI DocumentationGPTBot sera reconnu par le jeton d’agent utilisateur « GPTBot », sa chaîne complète étant « Mozilla/5.0 AppleWebKit/537.36 (KHTML, identique à Gecko ; compatible ; GPTBot/1.0 ; + https://openai.com/gptbot) « .

Les documents OpenAI fournissent également des conseils sur la façon d’empêcher GPTBot d’explorer les sites Web en utilisant les normes de l’industrie. fichier robots.txt fichier, qui est un fichier texte situé dans le répertoire racine d’un site Web qui demande aux robots d’indexation Web (tels que ceux utilisés par les moteurs de recherche) de ne pas indexer le site.

C’est aussi simple que d’ajouter ces deux lignes au fichier robots.txt de votre site :

User-agent: GPTBot
Disallow: /

OpenAI indique également que les administrateurs peuvent restreindre GPTBot à certaines parties du site dans un fichier robots.txt avec différents codes :

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

De plus, OpenAI a introduit le Blocs d’adresses IP spécifiques à partir duquel GPTBot s’exécutera et qui peut également être bloqué par des pare-feu.

Malgré cette option, le blocage de GPTBot ne garantira pas que les données de localisation ne finissent pas par entraîner tous les futurs modèles d’IA. Outre les problèmes avec les scrapers ignorant les fichiers robots.txt, il existe d’autres grands ensembles de données de sites Web scrapés (tels que pile) n’est pas affilié à OpenAI. Ces ensembles de données sont couramment utilisés pour former des LLM open source (ou open source) tels que Meta’s Llama 2.

Certains sites réagissent rapidement

Bien que ChatGPT ait été un énorme succès d’un point de vue technique, il a également été controversé quant à la manière dont il a supprimé les données protégées par le droit d’auteur sans autorisation et a concentré cette valeur dans un produit commercial qui contourne le modèle de publication en ligne. OpenAI a été accusé (et poursuivi pour) plagiat dans ce sens.

READ Cinq jeux déjà confirmés pour Xbox Game Pass en février 2022

En conséquence, il n’est pas surprenant de voir certaines personnes réagir à l’annonce de la possibilité de bloquer leur contenu des futurs formulaires GPT avec une sorte de refoulement j’écoute. Par exemple, mardi, VentureBeat mâle que le bordÉcrivain de sous-pile Casey NewtonEt Neil Clark De Clarkesworld, ils ont tous dit qu’ils bloqueraient GPTBot peu de temps après l’annonce du bot.

Mais pour les opérateurs de grands sites Web, l’option de bloquer les robots d’exploration LLM n’est pas aussi simple qu’il y paraît. Faire en sorte que certains LLM ignorent les données de certains sites Web laissera des lacunes dans les connaissances qui peuvent très bien servir certains sites (comme les sites qui ne veulent pas perdre de visiteurs si ChatGPT leur fournit leurs informations), mais pourraient également nuire à d’autres. Par exemple, bloquer le contenu des futurs modèles d’IA pourrait réduire l’empreinte culturelle d’un site ou d’une marque si les chatbots intelligents devenaient une interface utilisateur principale à l’avenir. En tant qu’expérience de pensée, imaginez une entreprise en ligne annonçant qu’elle ne voulait pas que son site Web soit indexé par Google en 2002 – une décision autodestructrice alors que c’était le moyen le plus populaire de trouver des informations en ligne.

Il est encore très tôt dans le jeu de l’IA générative, et quelle que soit la direction que prend la technologie – ou que des sites individuels tentent de se retirer de la formation au modèle d’IA – au moins OpenAI offre l’option.

Sévère Noyer

« Évangéliste amateur de zombies. Créateur incurable. Fier pionnier de Twitter. Amateur de nourriture. Internetaholic. Introverti hardcore. »

READ Realme Narzo 50 est lancé aujourd'hui en Inde, regardez la diffusion en direct ici

Les sites se bousculent pour bloquer le robot d’exploration ChatGPT après l’apparition des instructions – Ars Technica

La réponse se trouve dans le fichier robots.txt

Certains sites réagissent rapidement

Le Google Pixel 8a est doté d'un puissant chipset Tensor G3 et de sept ans de mises à jour de sécurité

Les initiés affirment que la mise à niveau de pointe de l’IA sera lancée d’ici quelques jours

Revue Switch d'El Shaddai : superficielle, prétentieuse et maladroite

SpaceX lance 23 satellites Starlink sur le vol Falcon 9 depuis Cap Canaveral – Spaceflight Now

Les Canucks de Hughes réussissent une sélection rigoureuse des Predators – Sportsnet.ca

Le Google Pixel 8a est doté d'un puissant chipset Tensor G3 et de sept ans de mises à jour de sécurité

Des photos aériennes montrent les ravages causés par une tornade meurtrière en Chine

La réponse se trouve dans le fichier robots.txt

Certains sites réagissent rapidement

Laisser un commentaire Annuler la réponse

More Stories

Le Google Pixel 8a est doté d'un puissant chipset Tensor G3 et de sept ans de mises à jour de sécurité

Les initiés affirment que la mise à niveau de pointe de l’IA sera lancée d’ici quelques jours

Revue Switch d'El Shaddai : superficielle, prétentieuse et maladroite

You may have missed

SpaceX lance 23 satellites Starlink sur le vol Falcon 9 depuis Cap Canaveral – Spaceflight Now

Les Canucks de Hughes réussissent une sélection rigoureuse des Predators – Sportsnet.ca

Le Google Pixel 8a est doté d'un puissant chipset Tensor G3 et de sept ans de mises à jour de sécurité

Des photos aériennes montrent les ravages causés par une tornade meurtrière en Chine