TDMRepは有効なオプトアウト手段となり得るか?
著
当サイトについては、生成AIサービスベンダーによるクローリングを禁止していませんが、理由はさておき禁止したいと考えるサイトは少なからず存在します。また、その具体的な手法として、robots.txtや.htaccessなどにおいて、該当するクローラーからのアクセスを禁ずるのが一般的と認識しています(クローリングを禁ずるのではなくCreative Commonsを活用しようみたいな話もありますが)。
しかし、生成AIサービスベンダーの数が増え、自ずとクローラーの種類も増え続けるなか、上記の手法がますます現実的ではなくなってきているようです。そもそも、robots.txtの内容がどこまで忠実に遵守されるのか? クローラーがユーザーエージェント名を詐称することはないのか? といった点で、現実的ではないと感じます。
- Bots, Spiders, and Crawlers: The Results - Manu
- With the rise of AI, web crawlers are suddenly controversial - The Verge
折しも、GIGAZINEに掲載された「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張という記事を読みました。Perplexity(パープレキシティ)は、ソフトバンクが1年間無料でユーザーに提供することを発表した件で話題のサービスですね。
まったくの偶然ですけど、GIGAZINEの記事を読んだその日に、とある会議でTDM Reservation Protocol、略してTDMRepと呼ばれるプロトコルが開発中であることを知りました。開発しているのはW3CのText and Data Mining Reservation Protocol Community Groupで、Working Groupではありませんから、現時点では公式な仕様という位置付けにありません。しかし欧州の法律が背景にあるだけに、いずれCommunity GroupからWorking Groupに開発の場を移しそうな気はします。
TDMRepの仕組みは非常にシンプルで、これならユーザーエージェント名をいちいち列挙することなく、生成AIサービスベンダー(に限らないけど)をオプトアウトすることができそうです。もっともTDMRepを尊重・遵守するかどうかはあくまでベンダー次第な点では、従来と五十歩百歩な気が否めませんけど......ともあれ、TDMRepの今後の動向は追いかけておきたい感じです。