人工知能の進歩に伴い、ChatGPTのような大規模な言語モデルを活用したサービスは急激に増加しています。これらの多くは、インターネット上のウェブサイトからテキストや画像を含む膨大な量のデータで学習することでサービスそのものの精度を高めています。
このような機械学習方法は、AIを活用したサービスの普及という意味では著しい成果をもたらしている事実がある一方で、AIの精度向上のために機密情報、著作権で保護された素材、個人データが、所有者の認識や管理の外で使用される懸念が高まっています。
そのため、AIが当たり前に活用されるであろうウェブサイトのコンテンツが無断で学習データとして使用されないように保護することが不可欠になるでしょう。
本記事では、ChatGPTのような大規模言語モデルからウェブ上のコンテンツを保護するための手順をご紹介します。
大規模言語モデル(LLM)とは?
ChatGPTのような大規模言語モデル(LLM)とは、あらゆる言語を用いて書籍、ニュース記事、ウェブサイトなどの膨大な量のテキストデータを理解し、生成する能力を持つAIシステムを指します。
上記のような膨大な量のデータから、質問への応答やデータのパターンに基づいて予測を立てることによって予測を立てる能力を向上させる特徴があります。
中でもウェブサイトのコンテンツは、LLMの学習に使われる主なデータの1つでありウェブサイトからのデータを使って学習される場合には、対象の記事をはじめ商品の説明や訪問者が残したコメントといったものまで、ウェブサイトに表示される全てのテキストから学習を行っています。
無許可の機械学習を懸念すべき理由
LLMがウェブサイトのコンテンツを利用して機械学習を行う場合、該当のウェブサイトの本来の所有者が持つコンテンツ(ブログ記事や投稿内容)への不正な使用につながる可能性が考えられます。
コンテンツがウェブ上の他の場所で複製されることは、盗作や 知的財産の侵害につながり、ウェブサイトの検索エンジンランキングに悪影響を及ぼす可能性があることからもウェブサイトの所有者にとって身近な問題だといえるでしょう。
そのため、webサイトの管理者をはじめ、今後のネット環境を利用する全ての人は、ChatGPTのようなLLMがどのようにデータを学習プロセスに使用しているのかを知り、ウェブサイトのコンテンツを同意なしに使用されないようにするための措置を講じることが必須になります。
ChatGPTと大規模言語モデルのブロック対策として、実際にChatGPTのような大規模言語モデル(LLM)に利用されるのを防ぐ方法を順に解説していきます。
1.Robots.txtを使ってボットやクローラーからのアクセスを阻止する
ウェブサイトのコンテンツを保護する方法の1つは、robots.txtファイルを使用することです。robots.txtファイルは、ウェブサイトの所有者が検索エンジンのボットや他の自動化されたシステムによってされるサイトの部分を制御する機能を持ち合わせています。
robots.txtファイルとはクローラーやスパイダーとしても知られるウェブロボットに、ウェブサイト上でアクセスできるページやできないファイルを知らせるシンプルなテキストファイルを指します。これは、インターネット上を這いずり回って情報を探す「ウェブロボット」に渡す小さなメモのようなもので、このメモにはあなたのウェブサイトのどの部分を見ることができ、どの部分を見ることができないかを伝える機能をもっています。
そのため例えばインターネットで何者かがあなたのコンテンツを検索した際に、何を見つけるかをコントロールすることが可能になります。これは、ウェブロボットだけが理解できる秘密のコードのようなもので、あなたのウェブサイトのコンテンツをチェックするのに役立ちます。
このように、robots.txtファイルを使用することで、ChatGPTのような大規模な言語モデルの学習にウェブサイトのコンテンツが使用されるのを防ぐことが可能になり、有害なボットを排除し、主要な検索エンジンのみがサイトをクロールできるようになるため、ウェブサイトの所有者はコンテンツをより詳細に管理することができます。
2.noindexメタタグでボットのインデックスを防ぐ
2つ目の対策法のnoIndexメソッドです。自分のコンテンツがデータベースに含まれて検索されないようあらかじめ、ページのHTMLに特定の※1メタタグを追加します。これにより、コンテンツが無断で機械学習のデータとして使用されるのを防ぐことができます。
※1Webページの情報をWebブラウザや検索エンジンに伝えるためHTMLに記述されるタグ
ウェブインデックスは、検索エンジンがインターネット上のすべてのウェブページについて学習する方法です。検索エンジンは「ウェブ・クローラー」と呼ばれる特別なコンピュータ・プログラムを使用し、ウェブサイトからウェブサイトへとリンクをたどり、各ウェブ・ページに含まれる情報を収集するという一連の流れで検索エンジンのウェブ・クローラーは、ウェブ・ページを訪問した後、見つけた情報を大きなデータベースに追加します。グーグルのような検索エンジンで何かを検索すると、検索エンジンはそのデータベースに目を通し、最も役に立つと思われるウェブページを表示する。
noIndexメソッドを実装したい場合は、保護したい各ページの先頭に以下のコードを追加しましょう:
<meta name=”robots” content=”noindex”>。
そのため、noIndexメソッドは、ChatGPTのような言語モデルに使用されないように、ウェブサイトのコンテンツを保護するシンプルで効果的な方法です。ページのHTMLにnoIndexメタタグを追加することで、検索エンジンがコンテンツをインデックスするのを防ぎ、トレーニングに使用されないようにすることができます。しかし、あなたのウェブサイトがすでにrobots.txtファイルによって保護されている場合は、それ以上の措置を取る必要はありません。
3.認証機能を使ってウェブ・クローラーとボットをブロックする
ChatGPTのような言語モデルに利用されないようにウェブサイトのコンテンツを保護するもう一つの方法は、認証機能を導入することです。これは、ログインとパスワードを持つ認証されたユーザーだけがコンテンツにアクセスできることを指します。
認証機能を追加することで、ウェブ・クローラーやその他の自動システムがコンテンツにアクセスするのを効果的に防ぐことができるため、これらのシステムがあなたのコンテンツをスクレイピングし、トレーニング目的に使用することが難しくなります。
ウェブサイトに認証を実装するには、HTTPベーシック認証、OAuth、またはTraleorのような認証機能を内蔵したコンテンツ管理システムなど、さまざまなツールや方法を使用できます。
4.著作権保護
著作権保護は、あなたのウェブサイトのコンテンツが言語モデルに使用されるのを防ぐために使用できるもう一つの方法です。ページのフッターに著作権表示を含めることで、コンテンツに対する権利を主張し、コンテンツが保護されていることを明確にすることができます。あなたのコンテンツが許可なく使用されていることが判明した場合、デジタルミレニアム著作権法(DMCA)を利用して、侵害コンテンツの削除を要求することができます。
DMCAは、インターネット上の著作権侵害に対処するための法的枠組みを定めた米国の法律です。自分のコンテンツが許可なく使用されていると思われる場合、侵害者に削除通知を送り、コンテンツの削除を求めることができます。侵害者がこれに応じない場合は、裁判を起こすことができます。
まとめ
ウェブサイトの所有者は、自社のコンテンツが無断でAIによる機械学習に活用されるリスクに留意する必要があります。コンテンツを保護するためには上記のような手段を講じることで、自分の意図しない所での活用を防ぐことが可能になります。
今後もAIを活用したサービスは普及の一途をたどるため、ウェブサイトの所有者はコンテンツを入念に管理し、ChatGPTのようなAIモデルに使用されないように保護することが重要だといえるでしょう。