この度、研究開発の目的から文章コンテンツがコピーされていないか確認できるツール「Copydetect」を公開しました。今回はコピーチェックツールの内容と、ツールの開発に至った背景を説明したいと思います。
コピペチェックツール『CopyDetect』を使ってみる文章コピーチェックツール
影武者やコピペリンなどのコピーチェックツールがすでに存在しますが、今回試験的にプレーンテキストのコンテンツがコピーされていないか、もしくは納品された記事(プレーンテキスト)がコピー文章か否かを確認するツールを作りました。
リンク:コピペチェックツール(CopyDetect)
尚、当ツールは2000文字のチェックに約30秒程の時間を要します。出来る限り精度高くコピーや盗用を検出するべく、バックグラウンド側で複数回に分けてコピー検索&照会を行っています。現在、制限無しで無料にてお使い頂けますので、CopyDetectの使用感などをご覧になりたい方は、上記リンクからアクセスし、文章をコピーチェックしてみてください。
文章コピーチェックツールの使い方
コピペ有無をチェックしたい文章をツールに貼り付け、「文章をチェックする」のボタンを押します。
類似したプレーンテキストコンテンツがWeb上に見つかると、上記メッセージが表示されます。調査から一致率が40%を超えると、コピーコンテンツの疑いが高いです。
※上記図はブログ投稿「Webサイトを外注するときの注意点とポイント」の導入文をチェクした時の結果。コンテンツ掲載先のブログ記事URLと共に、Facebookページの個別URL投稿がヒットしている。
コピーコンテンツの可能性が低い場合、オリジナルコンテンツである旨を伝えるメッセージが表示されます。
開発の背景
コンテンツマーケティングやUGC系のWebメディアでは、日々多くのテキストコンテンツを編集者やディレクターがチェックし、校正、校閲を行い、修正をかけた上で初めてWeb上に公開しています。
扱うコンテンツの量が多いほど、Webメディア運営者の文章チェックにかける工数(時間)が増え、普段の業務を圧迫します。
コピペチェックも文章チェック工程の1つです。一般ユーザーや匿名ライターが投稿できるWebメディアの場合、悪意がないコピーコンテンツの入稿があります。メディア運営者側によるコピーチェックを怠ると、他者の著作権を知らず知らずに侵害したり、他のWebページからコンテンツをコピーして掲載しているとして、Googleからペナルティを受けてしまうリスクを抱える事になります。
誰でも閲覧できる状態で文章コンテンツを掲載する場合、著作権侵害が無いかなど、コピペチェックはWebメディア運営者の責任と言えるでしょう。
しかし、一文一文をGoogle検索にかけ、コピーコンテンツか否かを手動でチェックするのは現実的ではありません。この作業自体はシステムを通して自動化するべき作業であると考え、今回のコピペチェックツールの開発に至りました。
最近のオウンドメディアには、自社の社員が執筆したコンテンツと合わせて、外部の協力ライターが執筆したコンテンツを掲載しているメディアが増えてきています。
普段の業務でコンテンツの執筆が出来ない間、外部のライターが記事を投稿する事で、オウンドメディアとしての更新性を保つ事ができます。
この際、ライターが投稿したコンテンツを自動的にコピーチェックし、その結果を担当者に通知する事で、より早く修正を指示する事ができ、未然に著作権侵害を防ぐ事ができます。
手動で納品された記事を一文一文Web検索しコピーチェックしても同じ結果(コピペがあるか否かを判定する)を得られますが、その手動チェックにかかる工数さえシステム化を通して削減できるのであれば、システム化しようという話しからCopydetectの開発に至りました。
コピーチェックはコンテンツを細かく区切って判定すると精度が高まる
2000文字を1つの文章としてコピー判定を行うよりも、300文字前後に分割し、300文字前後の文章群を個々でチェックし、都度の判定結果を見た方がより精度高く判定&検知できる事が分かりました。
一部分のみを他Webサイトから抜粋した場合や、語尾や主語を変化させたリライト文章の場合、総合点で判定すると検知できなかったり、類似率が相対的に低くなり、見落としてしまうケースがありました。
以上を防ぎ、精度高くコピーチェックを行うには、一度にチェックする文章を300~500文字で区切り、その区分毎え判定を見る方が良いでしょう。
Copydetectには、全文比較による類似度チェックと合わせて、「一文マッチ」というソート機能を搭載しています。一文マッチとは、類似比率では無く、一致する文字列の最大文字数です。この文字数をもとに検知結果をソートする事で、部分的なコピーや剽窃をも漏れ無く検出する事が可能です。
企業のPRサイトや広告記事の剽窃確認など、漏れ無くコピーチェックをする差にお使い頂ける機能です。
参考:部分的なコピペも検出するコピペチェック方法
自社の記事が無断コピーされるのを防ぐ
正確には、知らず知らずに無断でコピーされ、平然と掲載され続けるのをいち早く食い止める事にも、コピーチェックツールを活用できます。
各記事を1ヶ月に1回、自動的にコピー監視を行い、Web上に無断で複製されていないかチェックします。
コピーが疑わしいWebページが発見された場合は、メールやチャットワークを通してオウンドメディア運営担当者に通知します。
通知メッセージを受け取った担当者は、実際に目視で複製内容を確認し、無断コピーか否かを判断します。無断でコピペされている場合は、そのWebサイトのオーナーに連絡を取り削除してもらうか、取り合ってくれない場合はDMCAに基づきGoogleインデックスからの削除依頼や他プラットフォームへの削除を依頼します。
Googleのコピーコンテンツへの処置が非常に厳しいものの、コピーしたWebページをオリジナルとして誤認する場合もあり、いち早い報告や対処が必要です。
参考:DMCA Takedown Noticeでコピーコンテンツの削除を依頼する方法
他社のコピーチェックAPI
Webの重要性が増し、Googleのコピーコンテンツに対する処置が厳しくなった現在、コピーコンテンツを検知するAPI商品が存在ます。
CopyDetect
弊社のコピーチェックツールのAPI版です。
WordPressや自社のCMSに導入いただくことが可能です。コピー検知精度を重視して開発しており、検索&検出に15~60秒程時間を要します。高い精度でコピーを発見し、公開を未然に防がれたい方にはお勧めです。
弊社にはコピペチェックAPIの導入からライターマネージメントまでWebメディア運営のコンサルティングサービスを提供しております。技術的な導入から運用まで是非ご相談ください。
リンク:株式会社Core:お問い合わせフォーム
影武者API
サムライファクトリー社の影武者は、ブラウザから利用するプランとは別に、APIを通して影武者を利用できるAPIプランも用意しています。
CopyScape
CopyScapeはコピーチェックツールとして非常に有名であり、BusinessWeekなど大手Newsメディアも利用するWebツールです。
Batch Searchといった、登録URLを定期的にコピペチェックする機能やAPIなども標準で付いています。
残念ながら日本語(漢字)では適切に機能しない場合もあるとの事です。
参考:What languages does Copyscape work with?
まとめ
オウンドメディアやWebメディアの成功は立ち上げる前の計画立案や構築以上に、そのサイトを立ち上げた後の「運用力」にかかってきます。
設計したペルソナをもとに、仮想顧客ユーザーに対し気長にコンテンツを公開・提供し続ける必要があります。もちろん、そのコンテンツが見込顧客に対しどの様な価値を提供できたかを効果測定し、コンテンツの内容や品質の改善を根気よく続けていかなくてはなりません。
継続的な運用力が求められる中、自動化できる事は出来る限りシステムで処理させ、本当に人間しか出来ないオウンドメディア運営を行のが望ましいでしょう。その一つとしてコピーチェックの自動化が挙げられます。
独自開発もしくは市販のコピーチェックAPIなどを用いて、入稿時に自動的にチェックするシステムを導入するだけでも、1記事数分の工数削減が1年間には数十時間分の工数削減に繋がり、より文章の磨き上げ作業に時間を割くことが出来るようになるでしょう。