- タグページはSEO施策の内部リンクとしても極めて重要
- 「片付け」と「片づけ」の様に、同義語のタグページが乱立する可能性がある
- 入力タグを自動的にチェックし、同義・類義語タグの乱立を防ぐシステムを構築すると良い
キュレーションメディアやブログでは、各記事ページに「タグ」と呼ばれる内部リンクを付与し、ユーザー回遊動線の拡充とSEO効果の向上を図っています。
タグ(タグクラウド)はユーザーにとって、他の関係している記事を探す上で便利なナビゲーションリンクでもあり、PV数の増加施策としても有効なリンクと言えます。
とりわけSEOに於いては重要な施策であり、記事ページ単体ではどうしても獲得できないビッグ・ミドルワードの順位上昇を記事の集合体によるリンク評価値およびワードテーマの集約で上昇を図るSEO戦術が現在の手法として一般的とも言えます。
実際に、多くのキュレーションメディアが検索経由の流入を記事ページのみならず内部リンクの集合がなされるタグページやカテゴリページで獲得しており、タグページの生成が極めて集客戦略に於いて重要かを見て取ることが出来ます。
《問題点》タグページは類似ページが大量生成しやすい
SEO戦術上、極めて重要なタグページですが、Webサイトの運用が長くなるに連れ、サイト内の記事数や投稿ユーザー数が増える事による「タグ付けの多様化」によってSEO上の問題点も発生してきます。
【問題1】類似・同疑義関係にあるタグが乱立
投稿ユーザー数が増えたり、タグ付けの管理を怠ると、意味が似たようなタグがサイト内に乱立する事になります。いわゆる同義語のタグが膨大に増える問題です。
例えば、掃除の方法を説明する記事を別々の2人のユーザーが執筆し、投稿したとします。
投稿ユーザー(ライター)は投稿画面でタグを付けますが、それぞれのユーザーが「片付け」と「片付」のタグを付与しました。
人間からすると、「け」が無いだけで、両方とも同じ意味である事が分かりますが、リンク遷移先のタグページは別々のURLで生成される事になります。
この状態を放置すると、「片付け」の単語テーマを持つページがサイト内で乱立する事になり、類似コンテンツの問題が発生します。また、内部リンクを集約させる事により順位上昇を図る戦術であるにも関わらず、サイト内のSEO資産とも言える記事ページを有効に活用できていない状態でもあります。
当然、ユーザービリティの観点からも改善するべき問題です。
意味は同じでも、送り仮名の付け方が異なったり、カタカナ・アルファベット・平仮名の違いで、タグページに表示される紐づく記事ページの一覧結果が別々になってしまうのは決してユーザービリティが高いとは言えません。
【問題2】タグ一つひとつを管理するコストの高さ
類似タグの乱立を防ぐには、付与するタグをルール化し、無意味なタグの多様化を防ぐ必要があります。しかし、このタグ管理には多くの人的コストがかかり、運用も難しい難点があります。
クローズドのコンテンツメディアの場合、社内外のライターが記事を執筆し、管理画面から記事を投稿する運用フローを採っていると思われます。
類似タグの問題を解決する際、多くのケースで用いられるのがExcelを使ったタグの管理です。
Googleスプレッドシートや共有ファイルサーバーにタグの統一管理表を置き、ライターはタグを付ける際、その管理表内で付与しようとするタグを、送り仮名の付け方を変えたり、カタカナに変えて一度検索するルールを採っているケースです。
CMSにWordpressなどタグの生成(新規追加)をユーザー管理権限で制限できないWebメディアはこの様な形式で運用している所が多いかと思います。
この運用方法の場合、投稿者は毎度管理表を検索しなければならず、投稿の手間が増える事になります。又、新しいキーワードが出る度にメディアを管理している担当者はタグ統一管理表を更新&精査する必要があります。この更新や精査作業はタグ数が増えれば増えるほど多くの工数を要する作業となり、多くの人的コストを要します。
【問題3】誰でも投稿できるUGCではタグの統一制限が難しい
社内でライターをかかえ、入稿時に一定のルールに則って投稿させている場合は、統一管理表による類似タグの乱立を防ぐ事は出来ますが、ユーザー登録すれば誰でも記事を投稿できるUGC型のメディアの場合、この管理方法は機能しません。
投稿するユーザーの変換辞書やユーザーの普段使う単語によってタグ付けされる為、どうしても同義語関係にあたるタグページが大量に発生してしまいます。
かと言って、タグ付けを禁止する訳にもいきませんし、運営者側が定期的にタグを目視でチェックし、手動で統合(付け直す)する作業も多くのコストを要します。
《解決方法》タグの自動管理・精査システムを構築
Excelなどを用いた管理ではどうしても管理コストが高まり、抜け漏れも増えてきます。
また、ライターにも負荷を強いる方法であり、最善の運用方法とは言えません。そうなってくると、如何に自動化するかがポイントとなります。
今回は、投稿画面で入力されるタグを同義語データベースで検索し、ヒットした場合、統一ワードとして登録されているワードに自動変換するシステムを紹介したいと思います。
タグ統一システムの大まかな仕組みイメージ
予めタグ統一表となるデータベースを構築します。
ユーザーが入力したタグは必ず統一データベースに照会され、統一対象としてヒットする場合は、統一後の単語に変換してタグとして記事に付与します。
入力されたタグ候補は必ず統一DBのチェックを受けている為、データベースに登録済みのものであれば乱立する事はありません。
統一データベース作りが最も重要!
このブログで紹介する方法では、予め同義語や統一したいタグデータベースを作成する必要があります。このデータベースを如何に作りこむかが、タグの統一精度に大きく関わってきます。
では、実際にデータベース作りのフローを説明したいと思います。
【DB作りその1】同義語データのダウンロード
何もない状態から同義語を手動でひとつひとつ抽出するのは至難の業です。
そこで、今回はネット上でダウンロードできる同義語データを使います。
候補として日本語 WordNetとWikipediaの2つがありますが、今回はWikipediaから同義語DBを生成しました。
Wikipediaを選定した理由は複数ありますが、やはり辞書登録数の多さと新語の登録数が多いことが挙げられます。又、Wikipediaは複数のユーザーによって同義語の統合がされている為、ある程度の精度と網羅性の高さもあると思われます。
Wikipediaから同義語を抽出する方法として、リダイレクトされる単語を抽出し、その単語のリダイレクト先は同義関係にあるとしました。
▼例(2015年8月現在)
https://ja.wikipedia.org/wiki/ソーラー電池
↓↓リダイレクト↓↓
https://ja.wikipedia.org/wiki/太陽電池
<参考>
・Wikipediaのリダイレクトから得られる同義語の分析
・Wikipediaのリダイレクトを使って同義語とれるかな
【DB作りその2】自社メディアの出現キーワードの調査・分析
投稿される記事を分析し、出現する回数が多いキーワード程、サイトテーマを表しており、付与される可能性が高いキーワードとして仮定した場合、入稿済の全ての記事を形態素分解し出現キーワードを調べてみると良いでしょう。
出現数が多いキーワードの中から、同義語になり得るキーワードを予め抽出しておきます。
出現キーワードの抽出方法ですが、記事データを保持しているDBにアクセスできるのであれば、1記事ずつMecabに記事データを投げ、返却される名詞を別のDBに保存していきます。
ここで抽出した出現キーワードデータをピボットテーブルで出現数順に並び替え、自社独自の同義語データベースを作っていきます。
弊社ブログの場合、「コンテンツ」というキーワードの出現数が多い傾向にあります。単純に「コンテンツ」の同義語として「contents」や「content」、「こんてんつ」などを登録していきます。
又、「マーケティング」という単語の出現数も多いので、略語である「マーケ」や英語の「marketing」などを統一対象として登録します。
まだ自社サイトが公開前であれば、類似競合サイトのコンテンツを調べて、予めタグ化される単語や言葉を正規化すると良いでしょう。
参考:検索エンジンはどのページを評価している!?競合サイトのコンテンツ調査方法
└Yahoo!APIを利用して形態素分解する方法を紹介
【DB作りその3】登録キーワードの検査
抽出した同義語をそのまま登録してしまうと、思わぬ所で集客数を減らしてしまう事もあります。
例えば検索ボリュームの観点です。
Wikipediaで統一先となっている単語が、必ずしも検索ボリュームが多い単語で統一されている訳ではありません。
「玉ねぎ」の場合、Wikipediaでは代表ページを「タマネギ」で公開しています。最も検索回数が多い「玉ねぎ」はリダイレクト対象となっており、この同義語データをそのままタグシステムに導入した場合、検索回数が少ない単語でしかタグページを生成を許可しないシステムとなってしまいます。
現在のGoogleは類義語・同義語の認識精度が上がっており、「玉ねぎ」=「タマネギ」と認識しますが、検索結果に表示されるタイトル文は記述した文字が表示されます。これはSERPsからのCTRに影響するため、やはり検索Volを一つの基準として統一先のワードを選定するべきでしょう。
現在のGoogleAdwordsキーワードツールは1回の検索で抽出できるワード数が800個までとなっています。膨大に検査する場合はAdwords APIを使うと良いでしょう。
参考:これで日々の工数削減!マーケティングタスクを自動化できるAPI
※膨大な一覧データになるとは思いますが、必ず目視でのチェックを行います。
2語以上の掛け合わせタグでも正しく置換する方法
自社で作成したタグDBを組み合わせて、統一対象となる単語が完全一致した場合に置き換えるシステムでは、完全に同義語の類似タグ問題は解決されません。
例えば2語掛け合わせタグが入力された場合、完全一致での検索を行うと部分的に統一が必要な単語がすり抜けてしまいます。
この2語以上の単語掛け合わせが入力された場合、形態素毎に分解をして同義語データベースと照会するシステムを組む必要があります。
形態素解析にはMecabやYahoo!API、GooAPIなどがありますが、今回はYahoo!APIを利用してみました。
入力されたタグ文字列を形態素分解し、分解された単語毎に同義語データベースに照会していきます。ヒットする単語があれば、統一単語に置き換え、精査したタグを返却します。
尚、形態素による分解&検索を行うシステムを導入する場合、ある程度自社の同義語辞書が作りこまれている必要があります。
例えばNHKドラマの「マッサン」をひらがなで「まっさん」と入力した場合、Yahoo!APIの形態素解析は「まっ」と「さん」の2語として分解し、「さん」⇒「敬称」に置き換えられてしまいます。
本来は、「まっさん」と入力した場合、「マッサン」に置き換えるべきですが、自社同義語辞書が網羅されていないと、思わぬ所で誤変換が発生します。
形態素解析と合わせてYahoo!キーワードフレーズAPIで分解し、2重の照会を行うのが良いでしょう。
実際に、デモ版を作ってみましたので、使用感を見て頂ければと思います。
タグサジェスト機能を付けてユーザー入力を補助しよう
Googleサジェストの様な、ユーザーが今入力している文字列に関連するタグをサジェスト形式で表示する事で、内部リンク(紐付いじている記事数)が多いタグを、投稿ユーザーが選択しやすくなり、結果的に類義語や同義語タグの発生を防ぐ事ができます。
ユーザーが入力している段階で同義語DBに非同期で照会し、変換対象を表示します。
最後に
今回紹介したタグの自動変換システムはあくまでも構築方法をイメージする為の資料として読んで頂ければ幸いです。
このシステムをUGCでも問題なく稼働させる為には、辞書データの完備がとても重要です。非常に手間がかかる作業ではありますが、整える事によるSEOとユーザービリティの環境が整う為、ある一定の規模を持つWebメディアには導入をお勧めします。