先日、Gigazineに「ネットで拡散されやすい記事タイトルを分析してみるとわかったこと」という記事が公開されていました。
欧米で多くのアクセス数を誇るバイラルメディア「Buzzfeed」の記事タイトル文を分析し、その結果を分かりやすく解説した記事です。
分析を行ったのはサンフランシスコに在住のマックス・ウルフさんとの事。彼のブログを見ると、過去様々なUGM系サイトの統計分析を行っているようです。
マックス・フルフさんの記事(Gigazineさん)に刺激を受け、日本国内の大手UGM系サイトでもあるNaverまとめのタイトル文を分析してみました。
参考:
・ネットで拡散されやすい記事タイトルを分析してみるとわかったこと
・Quantifying the Clickbait and Linkbait in BuzzFeed Article Title[元記事]
Naverまとめのタイトル分析
Naverまとめとは、まとめページを手軽に作成できるキュレーションサービスです。
閲覧数(view数)に応じてまとめ記事の作者には、インセンティブが支払われるユニークな報酬還元の仕組みを取り入れています。
まとめ記事にするテーマ(お題)や画像の選定センス、タイトル文の付け方は、その記事の閲覧数に大きく影響し、還元される報酬金にも響いてくる為、一部ユーザーは様々な要素を分析し、報酬額を得られる手法を編み出しています。
参考:NAVERまとめのタイトルと紹介文を少し変えたらPVが倍増した
と言うことは、PV数を増やそうとするまとめユーザーがトライアンドエラーを繰り返し掴んだ「ワード選定ノウハウ」が、タイトル文の単語出現頻度にも出てくるのではないかと考えました。
尚、今回はまとめ記事を無作為に15,250個抽出しました。
上表にもある様に、調査対象は全体の1%にも満たない小さい数字です。より確実な見通しを出すのであれば、3割以上は調査対象として欲しい所です。
以上から、本記事はあくまでも参考としてご覧ください。
ソーシャルメディアの反響
まず始めに、調査対象の記事がソーシャルメディアで反響をどのくらい獲得しているのか、データを取得しました。
Facebookのシェア数です。
本来は「いいね数」も取得し、比較分析したい所ですが、調査対象の数が膨大な為シェア数のみを解析対象としました。
上の図は、各URL(まとめ記事)が調査時点で獲得しているシェア数を各レンジ(例:100~110の間など)に振り分け、グラフ化したものです。
シェア数が10個以下の記事が大半ですが、実際にシェアが付く記事では平均的に50回シェアされるようです。
上グラフはTwitter上で記事URLがツイートされた回数を示したものです。
ツイッターは実名制のFacebookよりも発言に対する敷居が低いためか、URLの言及数がFacebookとは比較にならないほど多いです。
1000単位のレンジで振り分けたのが上グラフです。平均的には1,000~2,000あたりでしょうか。
比較的にはツイッターでの拡散は得られやすい様に見えます。
上記は、今回調査対象としてデータを取得したソーシャルメディア毎の平均値と中央値を並べたものです。
平均値では余りにもデータの振れがある為、中央値も付け加えました。
中央値で見ると、Facebookでは20回シェアされると一定数以上のシェア数がとれたと判断出来るのではないかと思います。Twitterでは580以上でしょうか。
出現頻度が高いキーワードフレーズ
各タイトル文から、出現頻度が高いキーワードフレーズを可視化してみました。
タイトル文から「- Naverまとめ」を削除した上で、形態素解析で分割した単語をサンプルワードとして抽出しました。
タグクラウド化はRのwordcloudを利用しました。
上のタグクラウドは、抽出した単語56,106個を可視化したものです。
「Twitter」や「画像集」、「iphone」が多用されているのが伺えます。が、まだここからは何もインサイトは見出せそうには無いですね。
では、ソーシャルメディアで反響を得ているタイトル文のみを抽出し、それらタイトル文からキーワード出現頻度を可視化したらどうなるでしょうか。
先ほど算出した中央値以上のタイトル文からキーワードを抽出しました。
Twitter
ツイッターで一定のツイート数(中央値)を獲得している記事ページは、タイトル文に「twitter」や「ツイッター」などが多用されているタイトル文が多くツイートされている様です。(因果関係までは掴めていません)
その他には、表現フレーズである「www」や「放送事故」、「イケメン」といった目を引くワードもあります。
Facebook
上図はFacebook上でシェア数を20回以上獲得しているタイトル文のタグクラウドです。
一見すると、ツイッターとあまり変化が無いように見えます。
Facebook上でも「画像集」や「twitter」というキーワードがタイトル文に埋め込まれている記事が多くシェアされる傾向にあるようです。
「Twiter」というキーワードが入るまとめ記事例として下記があります:
記事リンク
「ツイッターでも流行っている」、「Twitterで話題」など、Twitterから『話題』を探しだしている為、人々の興味関心がまとめ記事の内容と一致するという事なのでしょうか。
上の表は各ソーシャルメディアでシェアされている記事群のタイトル文で出現するキーワードフレーズと、その出現数を降順で並べたものです。
こうして比較しても、さほど変化は見られませんね。
時間の経過と、出現ワードの変化
時間が経過しサービスの成熟が高まると、タイトル文の傾向はどう変化するのでしょうか。
今回のサンプルのまとめ記事数は15,250個であり、その内ページの公開年月日が分かるものが11,683個(76%)になります。
2012年までの検体数が少ないので、期間範囲を[2011年~2012年]と[2014年~2015年]で設定し、シェア(拡散)される可能性が高いキーワードフレーズを可視化すべく、過去Facebookでシェア数が20個以上獲得したページのタイトル文のみに限定しました。
2012年までのタグクラウドです。
この期間のサンプル数が少ない為、出現頻度が高いキーワードのバリエーションも少ないですが、殆どが「画像集」と「twitter」の2つで占められている事が分かります。
Naverまとめのユーザー数、投稿数が増加し、タイトル文に含まれるキーワードのバリエーションや「工夫」の痕跡も見えてきました。
「画像集」は相変わらず王道のテーマや惹きつけ語であるようですが、新しい単語も見えます。
例えば更新性を強調する「随時更新」や、その記事を継続的に見る・保持する事を勧める「保存版」といったキーワードがあります。
一瞬のエンターテイメント性をもった記事以外にも、継続的に情報性がある内容を扱う・保持する記事も出現してきた事が見受けられます。
又、「作り方」や「使い方」の出現を見ると、Tip系記事やノウハウ系記事もテーマとしては良い様です。
ユーザー関心を惹きつけるワードとしては「衝撃映画」、「地獄絵図」、「危険性」、「批判殺到」、「流行中」、「最新情報」、「急増中」などが多用されていますね。
タイトル文の文字数
年ごとにタイトル文の文字数平均値をグラフ化してみました。
2012年まで25文字で推移していましたが、2013年から+5文字の30文字前後まで増えています。
当然、今回の調査サンプル数が2013年以降多い事もあるのでなんとも言えませんが、2013年以降から記号や「保存版」「衝撃」などの惹きつける単語が多用され始めたのも、少なからずこの「+5文字の増加」に影響しているでしょう。
■□
上記結果を見る限りシェアを得る記事は、すでに存在・発生している人々の興味関心を追って、画像や情報をまとめる事がアクセス数の獲得には一番手っ取り早いのでしょう。
ただし、サービスの認知度が高まり、サービス自体の成熟度も高まっている現在、まとめ記事が重要な情報元として役割を果たしつつあります。以前はAllaboutやnanapi.jpが得意としていたノウハウ系やTips系記事も、Naverまとめ内でも記事数が増え、ソーシャルメディアでも反響を得ています。
最後に
今回は精度高い分析は出来ておりませんが、ちょっとした分析を行っただけでも、そのWebサイトのキーワードバリエーションの増加や拡散されやすい話題やテーマを把握できました。
最近はSaaS型のクローラーサービスが数ドルから利用でき、統計ソフトも無料で公開されていますので、ちょっとしたテキストマイニング系分析に触れられたいという方は試してみてはいかがでしょうか。
参考:
・The R Project for Statistical Computing
・wordcloud: Word Clouds
・クローラーサービス 80legs