スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

はてブで遊ぶ(2) -ブックマーク数の統計をとってみる-

前回に引き続き、はてブのあれやこれやを調べてみます。

今回は、ブックマーク数の頻度を調べます。すなわち、あるブックマーク数を稼いでいるエントリが何個あるかを調べます。ブックマークされるページのうち、ホットエントリ入りするなどしてブックマークを稼ぐページはほんの一握りで、大多数のページはブックマークをほとんど獲得できていないと予想されます。その分布の様子がどうなっているか、実際に見てみようという目論見です。

ブックマークされている全ページから、20000ページをランダムに選択し、ブックマーク数とその頻度を調べてみました。結果が次のグラフです。横軸にブックマーク数、縦軸に頻度(というか、記事の個数)をプロットしました。なお、両対数プロットにしてあります。

random20000.png

すると、どうやら、記事の頻度はブックマーク数の-2乗に比例するようです。少なくとも、ブックマーク数30以下の記事に対しては、それがあてはまるようです。またべき乗か、このべき乗脳が!とか自分に言いたくなりますが、やっぱりそれなりにべき乗となっているように見えるのです。

一つ気になるのは、高ブックマーク側で、データがべき乗から大きくずれているように見えることです。単純に考えると、数百以上の莫大なブックマークを稼ぐ超人気エントリは、べき乗則が予想するよりも高確率で生成される、ということになります。もしかすると、ホットエントリー入りしたエントリーが、爆発的にブックマークを稼ぐ効果が見えているのかもしれません。

これが本当だったら面白いのですが、さすがにこのばらつきではそこまで言いきれない気がします。またこの結果は、ブックマーカーの母集団の変動を全く考えていません。そのあたりの効果もちゃんと補正しないと意味のあることは言えないでしょう。

解析手法
今回のミソは、ブックマークされたすべてのページの中から、ランダムにページを選ぶやりかたです。
実は、はてブに掲載された記事には、それぞれeidと呼ばれるIDが振られています。例えば、eidが398のページのブクマコメントは、次のURLで取得できます。
http://b.hatena.ne.jp/entry/398
最新の記事では、eidが16000000台です。そこからランダムに20000個の数字を選び、上記のようなURLにアクセスしてブックマーク数の情報を調べています。

関連記事

備忘録さんのところで、より詳細な分析が行われていました。
備忘録: 「はてなブックマーク」はべき乗則に従っているのか調べてみた
サンプリングの対象を変えると、べき乗の指数どころか関数形まで変わってしまうようです。面白いです。

トラックバック


この記事にトラックバックする(FC2ブログユーザー)

「はてなブックマーク」はべき乗則に従っているのか調べてみた

自然現象の至る所でべき乗則が見られることはよく知られています。 自然現象だけでなく人間社会やネットの世界でも同様のべき乗則が観測されています。 たとえば資産の分布やリンク構造でも成り立つことが知られています。 ところで、小飼弾氏のブログの記事「四万はて

コメントの投稿

非公開コメント

プロフィール

null

Author:null
二次元眼鏡少女に蔑まれたいです。

最近の記事
最近のコメント
最近のトラックバック
タグ

考察 統計 ネット 複雑ネットワーク 自然科学 二次元 幼女 エロゲー ネタ アニメ 百合 時事ネタ 計算 igraph R 

月別アーカイブ
カテゴリー
あわせて読みたい
あわせて読みたいブログパーツ
ブログ内検索
カレンダー
05 | 2017/06 | 07
- - - - 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 -
RSSフィード
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。