はてなブックマーク数の多いツイートtop200件
こちらのエントリーで、
はてブのメタデータの価値が恐ろしいので、twitter で人気のはてブランキングを可視化してみたら想像以上だった。 - くるえるはてなくしょん
Twitterの投稿ではてなブックマーク数の多い順に並べているのですが、200users以上のブックマークもあるはずなのに記事には掲載されていません。これは はてなブックマークの仕様上、古いブックマークが反映されていないためなんですが、説明がややこしいのでそれについては後で書くとして、本来のランキングはどうなのかを調べてみました。
とりあえずブックマーク数の多い順に200件。
ベスト200
はてなブックマークの仕様と対策
はてなブックマークには、指定したURLでの人気のブックマークを調べられる機能がありますが、これには負荷軽減のために制限が加えられています。当時はてなブックマーク開発担当だったid:naoyaさんはこう解説されていました
http://naoya.g.hatena.ne.jp/naoya/20090208/1234048573
http://naoya.g.hatena.ne.jp/naoya/20090208/1234048573
- URL がルートドキュメントだった場合 (例: http://www.example.com/) → top K で処理 (現在 K = 10,000)
- URL がルートドキュメントでない場合 (例: http://d.hatena.ne.jp/naoya/) → 全件処理
どういうことかというと、
Twitterでの人気エントリーを調べたとき、
http://b.hatena.ne.jp/entrylist?sort=count&url=http://twitter.com/
この形式では、最もブックマーク数の多いはずの
Mochio Umeda on Twitter: "はてな取締役であるという立場を離れて言う。はてぶのコメントには、バカなものが本当に多すぎる。本を紹介しているだけのエントリーに対して、どうして対象となっている本を読まずに、批判コメントや自分の意見を書く気が起きるのだろう。そこがまったく理解不明だ。"
がヒットしません、というのもこれは2008年11月と古いツイートであるため、抽出の対象外になってしまうんですね。……ではどうすればいいか、というと
http://b.hatena.ne.jp/entrylist?sort=count&url=http://twitter.com/m
とルートドキュメントに1字足せば全件から抽出が可能になります。ただこれだと当然、頭文字がmから始まるユーザー名しか分かりません。
……そういうわけで、調べる方法としては
- http://b.hatena.ne.jp/entrylist?sort=count&url=http://twitter.com/a
- http://b.hatena.ne.jp/entrylist?sort=count&url=http://twitter.com/b
- http://b.hatena.ne.jp/entrylist?sort=count&url=http://twitter.com/c
- http://b.hatena.ne.jp/entrylist?sort=count&url=http://twitter.com/d
- http://b.hatena.ne.jp/entrylist?sort=count&url=http://twitter.com/e
と1字ずつそれぞれのページを調べていけばいいわけですね。Twitterの場合、ユーザーアカウントに使えるのはアルファベット*1と数字、それとアンダーバーなのでそれらのページを全て調べれば完了です。
追記
例えばニコニコ動画で人気の動画を調べる場合などは
http://b.hatena.ne.jp/entrylist?sort=count&url=http://www.nicovideo.jp/
とやってしまうと同様に対象件数が限られてしまいます。動画ページは
www.nicovideo.jp/watch/([sn]m)?[0-9]+
という形式(たぶん)なので*2
http://b.hatena.ne.jp/entrylist?sort=count&url=http://www.nicovideo.jp/watch/
とするとよかです。
><