株式会社ミクシィは2011年8月31日、企業や個人が無料でmixi上にページを作成できる「mixiページ」の提供を開始したが、robots.txtやMETAタグによるnoindexなど、検索エンジンクローラのアクセスを除外する設定にしていた件で9月2日、説明の文書を公開した。
ミクシィによると、サービス開始直後に想定されたサーバ負荷を考慮して、mixiページへの流入量をコントロールした結果、検索エンジンにヒットしない仕様にしていたという。9月2日13時時点で「8万以上のmixiページが作成され、当初の想定を超えたアクセス」があるとのことだ。この発表の後にクローラーがアクセスできるように修正され、robots.txt や noindex などの記述が削除されている。
Googleで「site:http://page.mixi.jp/public/」と検索すると、5日早朝5時時点で3,390件のページが検索結果にヒットすることを確認している。なお、mixiページのトップページのみが検索対象となっており、それ以外のカテゴリや個別のページはクローリングが行われていない模様。
mixiページを紹介する「mixiページナビ」では、最初に「検索にヒットする」ことをアピールしている。
mixiページのインターネット公開について
http://pr.mixi.co.jp/2011/09/02/mixipageurl.html
#
単純に忘れていたんじゃないかという指摘もありますが、(ミクシィ程度の規模なら)最初の段階でアクセスコントロールすることはありますし、robots.txt でブロックしておくこともないことはないので、きっと単純にアナウンスが遅れただけなんじゃないかと解釈しています。
が、しかし。「検索にヒットする」という特徴は、mixiページのトップページが検索対象を売りにしている(という程度の)ことという理解でよいのでしょうか。個別の詳細はここでは控えさせて頂きますが、もしトップページ以外の、全体がウェブ検索からアクセスできるという前提であるならば、ちょっと仕様的な残念感が・・・。
あと、2日13時時点で8万ものmixiページが作成されているなら、もうちょっとGoogleでヒットしても良さそうな気もしますが、こんなアーキテクチャでは無理もありません。一例を挙げると、
たとえば http://page.mixi.jp/view_page.pl?page_id=2473
をアクセスすると、http://mixi.jp/issue_ticket.pl?openid.mode=checkid_immediate&openid.assoc_handle=(長いので省略)%3Fpage_id%3D2473 へ、302リダイレクト、さらに http://page.mixi.jp/view_page.pl?page_id=2473&openid.mode=id_res&openid.user_setup_url=(長いので省略) ともう一度 302リダイレクトした上で、http://page.mixi.jp/public/recent_page_feed.pl?page_id=2473 に移動します。
つまり、公開用URLから2度の302リダイレクトを踏む仕様となっているわけです。