Nov 16, 2004

Google Searchとの戦いの日々

MSNサーチ(beta)なんですが、今のところメンテ作業がたびたびあるものの、実際のところ悪くないんじゃないかと思います。「ogawa」「memoranda」で検索するとこのページがトップに表示されるという意味ではむしろ良いのかもしれません。うちのサイトにも熱心にクロールに来てくれますので、全文検索をMSNサーチ(beta)に任せてもよいくらいにキャッシュされています。

正直Google Searchはもう飽きました。もう何万回検索したか分かりませんが、日常的に使い続けているせいで「もしかして」機能のようなサプライズがないとトキメキを感じられません。インデックスが多いというメリットより、デッドリンクが多いというデメリットを最近では強く感じてしまいます。80億ページとか喜んでいる場合じゃないですよ(>中の人)。何らかのロジックでデッドリンクを排除しているはずですが、有効に機能していない気配があります。

しかも(実はここからが本文)、どういうロジックなのだか、7月末(Ogawa::Buzz: 独自ドメイン取ってみました)から3ヶ月以上が経とうというのにas-is.netにはクロールに来てくれず、hassaku.main.jpに相変わらずクロールに来ます。前者へのリンク数の方が今では遥かに多いと思うのですが。また、ときどきはサイトの登録 / 削除から登録してみたりもしています。ひょっとして「as」と「is」が検索除外語だからとか変なロジックが入ってはいまいかと要らぬ憶測をしてしまうほどです。

8月初旬

当初私は「.htaccess」に↓のように書いて素朴にRedirectさせていました。

RewriteCond %{HTTP_HOST} ^(hassaku\.main\.jp)(:80)? [NC]
RewriteRule ^(.*)$ http://as-is.net/$1 [L,R=permanent]

この方法でRedirectするとURLのユニフィケーションが機能してしまって新URLへのクロールが起きないらしい話も(真偽のほどは怪しいものの)ちらほら見かけます。でもそれってロジックが逆では? とも思うのですが、でも確かに待てど暮らせどクロールに来てはくれないのでした。

9月頃

次に試してみたのは、↓みたいな感じでリダイレクト用のCGIに投げるようにするというものです。リダイレクト先ではNOFOLLOW, NOINDEXを指定したり、titleを工夫したりしてさまざまなバリエーションを試みましたが、これも駄目でした。短期間にいろいろ試しすぎたかもしれません。

RewriteCond %{HTTP_HOST} ^(hassaku\.main\.jp)(:80)? [NC]
RewriteRule ^(.*)$ http://as-is.net/redirect.cgi?$1 [L,R]

10月

そろそろ業を煮やしてきたので、↓のようにしてみました。つまり、旧URLにアクセスしてきたのは全部「403 Forbidden」です。新しいURLへの誘導もしてやりません。

RewriteCond %{HTTP_HOST} ^(hassaku\.main\.jp)(:80)? [NC]
RewriteRule ^.* - [L,F]

うちにGoogle経由で来てくれる人というのは、「検索して旧URLが引っかかり、一旦アクセスしてみたものの403 Forbiddenを食らい、さらに検索ページに戻ってキャッシュ内にあるリンクをクリックしてくれた人」というとてもとても奇特な人、ひょっとしてファンですか? ということになります。それから一月、別にas-is.netにクロールに来るでもなく、hassaku.main.jpがキャッシュから消えるでもなくという状態です。

11月16日

この状態もナニかなーと思うので、最終手段として「410 Gone」を発動してみることにしました。ただ今回は少し誘導しましょうということでErrorDocumentも設定してあります。「403 Forbidden」のときに誘導しなかったのは「アクセス禁止にも拘らず誘導する」のに意味的な矛盾を感じたからで、今回の「ここのはなくなったので誘導する」というのはむしろ自然に感じられます。

RewriteCond %{HTTP_HOST} ^(hassaku\.main\.jp)(:80)? [NC]
RewriteRule ^.* - [L,G]
 
ErrorDocument 410 /error/410.shtml

で、/error/410.shtmlの中身は↓のような感じですね。これでしばらく(今度こそ)放置しようと思います。

<html>
<head>
<title>410 Gone</title>
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW">
</head>
<body>
<h1>410 Gone</h1>
<p>The requested URL was gone from this server.
The link on the referring page seems to be wrong or outdated.</p>
<p>The requested page will be found on: 
<a href="http://as-is.net<!--#echo var="REQUEST_URI" -->">
http://as-is.net<!--#echo var="REQUEST_URI" --></a></p>
<hr>
<address>as-is.net</address>
</body>
</html>

12月23日

とうとう、ErrorDocument 410 /error/410.shtmlを削除しました。hassaku.main.jp以下にアクセスするとすべて410 Goneとなり、しかも移動先も示されません。

About Me

My Photo

つくばで働く研究者

Total Pageviews

Amazon

Copyright 2012 Ogawa::Buzz | Powered by Blogger
Design by Web2feel | Blogger Template by NewBloggerThemes.com