Mar 10, 2005

Google Searchとの最近の戦い

このサイトにはGooglebotがクロールに来てくれません。クロールに来てくれるまで私とGoogle Searchとの戦いは続きます。これまでの戦歴は下記を参照のこと。

Ogawa::Buzz: Google Searchとの戦いの日々

簡単に経緯を説明すると、一年ほど前に某サーバーからロリポップ(hassaku.main.jp)に、半年以上前にhassaku.main.jpからas-is.netにドメインを変更し、変更のたびにリダイレクトしていたのですが、これがスパミング行為と取られたか、いろいろ手を尽くしてもas-is.netの方にはGooglebotがクロールに来てくれません。リダイレクトしていても一向に変化がないので旧ドメインへのアクセスはフェイルするようにしていますが状況は変わらず、旧ドメインの古いデータがキャッシュされている状態が続いていて結構不愉快です。

2月27日

404エラーなどでロリポップのエラーページに誘導されるのを停止させてみました。Yahooなどにこのエラーページがキャッシュされている例が見られたためです。徹底的にシンプルにするために以下のように.htaccessに設定してみました。

ErrorDocument 400 "400 Bad Request
ErrorDocument 401 "401 Unauthorized
ErrorDocument 403 "403 Forbidden
ErrorDocument 404 "404 Not Found
ErrorDocument 410 "410 Gone

さらに、旧URL(hassaku.main.jp)に関して残っているキャッシュ情報を削除するためにrobots.txtを作ってすべてのページのクロールを禁止しました。ただし、このrobots.txtは旧URLからアクセスしたときには読め、現URLからアクセスしたときには読めないように.htaccessには以下のように記述しました。

RewriteEngine on
RewriteCond %{HTTP_HOST} ^(hassaku\.main\.jp)(:80)? [NC]
RewriteRule !^robots\.txt$ - [G,L]
RewriteCond %{HTTP_HOST} ^(as-is\.net)(:80)? [NC]
RewriteRule ^robots\.txt$ - [G,L]

これで旧URLに関して残っているキャッシュ情報はいずれ削除されるはずということになります。

3月4日

いずれというのも心許ないので、Googleの自動URL削除システムを使ってみることにしました。このシステムでは(1)robots.txtファイルを使用して個々のページ、サブディレクトリ、画像を削除する、(2)メタタグを使って1ページだけを削除する、(3)無効なリンクを削除する、のいずれかの方法が採れます。ひとまず、(1)の方法で旧URLのキャッシュを削除するように申請してみました。

翌日には削除されました。…だからってクロールに来てくれるわけではありませんが。しかも旧旧URLでのキャッシュが10件分残っているようでこれも消す必要があるのでしょう。しかもGoogle 検索: site:as-is.netとかしてみると、旧旧URLでのキャッシュが10件分見られますが1560件ヒットしているという訳の分からなさ加減です。インデックスの再計算が必要なのかしら。

3月10日

キャッシュされている旧旧URLのデータを削除するべく、(3)の方法で一個ずつURLを指定してやりました。本当に10件だけだとよいのですけど。1560件は無理です。

あと2月27日にやった方法だとas-is.netでrobots.txtを設定できなくなってしまうことに気が付いてしまいました。なので、robots.txtには以下のように記述。

<?php
header('Content-type: text/plain');
if (!strcasecmp($_SERVER['SERVER_NAME'], 'hassaku.main.jp')) {
 echo <<<EOD
User-agent: *
Disallow: /
EOD;
} else {
 echo <<<EOD
User-agent: *
Disallow: /mt/
EOD;
}
?>

.htaccessは↓のように設定。

<Files robots.txt>
AddType application/x-httpd-php txt
</Files>

3月14日

やっぱり(1)の方法でざっくり消してやることにしました。即日反映されました。Google 検索: site:as-is.netとしても何も表示されなくなりました。が、Google 検索: ogawa site:as-is.netすると、blogpeopleのキャッシュとともに「約1,620件」と表示されます。…増えとるがね。

でも勝利は目前のような気がしてきました。


4月18日

目前のような気がしていましたがまだまだでした。今日、Google 検索: ogawa site:as-is.netしてみると何も表示されなくなりました。インデックスが更新されたことは確かですね。しかし…。

ちなみにこのブログ、Inktomi SlurpやMSN Searchbotにはえらく気に入られているらしいのです。

About Me

My Photo

つくばで働く研究者

Total Pageviews

Amazon

Copyright 2012 Ogawa::Buzz | Powered by Blogger
Design by Web2feel | Blogger Template by NewBloggerThemes.com