Webクローラからのアクセスをサイト内全てのページに対して拒否したい場合

asimo


めもめも。

Webサイトのドキュメントルートに"robots.txt"を設置して、以下の記述を実施。

User-agent: *
Disallow: /


例外的に許可したいページがある場合は、Allowを使って記述したり、そのページのMETAタグに以下を記載しておけばいい。

User-agent: *
Disallow: /folder1/
Allow: /folder1/myfile.html

とか、

<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="none">


# ちなみにGoogleだけで5種類もbotがいるんですね・・・初めて知った。

参考

Google ウェブマスター向けヘルプ センター - Googlebot をブロックまたは許可するには
http://www.google.co.jp/support/webmasters/bin/answer.py?answer=40364&topic=8846
百度 - ヘルプセンター - 検索全般について(利用環境について)
http://help.baidu.jp/system/04.html#on