コンタクト
居住地: Japan 大阪府
年齢:40過ぎ・・・
持病:腰痛・鬱病・・・
体系:ダイエット中(基本:デブ男)
その他:サンタさんから貰いたいプレゼント・・・「サンタさんからウイ(Wii)かDSがもらえますように」
[2007年7月 8日 (日)の記事参照]
自己紹介文
鉄道と競馬好きなボクの諸々について。
キャロットクラブの一口馬主をしています。馬はオンシジューム、マルティンスターク。
某マンション管理組合の理事をしています。
大阪府在住。
興味のあること
鉄道、競馬、マンション管理人
[記事内容の抜粋]・・・
Baidu検索エンジンについて
Baidu検索エンジンについて
Baidu.jpの「ウェブ検索」は、Baiduspiderと呼ばれるスパイダープログラムを利用してページの情報収集を実施しております。
ウェブ検索の結果は、Baiduspiderの収集情報の結果を、自動的にデータベースに登録し、関連クエリにより表示されます。
BaiduspiderはサイトのHTML中の「HREF」に指定されるURLリンクをたどって、情報収集、データベースに収集情報を登録のを実施して行きます。また、フレームページなどを作成するときに使用される「SRC」によって指定されたリンクは、BaiduSpiderによってたどれないため、データベースに登録されません。
Baiduspiderのほかに、いくつかのクローラーがありますが、これらからのアクセスを禁止したい場合は、御手数ですが、webmaster-jp@baidu.com宛までご連絡ください。
Baiduspiderとは
Baiduspiderは、Baidu検索エンジンの自動プログラムです。Baiduspiderはインターネット上のHTMLページにアクセスし、インデックスデータベースを作成し、Baidu検索エンジンの検索結果にユーザが閲覧したいページを表示させます。
Baiduspiderは、インターネット業界のrobotsルールを遵守しております。robots.txt を利用し、Baiduspiderがサイトの全部または一部へのアクセスを禁止することができます。Robots.txtの書き方について、別ページ「robots.txtの書き方」をご参照ください。又、Baiduspider はMETAタグを利用して、アクセス制御を実現できます。別ページ「METAタグを利用したアクセス制限について」をご参照ください。
Baidu検索エンジンは毎週更新を実施しております。ページの重要度により、更新頻度は数日間から1ヶ月間に変わります。
Baiducheckerとは
BaiduCheckerは、各ウェブサイトへのアクセス頻度として、既存のSpiderと比べて変わりはありませんが、毎回チェックする際にHEAD技術を採用し、ウェブサイトに与える負荷を平均数百バイト程度と、かなり小さく抑えることが出来ます。これによって、BaiduCheckerは、各ウェブサイトサーバの資源および通信容量に対して、あまり負荷をかけずに、より有効にHTTP協議を利用して、きわめて少ないトラフィックで、既に存在しないウェブページを検出することが出来るようになります。
「検索エンジンスパム」とは
「検索エンジンスパム」とは、検索キーワードと十分な関連性がないにもかかわらず、意図的に検索結果に表示されるように操作をしているページを指します。 以下が、Baiduで定義する検索エンジンスパムの例です。
1) 検索する利用者をほかのページに転送するためだけに存在するページ
2) ほかのページとまったく同じ内容で作られたページ
3) 情報をほとんど公開していないにもかかわらず、自動的かつ大量に作られているページ
4) 検索エンジンが付与する表示順のランクを不正に上昇させているページ
5) 検索する利用者に見えないテキストを使っているページ
6) 過度な相互リンクを行い、サイトの認知度を不自然に上昇させているページ
7) 検索エンジンの検索結果に表示されている内容と利用者が目にするページの内容が異なるページ
8) 検索エンジンのために作られたページ
なお、検索エンジンスパムに該当すると判断されたサイトは、データベースから随時削除されます。
ASP、shtml、PHPなど、自動的に生成されるURLは登録されますか
検索エンジン用ロボットがページを探すときにたどるのは、主に静的リンクです。 ASP、shtml、PHPなど自動的に生成されるURLは登録されない可能性があります。データベースに登録されるためには、動的に生成されたリンクを利用しないことをおすすめします。
検索エンジン用ロボットからのリクエスト数を制限するには
Baidu検索エンジンはウェブ全体から何十億ものページを巡回し、データベースに登録するため、複数の検索エンジン用ロボットを使っています。このためあなたのウェブサーバーに、異なるIPドレスからBaidu検索のロボットがアクセスしているという記録が残る可能性がございます。
・複数の検索エンジン用ロボットが巡回する際、1台のサーバーへのリクエスト数は 制限しています。しかし、1台のサーバーに複数のIPアドレスが割り当てられていると、複数のサーバーと認識され、リクエスト数が増加する場合がございます。
・検索エンジン用ロボットは、一度巡回する際に、各サイトからURLのファイルを1つずつダウンロードします。ただし、ロボットが停止したり、再起動した場合、すでに取得したページを再度巡回し直すため、リクエストが連続してしまうことがございます。
リクエスト数を減らすにはアクセス間隔によって問題が生じている場合、検索エンジン用ロボットのアクセス間隔の設定を、サーバーの環境に合わせて設定してください。「robots.txt」をウェブサーバーに置き、"Crawl-delay: xx"の"xx"を調整すると、アクセス間隔を伸ばせます。詳細は「robots.txtの書き方」をご参照ください。
検索エンジン用ロボットが削除したページを巡回し続けるときは
削除したURLのページにアクセスしたときに「HTTP 200」のステータスを返すようにサーバーが設定されている場合、検索エンジン用ロボットは削除されたページと認識できず、そのURLにアクセスし続ける可能性がございます。
存在しないURLにアクセスしたときは、「HTTP 404」のステータスを返すようにサーバーを設定してください。
|