機能3:クロールエラー
「クロールエラー」 はGoogleのクローラー(Web上を巡回し、ページの情報を収集するプログラム)が発見したサイト上のエラーを知らせてくれる機能です。
必ずしも対処しなければならないものばかりではありませんが、問題があれば対処し、クローラーがスムーズに情報を収集できるようサイト内環境を整えることが望ましいです。
参考:【初心者向け】クローラビリティを改善し、サイトのコンテンツを検索エンジンに正しく発見・認識させる
http://www.seohacks.net/blog/crawl_index/searchengine-crawlerability/
ここで知ることのできる情報は主に以下のとおりです。
- どのURLからどのようなエラーが返ってきたか
- クローラーがそのURLからエラーを最後に検出した日付
- 対処すべき優先度(Googleからの提案、自動判断)
検出されるエラーはさまざまであり、対処すべきものもそうでないものもあります。それぞれの意味を把握し、適切な対応をできるようになりましょう。ここでは、以下で代表的なエラーを確認していきます。
参考:よく見るHTTPステータスコード一覧とその意味を理解する
http://www.seohacks.net/blog/crawl_index/http_statuscode/
「サーバーエラー」(500番代エラー)
「サーバーエラー」(500番代エラー)はその名の通り、サーバー内部で何かしらのトラブルがあってページ情報が取得できないパターンです。
「レスポンスコード」の欄で示されている数値が「500」であればInternal Server Error=サーバーの不具合や処理ミスを意味します。
一方、「503」であればService Unavailable=サーバー負荷などによる一時的なアクセス不能を示します。
このようなサーバーエラーが起こるのは何かしらサーバー内の設定がおかしかったり、サーバースペックが足りず処理に時間がかかってしまっていたりするパターンが多く、ユーザーにも悪影響をおよぼす可能性が高いです。
このエラーを発見した場合は、できるだけすみやかに対処するのが望ましいでしょう。
「見つかりませんでした」(404エラー)
「見つかりませんでした」(404エラー)は、おそらくほとんど全てのサイトで発見されるエラーです。クローラーが当該URLに対してアクセスを試みたものの、サーバーより「そのページは存在しないよ」と返されたものを記録しています。
これはURLエラーとして報告されますが、404エラーによって直接順位低下などのマイナス影響が発生することはありません。なぜなら404エラーは普通にサイトを運営していれば必然的に発生するものであり、それ自体は何らユーザーに悪影響を及ぼさないためです。
例えば「これまで表示していたページが方針の変更で不要になったために削除した」などのことはごくごく当たり前に起こることで、それを検索エンジンが発見するのも当然だからです。通常のサイト運営で当たり前に発生することに対してマイナス評価を下すようなことを、Googleはやろうとしません。
ただしもちろんリンク切れが起こっていたり、削除した覚えのないページが消えていたりするのは問題なので、念のためどのページでどのように404エラーが検出されているのかは把握しておいたほうがいいかもしれません。
ソフト404エラー
これはちょっと聞き慣れない方も多いかもしれません。ソフト404エラーは、「ほとんど404ページと同じ意味だと判断されているけれどレスポンスコードは200が返ってきている」という状況です。
ページ上では「お探しのページは見つかりませんでした」などと表示されているのに、検索エンジンやブラウザには「そのページは存在しますよ」と返ってきている状態。これにGoogleが気づいて教えてくれるのが「ソフト404」です。
このようなページ(コンテンツが存在しないはずのURL)で、デベロッパーツールなどを使ってレスポンスコードを確認してみましょう。
以下のページのように“404 NotFound”が返ってきていればOKですが、“200 OK”と表示されているとソフト404になっている状態です。
(↑LIGのサイト上で、存在しないURLを打ち込んでみよう!)
このソフト404は、少なくともGoogleはそのURLを404ページと同等に扱っていることを示します。すなわち、報告されたソフト404ページに関しては404ページ同様マイナスになることはありません。
しかし、本当は見せる必要のない空っぽのページなのに「ページがありますよ」ということを検索エンジンに伝えているということであり、無駄なクロールを発生させる原因となります。また、ソフト404として判断されていればまだマシですが、ただ単純に代わり映えのしない中身の薄いページが大量に存在しているとみなされてマイナス評価を受けてしまう可能性があります。
サイト全体でみたときにソフト404が検出されている状態というのは不健全なので、いらないページで200を返すようになってしまっていないか、きちんと確認するのがいいでしょう。