サーチコンソールでのWordpress管理画面URLクロールエラーを解消する方法
対応をGoogle先生で検索をしてみたところ、下記の情報が見つかりました。
お客さまで対応できない場合は、下記の対策を実施してみたいと思います。
https://11874.click/google-403-crawl-error
サーチコンソールの『403クロールエラー』を修正する方法
今回は、Google Search Console(サーチコンソール)での 403クロールエラー の解決方法を紹介します。
ワタシはWordPressのブログで新規記事を投稿すると、いち早くGoogleの検索エンジンにインデックスされるように、サーチコンソールのFetch as Googleからリクエストしていますが、ある時いつものようにサーチコンソールを眺めていると、何やら異変を発見しました。
「アクセスが拒否されました」
アクセスを拒否などしたこともないし、そもそもアクセスを拒否する方法も知らないので、何の事だろうと『クロールエラー』をクリックしてみました。すると、2つのURLがエラー欄に表示されており、レスポンスコードには『403』と書かれていました。
エラーのURLをクリックしてみると、何やら警告的な事が記されていました。
Googlebot はサイトの URL をクロールできませんでした。サーバーでページのアクセスに認証が必須となっているか、Googlebot によるサイトへのアクセスがブロックされていることが原因です。
アクセスが拒否されているURLを調べてみると、WordPressの管理画面のログインページでした。どうやらGoogleの検索クローラーが、間違ってWordPress管理画面にアクセスしたみたいですね。そこでIDとパスワードを求められたので、そこから先へは進めずに、403エラーが返されたみたいです。
ではいったいこの『レスポンスコード403』とは何を意味するのでしょうか?
目次 [非表示]
Search Consoleの403エラーとは?
403のような3ケタの数字は、HTTPステータスコードと呼ばれるもので、100番台~500番台まで存在しています。
100番台 | 情報(Informational) |
---|---|
200番台 | 成功(Success) |
300番台 | リダイレクション(Redirection) |
400番台 | クライアントエラー(Client Erro) |
500番台 | サーバーエラー(Server Error) |
今回のエラーは403です。
403エラーとは
立ち入り禁止を意味するコード。CGIプログラムが置かれていたり、管理者以外アクセスが出来ない場所。部外者のアクセスは不可。
どこをどう間違ったのか、WordPressの管理画面にまでクロールしてくることはないと思いますね(笑)。しかしいつまでも403エラーを放っておくとSEO的にも影響があるかもしれないし、なんとなく嫌な気分になりますね。そこでこの403クロールエラーを解決していく事になりました。
エラーを取り除いてやるのは良いのですが、どうするのか全く分からないので、ネットで検索してみると、あまりHitしませんでしたが、こちらのサイトにそれらしき件について書かれていたので参考にしたところ、robots.txt なるものを作成すれば良いと書かれていました。
robots.txtとは何か?
txt(テキスト)形式という事は、何かしらのファイルだとは理解できますが、robotsというのは何なんでしょうね?
robots.txtとは
Googleなどのロボット型検索エンジンのクローラーのアクセスを制御するためのファイル。
robots.txtは下記の様な場合に使用します。
1 | 自分のサイトを検索エンジンに乗せたくない時 |
---|---|
2 | 同じ内容のコンテンツが複数あり検索エンジンに重複コンテンツ扱いされるのを防ぐため |
3 | 訪問者にとって価値のないペラペラのページ |
403クロールエラーを回避するためのrobots.txtの作成方法
メモ帳があれば簡単に作れるので、実際にrobots.txtを作成していきましょう。まずは、メモ帳を開いてファイル名を「robots.txt」に変更しておきます。
robots.txtの基本の形はこの様になります。
1
2
3
4
|
User–agent: *
Disallow: /wp–admin/
Sitemap: http://example.com/sitemap.xml
|
User-Agent
『User-Agent』は、どのクローラーを制御するかを記入します。
全てのクローラー | User-Agent: * |
---|---|
Googleのクローラー | User-agent: Googlebot |
Google画像検索のクローラー | User-agent: Googlebot-Image |
Bingのクローラー | User-agent: bingbot |
複数のクローラー | User-agent: Googlebot User-agent: bingbot |
基本的に、全てのクローラーを対象にするので「*」(アスタリスク)で良いと思います。
Disallow
『Disallow』の意味を調べてみると『許可しない』という意味で、サイト全体を許可しない様にするには『/(スラッシュ)』を入力ます。
今回は、WordPressの管理画面のクロールをを許可しない事が目的なので、『Disallow: /wp-login.php』と記入する事になります。
Sitemap
robots.txtでは、Sitemapの場所も知らせる事が出来るので、ついでに記入しておきます。
『sitemap: https://11874.click/sitemap.xml』
最終的にはこんな感じになりました。
1
2
3
4
5
|
User–agent: *
Disallow: /wp–login.php
Disallow: /wp–admin/
sitemap: https://11874.click/sitemap.xml
|
これを先ほどのメモ帳に貼り付けてやります。
メモ帳に貼り付けたrobots.txtファイルを、public_htmlがある階層にアップロードします。
robots.txt テスターで確認する方法
robots.txtが上手く動作しているか、サーチコンソールのrobots.txt テスターで確認していきましょう。サーチコンソールのダッシュボードから『クロール』⇒『robots.txt テスター』と進みます。
『robots.txt テスター』のページ右下にある『送信』をクリックします。
次に、『Googleに更新をリクエスト』をクリックします。
しばらくしら、robots.txt テスターのページを更新してみると、『Disallow: /wp-login.php』が追加されていました。
念のために『wp-login.php』がブロックされているかどうかテストするために、URLを貼り付けます。
テストボタンを押してみると、しっかりとブロックされていました。
以上でrobots.txtの設置は完了です。
まとめ
今回は、サーチコンソールの403クロールエラーを robots.txtファイル を使って修正してみました。
やり方自体はそう難しくはありませんでした。しかし、サーチコンソールでエラーがあるとドキッとしますね(笑)。これで403クロールエラーが無くなってくれれば良いのですが…。
もう少し様子を見るしかないですね。