サーチコンソールでのWordPress管理画面URLクロールエラーを解消する方法

対応をGoogle先生で検索をしてみたところ、下記の情報が見つかりました。
お客さまで対応できない場合は、下記の対策を実施してみたいと思います。

https://11874.click/google-403-crawl-error

サーチコンソールの『403クロールエラー』を修正する方法

2019/4/14 seo

今回は、Google Search Console(サーチコンソール)での 403クロールエラー の解決方法を紹介します。

ワタシはWordPressのブログで新規記事を投稿すると、いち早くGoogleの検索エンジンにインデックスされるように、サーチコンソールのFetch as Googleからリクエストしていますが、ある時いつものようにサーチコンソールを眺めていると、何やら異変を発見しました。

「アクセスが拒否されました」

アクセスを拒否などしたこともないし、そもそもアクセスを拒否する方法も知らないので、何の事だろうと『クロールエラー』をクリックしてみました。すると、2つのURLがエラー欄に表示されており、レスポンスコードには『403』と書かれていました。

エラーのURLをクリックしてみると、何やら警告的な事が記されていました。

Googlebot はサイトの URL をクロールできませんでした。サーバーでページのアクセスに認証が必須となっているか、Googlebot によるサイトへのアクセスがブロックされていることが原因です。

アクセスが拒否されているURLを調べてみると、WordPressの管理画面のログインページでした。どうやらGoogleの検索クローラーが、間違ってWordPress管理画面にアクセスしたみたいですね。そこでIDとパスワードを求められたので、そこから先へは進めずに、403エラーが返されたみたいです。

ではいったいこの『レスポンスコード403』とは何を意味するのでしょうか？

目次 [非表示]

Search Consoleの403エラーとは？

403のような3ケタの数字は、HTTPステータスコードと呼ばれるもので、100番台～500番台まで存在しています。

100番台	情報(Informational)
200番台	成功(Success)
300番台	リダイレクション(Redirection)
400番台	クライアントエラー(Client Erro)
500番台	サーバーエラー(Server Error)

今回のエラーは403です。

403エラーとは

立ち入り禁止を意味するコード。CGIプログラムが置かれていたり、管理者以外アクセスが出来ない場所。部外者のアクセスは不可。

どこをどう間違ったのか、WordPressの管理画面にまでクロールしてくることはないと思いますね(笑)。しかしいつまでも403エラーを放っておくとSEO的にも影響があるかもしれないし、なんとなく嫌な気分になりますね。そこでこの403クロールエラーを解決していく事になりました。

エラーを取り除いてやるのは良いのですが、どうするのか全く分からないので、ネットで検索してみると、あまりHitしませんでしたが、こちらのサイトにそれらしき件について書かれていたので参考にしたところ、robots.txt なるものを作成すれば良いと書かれていました。

robots.txtとは何か？

txt(テキスト)形式という事は、何かしらのファイルだとは理解できますが、robotsというのは何なんでしょうね？

robots.txtとは

Googleなどのロボット型検索エンジンのクローラーのアクセスを制御するためのファイル。

robots.txtは下記の様な場合に使用します。

1	自分のサイトを検索エンジンに乗せたくない時
2	同じ内容のコンテンツが複数あり検索エンジンに重複コンテンツ扱いされるのを防ぐため
3	訪問者にとって価値のないペラペラのページ

403クロールエラーを回避するためのrobots.txtの作成方法

メモ帳があれば簡単に作れるので、実際にrobots.txtを作成していきましょう。まずは、メモ帳を開いてファイル名を「robots.txt」に変更しておきます。

robots.txtの基本の形はこの様になります。

User–agent: *

Disallow: /wp–admin/

Sitemap: http://example.com/sitemap.xml

User-Agent

『User-Agent』は、どのクローラーを制御するかを記入します。

全てのクローラー	User-Agent: *
Googleのクローラー	User-agent: Googlebot
Google画像検索のクローラー	User-agent: Googlebot-Image
Bingのクローラー	User-agent: bingbot
複数のクローラー	User-agent: Googlebot User-agent: bingbot

基本的に、全てのクローラーを対象にするので「*」(アスタリスク)で良いと思います。

Disallow

『Disallow』の意味を調べてみると『許可しない』という意味で、サイト全体を許可しない様にするには『/(スラッシュ)』を入力ます。

今回は、WordPressの管理画面のクロールをを許可しない事が目的なので、『Disallow: /wp-login.php』と記入する事になります。

Sitemap

robots.txtでは、Sitemapの場所も知らせる事が出来るので、ついでに記入しておきます。

『sitemap: https://11874.click/sitemap.xml』

最終的にはこんな感じになりました。

User–agent: *

Disallow: /wp–login.php

Disallow: /wp–admin/

sitemap: https://11874.click/sitemap.xml

これを先ほどのメモ帳に貼り付けてやります。

メモ帳に貼り付けたrobots.txtファイルを、public_htmlがある階層にアップロードします。

robots.txt テスターで確認する方法

robots.txtが上手く動作しているか、サーチコンソールのrobots.txt テスターで確認していきましょう。サーチコンソールのダッシュボードから『クロール』⇒『robots.txt テスター』と進みます。

『robots.txt テスター』のページ右下にある『送信』をクリックします。

次に、『Googleに更新をリクエスト』をクリックします。

しばらくしら、robots.txt テスターのページを更新してみると、『Disallow: /wp-login.php』が追加されていました。

念のために『wp-login.php』がブロックされているかどうかテストするために、URLを貼り付けます。

テストボタンを押してみると、しっかりとブロックされていました。

以上でrobots.txtの設置は完了です。

まとめ

今回は、サーチコンソールの403クロールエラーを robots.txtファイル を使って修正してみました。

やり方自体はそう難しくはありませんでした。しかし、サーチコンソールでエラーがあるとドキッとしますね(笑)。これで403クロールエラーが無くなってくれれば良いのですが…。

もう少し様子を見るしかないですね。