Semaltは、Googlebotが一部のサイトのすべてのページをクロールしない主な理由を示しています

一部のサイトがGooglebotによってクロールされていないという苦情をクライアントから寄せられました。 SEOの専門家として、クライアントが満足し、サイトを最高の状態に保つことができるように、問題を見つけて修正することが私たちの仕事です。
GoogleのJohnMuellerが、サイトのページがクロールされる方法に影響を与えるいくつかの要因について説明しています。もちろん、これは具体的ではありませんでしたが、それは私たちを正しい方向に向けています。その投稿で、ジョンはサイトの一部のページがクロールされない理由も強調しています。
この回答を促した質問は、Googleが比較的遅いペースでウェブサイトをクロールした理由に関するものでした。これは、今日の膨大な数のウェブサイトを処理するには不十分です。
Googleクロール予算を理解する
これは、Googleがウェブサイトをクロールする頻度について多くのことを説明しているため、私たちが焦点を当てることを選択した最初の領域です。 Googlebot(GoogleのWebクローラーの名前)は、Webページを調べてインデックスを作成し、SERPでランク付けできるようにします。ただし、大量のWebサイトが問題になるため、Googleは高品質のWebページのみをインデックスに登録する戦略を考案しました。それを何らかの形のフィルターと考えてください。 Googleは、ユーザーに関係がない可能性が最も高いページにこれらすべてのリソースを費やすのではなく、高品質のWebページのみに焦点を当てています。
サイトのクロール予算は、Googleがそのサイトのクロールに費やすリソースの量です。クロールされるすべてのものがインデックスに登録されるわけではないことに注意することも重要です。 Webページは、クロールされて価値があると見なされた後にのみインデックスに登録されます。
クロール予算が使い果たされると、Googleはウェブページのクロールを停止します。
クロール予算の設定
Webサイトのクロール予算は、次の4つの主な要因によって決定されます。
- サイトサイズ: Webサイトが大きいほど、クロールの予算も大きくなります。
- サーバーのセットアップ: サイトのパフォーマンスと読み込み時間は、サイトに割り当てられるクロールバジェットの量に影響を与える可能性があります。すでに述べたように、サイトが優れているとクロール予算が増えるため、サイトのパフォーマンスが優れていると、クロール予算が増えます。
- 更新頻度: 定期的な更新とは、新鮮なコンテンツが定期的に流入することを意味します。 Googleは、定期的に更新されるWebサイトを優先し、より重要なクロール予算を提供します。
- リンク: あなたの内部のリンク構造とインバウンドリンクもあなたのウェブサイトが得るクロール予算の量に貢献します。
一部のコンテンツがWebサイトの所有者としてクロールされない場合に、なぜそれほど心配するのかは簡単に理解できます。これにより、特に最も価値のあるコンテンツが除外されている場合に、ランキングの可能性が低くなります。
クロールの問題を修正する方法
メタタグまたはrobots.txtファイルの問題を修正する
このカテゴリに分類される問題は、通常、簡単に検出して解決できます。場合によっては、Googlebotがそれらに入ることが許可されていないために、Webサイト全体またはWebサイト上の特定のページがGoogleに表示されないままになることがあります。
ページのクロールを防ぐボットコマンドは多数ありますが、これはメタタグとrobots.txtファイルを確認することで修正できます。適切なパラメータを用意し、それらを適切に使用することで、実際、クロール予算を節約し、Googlebotを正しい方向に向けることができます。
フォローしないリンクを持つことも可能です。この場合、クローラーはページにインデックスを付けますが、リンクをたどることはできません。 Googlebotはこれらの内部リンクを使用して新しいページを見つけるため、これはサイトにとっては良くありません。これは私たちを次のポイントに連れて行きます。
内部の壊れたリンク
リンク切れがあることは、ユーザーとクローラーの両方にとって決して良い経験ではありません。インデックスが作成されるすべてのページについて、サイトのクロール予算の一部が取り出されます。これを知っていると、壊れたリンクが多すぎると、ボットはそれらのインデックスを作成するすべてのクロール予算を浪費しますが、関連する高品質のページに到達しないことを理解しています。
壊れたリンクを修正すると、高品質のコンテンツがGooglebotに表示されやすくなります。
内部の壊れたリンクは、URLのタイプミス(ハイパーリンクされたURLアドレスにタイプミスがある場合)、古いURL、またはアクセスが拒否されたページの結果である可能性があります。
サーバー関連の問題
あなたのサーバーはまたGoogleが特定のページを見つけない理由である場合もあります。 Webサイトに大量の5xxエラーがある場合は、サーバーに問題があることを示している可能性があります。この問題を解決するために、エラーのある領域を再構成し、バグを修正します。
サーバーが過負荷になっている可能性があります。この場合、ユーザーとボットの要求への応答を停止します。これが発生すると、視聴者とボットはそのページにアクセスできなくなります。
極端な状況では、Webサーバーの構成ミスを確認している可能性があります。ここでは、サイトは人間のユーザーに表示されますが、サイトクローラーにエラーメッセージを表示し続けます。この問題は、気付くのが難しい場合があるため、非常に注意が必要です。この場合、Googlebotはウェブページにアクセスできないため、ボットがクロールしてインデックスを作成することはできません。
サイトマップXMLの問題
サイトマップは、Webサイトのさまざまな要素に影響します。サイトマップのURLを適切に保つことが重要です。それらは更新され、修正される必要があります。クロールの予算が不十分な場合、サイトマップはクローラーボットを最も関連性の高いサイトに誘導するため、これは重要です。そうすれば、最も重要なページが引き続きインデックスに登録されます。
Webアーキテクチャの間違い
これは、解決するのが最も難しい問題の1つです。このカテゴリに該当する問題は、Webサイトのクローラーをブロックまたは混乱させる可能性があります。内部リンクの問題という形で発生する可能性があります。または、間違ったリダイレクトの場合もあります。この場合、ユーザーとボットは関連性の低いページに転送されます。最後に、重複するコンテンツがあります。残念ながら、重複コンテンツは最も一般的なSEOの問題の1つです。これは、クロール予算が不足する主な理由の1つでもあり、Googleが一部のページをクロールするのが難しくなります。
結論
Googleは、コンテンツ関連の問題や、間違ったキーワードを最適化しただけでなく、コンテンツを見つけることができません。最適化されたコンテンツでさえ、クロール可能性の問題がある場合、Googleには見えないままになる可能性があります。