robots.txt はURLの後ろに「/robots.txt」を付けると見ることができます。
https://ドメイン/robots.txt
robots.txt ファイルはサイトのルートに配置されています。したがって、www.example.com のサイトでは、robots.txt ファイルは www.example.com/robots.txt にあります。robots.txt は、Robots Exclusion Standard に準拠するプレーン テキスト ファイルです。robots.txt ファイルは、1 つまたは複数のルールで構成されます。各ルールは、特定のクローラに対して、対象ウェブサイト内の特定のファイルパスへのアクセスをブロック(または許可)します。
設置する場所
WordPress+エックスサーバーの場合はここに設置します。
http://ドメイン/public_html/robots.txt
サブドメインにも設置してもOKですが、サブディレクトリへの設置は不要(設置しても認識されない)
このファイルはウェブサイトの最上位のディレクトリに配置する必要があります。
robots.txt の基本形
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://ドメイン/sitemap.xml
これの意味は「検索エンジンは許可するけどwp-adminの中は拒否。でも、wp-adminのadmin-ajax.phpは許可」「サイトマップはこちら」になります。
サーチコンソールのrobots.txtテスターを利用する
サーチコンソールで確認済のプロパティ(サイト)を選択します。
「送信」をクリック。
「ダウンロード」をクリック。
robots.txt がダウンロードされました。
コードを追記して上書き保存します。今回は「megalodon.jp の魚拓を robots.txt で拒否」してみました。
FTPソフトを使って、ドメイン/public_html/にアップロード。
サーチコンソールに戻って「アップロードされたバージョンを確認」をクリックしてファイルを確認したら、「送信」をクリックしてGoogleに更新をリクエストします。
「送信しました」とメッセージが表示されました。
robots.txt テスターをリロードします。もし、エラーが表示された場合は修正します。
念のため、下の方にある項目に「robots.txt」と入力→「テスト」をクリックして Googlebot などが拒否されていないことを確認します。
「許可済み」となっていれば完了!
他の記述例
検索エンジンを拒否するコードを書くと「robots.txtによりURLが制限されています」と表示されます。
User-agent: * Disallow: /
プラグイン情報を拒否。
Disallow: /wp-content/plugins
テーマ情報を拒否。
Disallow: /wp-content/themes
特定のファイルを拒否(例 PDF)
Disallow: /*.pdf$
特定のページを拒否。
Disallow: /スラッグ