こんにちはやぎちゃんです。私は今までに複数のサイトを運営していましたが、その運営していたサイトが多すぎて管理が難しくなったので、サイトを一つにまとめようと考えました。
サイトを移転するには、グーグルなどの検索エンジンにいかにうまく移転したことを伝えるかが重要となってきます。移転の方法を間違えると移転先のサイトが不用意にペナルティを受けてしまい、二度と検索結果に上がってこないという最悪の事態に陥ってしまう可能性もあります。(ごく稀ですが。。)
今回は自身のサイトをより安全に移転することを目的とし、サイトを完全削除した後に新しくページをアップして、重複ペナルティを避ける方法について詳しく書いていきますのでご参考いただけたらありがたいです。
Contents
サイト移転時の注意
サイトの移転を行う際に最も注意しなくてはいけないのは、サイトを移転した際に移転前と移転後で重複ページができてしまうことです。
重複した内容のページが他のサイトで、できてしまうとグーグルなどの検索エンジンからペナルティを受けてしまうリスクが高まります。
では移転前のサイトをすぐに削除すればいいのでは?
そう思う方もいらっしゃるかとは思いますが、グーグルは一定期間クロールしたサイトの内容を保存しています。サイト自体は削除していますが、グーグルではサイトはまだあると認識されている場合、新しいドメインで同じ記事をアップしてしまうと、実際には1つしかページがないのに、移転先のページが重複ページと判断されてしまう可能性もあるので注意が必要です。
このような重複ペナルティを避けるには301リダイレクトを行う、canonicalなどで正規ページをグーグルに示す方法があります。
しかし!!もともとグーグルからの評価が低いページは上記の方法をとってしまうと、低評価がそのまま移転先のサイトに影響を及ぼしてしまう可能性もあります。そういう場合はグーグルインデックスからサイト全体を完全に削除し、削除が完了したことを確認したうえで、新しいページにてその記事のリライトを行い移転先サイトで公開した方がいいかもしれません。
そのようなサイトは一度サイト自体を削除して新しいサイトで記事をアップすることで何故か簡単にインデックスさせることができ、検索結果も以前と比べてかなり上位に表示されるようになったこともあります。(本当になぞです。)
サイトをいち早く削除する方法は?
自分のサイトやページを削除した後にグーグルのインデックスを削除するには、HTTPリクエストに対して404エラーや410エラーなどを返すなどの処理を行い、グーグルなどの検索エンジン側にページの情報がないことを伝えることが重要となります。
404エラーと410エラーの違い
404エラー
ページが見つからなかったという意味で何らかの原因で一時的にページが見られなくなったのかな?とグーグルは認識するようです。ユーザーやサイト管理者が意図しない場合でページが見つからなかったことも考えられるので、再度ページがクロールされる可能性は高いです。
410エラー
ページ自体が削除されてしまったという意味で、永久的にサイト(ページ)を削除したという意味になります。この場合はサイト管理者が意図的に行ったページ削除ということでグーグルなどの検索エンジンが再度このページをクロールしに来る可能性は低くなります。
参考:http://web-tan.forum.impressrd.jp/e/2014/04/18/17353/page/1#f1
サイトの内容をグーグルから削除したい場合は410エラーがより有効
グーグルに保存されているデータを完全により早く削除させるには「404エラー」よりも「410エラー」を使うことをおすすめします。さきほど説明したとおり「404エラー」はネットワークの障害やサーバーの不具合、もしくはユーザー側のURLの打ち間違えなどサイト管理者が意図していないさまざまな原因がある可能性もあります。
グーグル先生は親切心で再度「404エラー」となったページでも再度ページのクロールを行ってくれます。更にそのページを検索結果に一定期間表示させてくれるという寛大な措置をとってくれます。
しかし、自身の意志でサイトを削除している場合、この措置は余計なものとなってしまいます。
ここでグーグルに「意思表示」を行い意図的にサイトを削除しましたよ。と伝えるのが「410エラー」です。
ちなみにHTTPステータスコードの「410」はGone(消滅した)という意味になり、410エラーの処理を行ったサイトにアクセスすると↓のようなページが出現します。
The requested resource
/
is no longer available on this server and there is no forwarding address. Please remove all references to this resource.
↓日本語訳
要求されたリソース
/
このサーバーでは使用できなくなり、転送先アドレスもありません。 このリソースへの参照をすべて削除してください。
このように「410エラー」では意図的に削除されていることが、グーグルなどの検索エンジンやサイトにアクセスしてきてくれた人にも分かるようになっています。
410エラーの処理はどうやって行えばいいの?
ようやくここで本題に入ります。。HTTPステータスコードの「410」をレスポンスとして返すには「.htaccess(ドットエイチティーアクセス)」ファイルで設定を行います。
簡単に説明するとページ単位での閲覧制御、リダイレクト処理などを行うことができます。
なお、今回はサイト全体を削除することを前提としていますので、ページ単位で410エラーを返す処理を行っていては非常に効率が悪いです。そこで今回はドメイン以下のどのサブディレクトリ(URL)にアクセスしても410エラーを返す記述について考えてみました。
具体的な記述例
サイトのどのURLにアクセスしても全てで410エラーを返す具体的な記述例は下記のようになります。
1 2 3 4 5 |
RewriteEngine On RewriteBase / RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule .* ? [G] |
1 2 3 4 |
<IfModule mod_rewrite.c> RewriteEngine On RewriteRule .* - [G] </IfModule> |
参考:http://nplll.com/archives/2014/07/google_12.php
1番目の記述は私やぎちゃんが良く使っていたものです。また、今回調べていたら、2番目の記述の方がサイトを全て削除した場合では、よりスマートな記述だったので掲載させて頂きました。
ちなみに1番目の記述は以前から使っていて410エラーに不具合などは発生していません。2番目の記述も今回やぎちゃん自身のサイトで使わせて頂きこちらも今のところは不具合などは一切ありません。
.htaccessファイルの作り方
次に上記の記述を「.htaccess」ファイルとして実際に作っていきます。
htaccessファイルは実際のところテキストファイルとなっていますので、Windowsであれば標準で搭載されている「メモ帳」でも作成することが可能です。
メモ帳から保存する際「.htaccess」で保存したつもりが余計な拡張子がついて「.htaccess.txt」(ただのテキストファイル)となってしまう場合があるので注意が必要です。
保存後ちゃんと「.htaccess」ファイルとなっているかは右クリック→プロパティから確認ができます。
「.htaccess」ファイルをサイトのサーバーに設置
最後にFTPクライアントなどを使い「.htaccess」ファイルをサーバー上にアップロードします。
もし、ソフトをインストールしていない場合は、下記のソフトが有名ですのでリンクを貼っておきます。
参考:http://forest.watch.impress.co.jp/library/software/ffftp/
設置場所はエックスサーバーの場合下記の場所に設置します。
/自分のドメイン名.com/public_html
サイトにアクセスして確認する
最後に実際にサイトにアクセスして410エラーを設定できているか確認してみます。
無事、410エラーが表示されている場合は、お疲れ様です!!これで一通りの「410エラー」の処理は完了しました。
念のため他のページでも410エラーを返しているか確認してみましょう。
もし、普通にサイトが表示されている場合は、ブラウザのキャッシュがまだページが存在しているように見せているだけの可能性もあるので一度キャッシュを削除して再度アクセスしてみてください。「F5」キーでリロードも行ってみてください。
それでも解決しない場合は、「.htaccess」ファイル自体そのサーバーで使えない可能性もあるのでサーバーのヘルプなどを確認してみてください。
「500 Internal Server Error」と表示される場合は、「.htaccess」ファイルの記述や保存形式が適切でないなどの可能性がありますので、再度ファイルの中身を見直してください。
「.htaccessファイル」設置後に「500 Internal Server Error」と表示される場合の対処法については下記のサイトが詳しい説明をしてくれています。
参考:Internal Server Errorが出てしまう場合
グーグルから実際にURLが削除されたかを後日確認
410エラーを返す処理を行った後はグーグルがサイトをクロールし、実際にインデックスから削除されるまで待ちます。
サイトのインデックス状況の確認方法
グーグルの検索窓に「site:自分のサイトURL」と打ち込みます
するとインデックスされているサイトが表示されます。
その表示されるサイトが消えるまで待ちます。サイトによってまちまちですが、410エラーをずっと返していると早ければ1週間程度でインデックスからサイトが削除されています。
参考:https://www.suzukikenichi.com/blog/best-practises-to-handle-crawl-errors/
サイトが完全にグーグルから削除された後に新しいURLで同じ記事をアップすれば以前のサイトの低評価を引き継ぐことなく、ペナルティも受けずにサイトを移転することができるようになります。
私やぎちゃんの場合は念のため全てインデックスの削除が完了したことを確認した後、2週間程度時間をおき、更に記事の内容をより充実させて新しいサイトに記事をアップさせています。