さとぴーの選択範囲

ロードバイクと日々の記録。

1998年から蓄積した過去ログが吐き出すエラーの修正

Google Search Console クロールエラー

Google Search Console。
リンクを辿ったら6554件見つからなかったというレポート。

さくらのレンタルサーバ コントロールパネル エラーログ

さくらのレンタルサーバ、コントロールパネル、エラーログ。

ぎゃー。1998年9月18日からの掲示板の過去ログを残してきた訳ですが…。
ブラウザの名前を付けて保存を使ってHTML化しただけなので、掲示板の新規投稿や返信のリンクが残ったまま。
すでに過去ログなので、新規投稿や返信のリンクをクリックしても、ファイルが無い事を示すエラー404になります。

文字列が完全に一致しないので、秀丸のgrepして置換を使っても修正できないのでは?と思いましたが正規表現を使えば処理できるらしい。

ググって覚えたばかりのにわか仕込の正規表現。
\[<a href=".*">返信</a>\]

正規表現で過去ログをgrep 秀丸エディタ

まずはgrep。[返信]の部分に入っているリンクの文字列は何でもいいという条件で検索。

正規表現でgrepして置換 秀丸エディタ

正規表現でgrepして置換。すでに掲示板ではなく過去ログなので[返信]を消します。

grepして置換 完了 秀丸エディタ
95 個のファイルを検索しました。
51 個のファイルを全て置換して、上書き保存しました。
4370 個の置換を行ないました。
たったこれだけの作業で、4370件のリンク切れが修正されました。
他の箇所も正規表現を使って修正中。
正規表現は難しくて理解できないものだと思っていましたが何とかなるものですね。
コメント
この記事へのコメント
コメントを投稿する
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可する
 
トラックバック
この記事へのトラックバックURL

1998年から蓄積した過去ログが吐き出すエラーの修正へのトラックバック