clipsed
著
レガシーコーディング(何)が施されたHTML文書をウェブ標準に準拠させる作業をする際、余分ななタグをいかに効率的に削除するか、が課題に。本来の目的で使用されているTABLE要素なんかもあるわけで、注意しないといけない。
「EDINETの道しるべ」の「禁止タグを排除する」というページで紹介されていた、HTMLスリム化計画という名のソフトが最も目的に適っていそうだったけど、残念ながらVectorではダウンロードできず、作者さんのページもNot Found……公開を停止されたみたい。かといってスグとはPerlのプログラム書けないし、というわけで導入したのがclipsed。こちらのほうがより柔軟に設定できるぶん使い勝手良さそう。winsedも、もちろん入れました。
sedファイルにコマンドを並べただけではうまく削除できなかったけど、末尾に「p」「d」を書き添えることで期待通りの動作になりました。ほかに注意点としては「.*」は極力使わないこと。