2020.01.17
STAFF BLOG
スタッフブログ
TECHNICAL
テクログ
こんにちはうなぎです。
IT開発者にとって避けては通れない数ある Linux コマンドのうちから、厳選してご紹介する不定期コーナー“素敵だら! Linux コマンド”。
年明け第一回目は「wget」!
※つらいので今回から1コマンドずつ紹介することにしました。
■wget
wget は何かをダウンロードしたいときに使うコマンド。
ページを画像やCSSなども丸ごとダウンロードしたり、簡易的なクローリングもできちゃうパワフルなダウンローダーです。
まずは通常の使い方から。
wget http://example.com/
とすると、対象のページHTMLが `index.html` としてダウンロードされます。
保存名を指定したいときには
wget http://example.com/ -O test.html
`-O` オプションを使います。
Linux で wget を使用するシーンとしては、.zip や .tar などの圧縮されたソースデータをダウンロードすることが多いのではないでしょうか。
データが置いてあるホスティングサーバー上ではアクセスによる負荷を分散させるために、ダウンロードURLをミラーサイトにリダイレクトさせていることがあります。
wget --trust-server-names https://sourceforge.net/projects/notepadplusplus.mirror/files/latest/download
そんな時は、
`–trust-server-names` を使えば正常にダウンロードできます。
他にもWEB魚拓のように、あるサイトのページをまるっとダウンロードしたいときは、
wget -k -p -w 3 http://abehiroshi.la.coocan.jp/
とすると、他のページや画像なども一緒にまとめてダウンロードしてくれます。
`-k` `–convert-links`
ダウンロードしたHTMLやCSSのリンクを、ローカル内の相対パスに変換します。
`-p` `–page-requisites`
ページの表示に必要なファイルをすべてダウンロードします。
`-w` `–wait`
再帰的にダウンロードするとき、指定した秒数分間隔をあけて実行します。
クローラー、スパイダー、すべてそうですが、再帰的なアクセス・ダウンロードするときには、
必ず数秒の間隔をあけるなど、サーバーへの負荷を考慮してください!!!
以上、2020年一発目は wget でした!