みんなの「教えて(疑問・質問)」にみんなで「答える」Q&Aコミュニティ

こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

締切り済みの質問

wgetのヴァージョン?

最近連続でお世話になっております(汗。。)

二以上のURLを指定したファイルを指定しwgetで取得しています。

url.csvには以下のようにurlが改行で記述されています。
ttp://aaa.jp/
ttp://bbb.jp/
ttp://ccc.jp/

以下のコマンドで成功します。
オプションは(index.htmlを省いたhtmlファイルだけを取得)
wget -nc -r -A html -R index.html -i url.csv

しかし、違うそれもスペックが高い(cpu、メモリ、しかもデュアルコア)サーバで実行すると1件目はオプション通りにファイル群を取得しますが、2件目以降のurlはindex.htmlだけを取得してしまいます。

ちなみに、wgetのヴァージョンは成功するほうが1.8.2で失敗するほうが1.10.2です(後者のほうがヴァージョンも高いですよね)

何かお気づきの方がいればご教授下さい。

投稿日時 - 2009-04-07 13:32:48

QNo.4859906

すぐに回答ほしいです

このQ&Aは役に立ちましたか?

6人が「このQ&Aが役に立った」と投票しています

回答(2)

ANo.2

GNUのmanpageを見ると
http://www.gnu.org/software/wget/manual/wget.html

Note that these two options do not affect the downloading of html files (as determined by a ‘.htm’ or ‘.html’ filename prefix). This behavior may not be desirable for all users, and may be changed for future versions of Wget.

と書いていますね。なお、ファイル名を指定すること自体は可能で、ワールドカードも使用できます。

バージョンによって、htmlファイルを指定したときの挙動が違うのかもしれません。

あと、url.csvの1行めと2行めを入れ替えると、1件めがindex.htmlだけを取得して、2件めがオプション通りにファイル群を取得するてことないですか? .htmlじゃなく.htmだったりして?
wget -nc -r -A html,htm -R "index.htm*" -i url.csv

投稿日時 - 2009-04-08 12:06:07

補足

シェル内に以下を追記することで、現象を解消できました。

export LANG=C
export LC_ALL=C

しかし、コマンドを直打ちの場合は上手く良くのですが、cronで実行させると再び2件目移行はinde.htmlだけの取得となります。

こちらは締め切りますが、上でも質問させて頂きましたので引き続きご教授をお願いいたします。

投稿日時 - 2009-04-10 19:59:03

ANo.1

手元のマシンで1.10.2のhelpを見ると、

-R, --reject=LIST
ダウンロードしない拡張子をコンマ区切りで指定する

とありますので、「-R index.html」の指定がおかしいのでは?

投稿日時 - 2009-04-07 16:02:20

補足

wgetのヴァージョンが関係あるのかは定かではありませんが、
1.8.2があるサーバでは期待通りに取ってくれるのですよね。。。

しかし、1.10.2でも1件目はindex.html以外のhtmlを全て取得しますが、2件目以降は反対にinde.htmlだけを取得します???

>とありますので、「-R index.html」の指定がおかしいのでは?
index.html以外の全てのhtmlファイルだけを取得オプションってどう書くのでしょうか?

投稿日時 - 2009-04-07 16:23:44

あなたにオススメの質問