curl コマンド – URLでデータ通信を行う

curlコマンドはURLでデータ通信を行うことができます。サポートしているプロトコルはHTTP,FTP,SMTP等で、様々な通信に対して利用することができます。ここでは主にHTTPでのWebページ取得方法について紹介します。

1 curlコマンドの紹介の前に
2 GETメソッドによるWebページの取得
3 取得したWebページをファイルに保存(-oオプション)
4 GETメソッドによるクエリ文字列の送信
5 POSTメソッドによるデータの送信
6 Cookieの保存
7 Cookieの利用
8 curlコマンドの応用
- 8.1 xmllintコマンドと組み合わせWebスクレイピング
9 参考

curlコマンドの紹介の前に

この記事では、curlコマンドの利用するために、CGIが動作する簡単なWebサーバをローカル環境で構築しています。CGIが動作する簡単なWebサーバはpythonのバージョン2系のCGIHTTPServerモジュールを用いて構築します。

構築方法は単純で

python -m CGIHTTPServer 3000

1	python -m CGIHTTPServer 3000

と実行するだけで、カレントディレクトリをドキュメントルートとしてローカル環境に簡単なWebサーバを構築できます。また、3000の数字はポート番号を表しています(ポート番号を省略するとデフォルトでは8000番ポートになります)。

CGIが動作するディレクトリは決められていて、cgi-bin/又はhtbin/の中に存在するファイルがCGIスクリプトとして扱われます。

python3では、http.serverモジュールを用いてWebサーバを構築できます。--cgiオプションを用いると同様にCGIが動作するWebサーバを構築できます。

python3 -m http.server --cgi 3000

1	python3 -m http.server --cgi 3000

GETメソッドによるWebページの取得

curlコマンドは、引数にURLを入力することで、GETメソッドでWebページを取得することができます。wgetコマンドと違い、Webページは標準出力されます。そのため、パイプでコマンドを繋げることができ、sedやawk等のコマンドと組み合わせて、結果の出力の編集を行うことが出来ます。

コマンド例

curl http://localhost:3000/test.html

1	curl http://localhost:3000/test.html

test.html

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8" />
<title>curl command Test</title>
</head>
<body>
<h1>Hello World</h1>
</body>
</html>

<!DOCTYPE html>

<html>

<head>

<title>curl command Test</title>

</head>

<body>

<h1>Hello World</h1>

</body>

</html>

実行結果

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8" />
<title>curl command Test</title>
</head>
<body>
<h1>Hello World</h1>
</body>
</html>

<!DOCTYPE html>

<html>

<head>

<title>curl command Test</title>

</head>

<body>

<h1>Hello World</h1>

</body>

</html>

シェルのように'{}'や'[]'を利用することで、複数のWebページを取得することも可能です。また、'{}'や'[]'を用いる場合はシェルに解釈されないように引用符(「' '」や「" "」)で囲います。

$ curl "http://localhost:3000/test{1,2}.html"
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8" />
<title>test1.html</title>
</head>
<body>
<p>test1.html</p>
</body>
</html>
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8" />
<title>test2.html</title>
</head>
<body>
<p>test2.html</p>
</body>
</html>

$ curl "http://localhost:3000/test{1,2}.html"

<!DOCTYPE html>

<html>

<head>

</head>

<body>

</body>

</html>

<!DOCTYPE html>

<html>

<head>

</head>

<body>

</body>

</html>

取得したWebページをファイルに保存
(-oオプション)

-oオプションを用いることで、取得したWebページを指定したファイルに保存することができます。

出力がファイルやパイプ等のように端末でない場合、curlコマンドは基本的に進捗バーを表示します。

コマンド例と実行結果

$ curl -o file.html http://localhost:3000/test.html
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   130  100   130    0     0  85022      0 --:--:-- --:--:-- --:--:--  126k
$
$ ls
file.html

$ curl -o file.html http://localhost:3000/test.html

% Total % Received % Xferd Average Speed Time Time Time Current

Dload Upload Total Spent Left Speed

100 130 100 130 0 0 85022 0 --:--:-- --:--:-- --:--:-- 126k

$ ls

file.html

また、'{}'や'[]'を用いて、複数のファイルをダウンロードする場合、使用した括弧の数に従って、'#1','#2','#3'...を用いることで、置き換えられる文字列を使用して、ファイルをダウンロードできます。また、'{}'や'[]'を用いる場合はシェルに解釈されないように引用符(「' '」や「" "」)で囲います。

コマンド例と実行結果

$ curl -o "#1test#2.html" "http://localhost:3000/{aaa,bbb,ccc}test[1-2].html"

[1/6]: http://localhost:3000/aaatest1.html --> aaatest1.html
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   130  100   130    0     0  88797      0 --:--:-- --:--:-- --:--:--  126k

[2/6]: http://localhost:3000/aaatest2.html --> aaatest2.html
100   130  100   130    0     0   209k      0 --:--:-- --:--:-- --:--:--  209k

[3/6]: http://localhost:3000/bbbtest1.html --> bbbtest1.html
100   130  100   130    0     0   234k      0 --:--:-- --:--:-- --:--:--  234k

[4/6]: http://localhost:3000/bbbtest2.html --> bbbtest2.html
100   130  100   130    0     0   217k      0 --:--:-- --:--:-- --:--:--  217k

[5/6]: http://localhost:3000/ccctest1.html --> ccctest1.html
100   130  100   130    0     0   202k      0 --:--:-- --:--:-- --:--:--  202k

[6/6]: http://localhost:3000/ccctest2.html --> ccctest2.html
100   130  100   130    0     0   196k      0 --:--:-- --:--:-- --:--:--  196k
$
$ ls
aaatest1.html  bbbtest1.html  ccctest1.html
aaatest2.html  bbbtest2.html  ccctest2.html

$ curl -o "#1test#2.html" "http://localhost:3000/{aaa,bbb,ccc}test[1-2].html"

[1/6]: http://localhost:3000/aaatest1.html --> aaatest1.html

% Total % Received % Xferd Average Speed Time Time Time Current

Dload Upload Total Spent Left Speed

100 130 100 130 0 0 88797 0 --:--:-- --:--:-- --:--:-- 126k

[2/6]: http://localhost:3000/aaatest2.html --> aaatest2.html

100 130 100 130 0 0 209k 0 --:--:-- --:--:-- --:--:-- 209k

[3/6]: http://localhost:3000/bbbtest1.html --> bbbtest1.html

100 130 100 130 0 0 234k 0 --:--:-- --:--:-- --:--:-- 234k

[4/6]: http://localhost:3000/bbbtest2.html --> bbbtest2.html

100 130 100 130 0 0 217k 0 --:--:-- --:--:-- --:--:-- 217k

[5/6]: http://localhost:3000/ccctest1.html --> ccctest1.html

100 130 100 130 0 0 202k 0 --:--:-- --:--:-- --:--:-- 202k

[6/6]: http://localhost:3000/ccctest2.html --> ccctest2.html

100 130 100 130 0 0 196k 0 --:--:-- --:--:-- --:--:-- 196k

$ ls

aaatest1.html bbbtest1.html ccctest1.html

aaatest2.html bbbtest2.html ccctest2.html

GETメソッドによるクエリ文字列の送信

GETメソッドでデータを送信する方法として、URLにクエリ文字列を追加して送信する方法があります。記述方法はhttp://www.example.com/?aaa=testのように、URLの後に'?'を記述し、その後にname=value&name2=value2のように記述することでデータを送信することができます。

curlコマンドでクエリ文字列を記述する場合は、シェルに解釈されないように一部の文字列はエスケープする必要があります。

コマンド例

curl http://localhost:3000/cgi-bin/test.cgi/?aaa=test'&'name=value'&'name2=value2

1	curl http://localhost:3000/cgi-bin/test.cgi/?aaa=test'&'name=value'&'name2=value2

test.cgi

#!/bin/bash

echo "Content-Type:text/plain"
echo

echo "QUERY_STRING: $QUERY_STRING"
echo "REQUEST_METHOD: $REQUEST_METHOD"

#!/bin/bash

echo "Content-Type:text/plain"

echo

echo "QUERY_STRING: $QUERY_STRING"

echo "REQUEST_METHOD: $REQUEST_METHOD"

実行結果

QUERY_STRING: aaa=test&name=value&name2=value2
REQUEST_METHOD: GET

1 2	QUERY_STRING: aaa=test&name=value&name2=value2 REQUEST_METHOD: GET

POSTメソッドによるデータの送信

-Xオプションにより、HTTPサーバ(Webサーバ)へのリクエストメソッド(request method)を指定することができます。この-Xオプションを用いて、GETメソッドの他にPOST,PUT,DELETE等のリクエストメソッドを指定することができます。

POSTメソッドはHTMLのフォームのデータ送信、掲示板でのメッセージ投稿処理などに利用されます。

ここでは、例としてCGIプログラムにPOSTメソッドを用います。

コマンド例

curl -XPOST -d'name=taro&value=87'  http://localhost:3000/cgi-bin/test2.cgi

1	curl -XPOST -d'name=taro&value=87' http://localhost:3000/cgi-bin/test2.cgi

test2.cgi

#!/bin/bash

echo "Content-Type:text/plain"
echo

if [ "$REQUEST_METHOD" = "POST" ]; then
  read -N $CONTENT_LENGTH postdata
  echo $postdata
fi

#!/bin/bash

echo "Content-Type:text/plain"

echo

if [ "$REQUEST_METHOD" = "POST" ]; then

read -N $CONTENT_LENGTH postdata

echo $postdata

実行結果

name=taro&value=87

1	name=taro&value=87

CGIプログラムにPOSTメソッドを用いてデータを送信する場合、CGIプログラムは送信されたデータを標準入力として受け取ります。この標準入力は、CONTENT_LENGTHの値を読み取って、データを受け取ります。

Cookieの保存

-cオプションを用いることでWebサイトから送信されるCookieを保存することができます。

Cookieとは、HTTPで状態(state)を保存するために利用されます。状態とは、あるサイトでのログイン状態や言語設定などが挙げられます。

ここでは、CGIプログラムにCookieヘッダーをセットし、それを保存する例を示します。

cookie.cgi

#!/bin/bash
echo "Set-Cookie: name=taro"
echo "Set-Cookie: value=123"
echo "Content-type: text/plain"
echo 
echo "cookie test"

#!/bin/bash

echo "Set-Cookie: name=taro"

echo "Set-Cookie: value=123"

echo "Content-type: text/plain"

echo

echo "cookie test"

コマンド例と実行結果

$ curl -c cookiefile http://localhost:3000/cgi-bin/cookie.cgi
cookie test
$
$ cat cookiefile 
# Netscape HTTP Cookie File
# http://curl.haxx.se/docs/http-cookies.html
# This file was generated by libcurl! Edit at your own risk.

localhost	FALSE	/cgi-bin/	FALSE	0	name	taro
localhost	FALSE	/cgi-bin/	FALSE	0	value	123

$ curl -c cookiefile http://localhost:3000/cgi-bin/cookie.cgi

cookie test

$ cat cookiefile

# Netscape HTTP Cookie File

# http://curl.haxx.se/docs/http-cookies.html

# This file was generated by libcurl! Edit at your own risk.

localhost FALSE /cgi-bin/ FALSE 0 name taro

localhost FALSE /cgi-bin/ FALSE 0 value 123

Cookieの仕様はRFC 6265 - HTTP State Management Mechanismになります。

Cookieの利用

-bオプションを用いることで、Cookieとしてデータを送信することができます。Cookieとしてデータを送る場合、文字列またはファイルを指定します。

show-cookie.cgi

#!/bin/bash
echo "Content-type: text/plain"
echo 
echo Cookie: "$HTTP_COOKIE"

#!/bin/bash

echo "Content-type: text/plain"

echo

echo Cookie: "$HTTP_COOKIE"

cookiefile

# Netscape HTTP Cookie File
# http://curl.haxx.se/docs/http-cookies.html
# This file was generated by libcurl! Edit at your own risk.

localhost	FALSE	/cgi-bin/	FALSE	0	name	taro
localhost	FALSE	/cgi-bin/	FALSE	0	value	123

# Netscape HTTP Cookie File

# http://curl.haxx.se/docs/http-cookies.html

# This file was generated by libcurl! Edit at your own risk.

localhost FALSE /cgi-bin/ FALSE 0 name taro

localhost FALSE /cgi-bin/ FALSE 0 value 123

コマンド例と実行結果

$ curl -b cookiefile http://localhost:3000/cgi-bin/show-cookie.cgi
Cookie: name=taro; value=123
$
$ curl -b 'name=yamada; value=987' http://localhost:3000/cgi-bin/show-cookie.cgi
Cookie: name=yamada; value=987

$ curl -b cookiefile http://localhost:3000/cgi-bin/show-cookie.cgi

Cookie: name=taro; value=123

$ curl -b 'name=yamada; value=987' http://localhost:3000/cgi-bin/show-cookie.cgi

Cookie: name=yamada; value=987

curlコマンドの応用

xmllintコマンドと組み合わせWebスクレイピング

Webスクレイピングとは、ウェブサイトから欲しい情報を抽出することを言います。curlコマンドとxmllintコマンドを組み合わせることでウェブサイトから欲しい情報を抽出することが出来ます。

xmllintコマンドはxmlやhtmlを解析できるコマンドになります。このxmllintコマンドの--htmlオプションと--xpathオプションを用いてHTMLから任意のタグの要素を抽出することが出来ます。XPathの構文仕様はW3CのXPathの仕様に規定されています。

しかし、XPathの構文について、あまり知らなくても、ブラウザから欲しい要素のXPathをコピーすることも出来ます。
例えば、Google Chromeでは情報が欲しい箇所に右クリックを押し、「検証」をクリックすることで、デベロッパーツールを開くことができ、さらにそのデベロッパーツールの画面で欲しい要素に対して、右クリックを押し、「コピー」から「XPathをコピーする」項目があります。ここから簡単にXPathを取得することできます。

xmllintコマンドで要素を抽出することができたら、抽出した文字列を編集していき、欲しい文字列に整形していきます。欲しい文字列に整形するためにはsedやawk等のコマンドを用いることが出来ます。

以下に簡単なWebスクレイピングのパターンの例を示します。

コマンドのパターン例

curl <url> | 
xmllint --html --xpath '<xpathのパス>' - 2>/dev/null |
sed -n -e'sedのスクリプト' |
nl

curl <url> |

xmllint --html --xpath '<xpathのパス>' - 2>/dev/null |

sed -n -e'sedのスクリプト' |

コマンド例の簡単な解説を行います。

1. 初めにcurlコマンドでWebページの取得を行います。抜き出すテキストが明確ではない場合は何度もサイトにアクセスせずに、まずはこの出力をファイルに出力して

cat output.html |
xmllint --html --xpath '<xpathのパス>' - 2>/dev/null

1 2	cat output.html \| xmllint --html --xpath '<xpathのパス>' - 2>/dev/null

のようにして、練習するべきでしょう。

2.パイプ(|)で繋いでxmllintで取得したい要素を抽出します。これはHTMLのソースと比較しながら行っていきます。xmllintは引数にファイルを指定する必要がありますが、標準入力を指定する場合は、'-'を指定します。また、xmllintでHTMLタグとして解釈されないタグがある場合、エラーメッセージが出力されるため、2>/dev/nullでエラーメッセージを捨てています。

3.抽出した要素を編集するために次のsedコマンドにパイプで渡します。sedコマンドで都合の良いようにテキストを編集します。また、sedコマンドのスクリプトの区切り文字として、's/pattern/replacement/'の形式をよく見ますが、HTMLタグにある'/'と混同しやすいため、's!pattern!replacement!'のように別の区切り文字を使用してもよいでしょう。

4.最後に出力に行番号をつけるためにnlコマンドを用いてます。これはあってもなくてもどちらでもよいでしょう。

ウェブサイトから欲しい情報を抽出するためにcurlコマンドとxmllintコマンドを利用することはとても有用です。しかし、JavaScriptでWebページを動的に作成していくようなサイトの情報を抽出するにはまた別のテクニックが必要になります。具体的にはSeleniumというブラウザの自動操作ツールを用いることで実現できます(Selenium - Web Browser Automation)。

また、Webスクレイピングはcurlコマンドを用いなくても、プログラミング言語を用いたほうが楽な場合も大いにあります。PythonやRubyなどのプログラミング言語の使用を検討してもよいでしょう。