np.loadtxtとnp.savetxtでテキストファイルを読み書きする方法

それぞれの関数の特徴
- np.load、np.save関数の特徴
- np.loadtxt、np.savetxt関数の特徴
np.savetxt、np.loadtxt
参考

NumPyには、ndarrayの永続化方法としてsave、load関数があります。これらの関数を使うことで、PythonとNumPyから利用するだけであれば、データベースやファイル形式に悩むことなく簡単にデータを保存することができます。

np.saveやnp.loadを使うと、pickleやnpy、npz形式のファイルを読み書きすることでndarrayとの変換をすることができます。

np.loadtextとnp.savetxt関数を使用することで、このような問題を解決しながらNumPyとデータ互換を維持することができます。今回はこのnp.loadtextとnp.savetxtを中心にデータの欠損がある箇所を適切な値で埋めてくれるgenfromtxt関数を紹介します。

それぞれの関数の特徴

まずはそれぞれの関数の特徴をまとめます。

`np.load`、`np.save`関数の特徴

配列をそのまま保存できる、３次元以上の配列も保存可能
対応拡張子はpickle、npz、npy
ただし、扱うファイル形式は他のアプリケーションなどとの互換性はほとんどない

`np.loadtxt`、`np.savetxt`関数の特徴

他のアプリケーションと互換性のある.dat、.csv、.txt形式のファイルの読み書きができる
保存できる配列の次元は二次元まで

今回はnp.loadtxtとnp.savetxt関数について解説していきます。

np.savetxt、np.loadtxt

np.loadtext関数のAPIドキュメントは以下の通りです。

np.loadtxt関数

numpy.loadtxt(fname, dtype=float, comments=’#’, delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding=’bytes’, max_rows=None, quotechar=None, like=None)

params:

パラメータ名	型	概要
`fname`	ファイル、文字列またはファイルのパス	読み込むファイルを指定します・拡張子が.gzや.bz2のときはまず解凍します。
`dtype`	データ型	(省略可能)初期値’float’ 出力される配列のデータ型を指定します。辞書型やタプルの配列を指定することで簡易的にCSVのような構造化データを読むこともできます
`comments`	文字列またはシーケンス	(省略可能)初期値’#’ ファイルの内容におけるコメント部分が何で始まっているのかを指定します。
`delimiter`	文字列(string)	(省略可能)初期値None 値と値を区切る文字が何であるかを指定する。デフォルトはスペース区切り。
`converters`	辞書(dict)もしくはcallable（関数等）	(省略可能)初期値None 値の解析をカスタマイズするためのコンバータ関数。 convertersが関数で実行可能な場合、その関数はすべての列に適用されます。そうでない場合、列番号をキーにして値をパーサー関数にマップする辞書型である必要があります。
`skiprows`	int もしくはシーケンス	(省略可能)初期値0 何行文読み飛ばすかを指定します。
`usecols`	intもしくはシーケンス	(省略可能)初期値None 0を最初の行として、どの行を読み取るのかを指定します。デフォルトでは全ての列を読み取ります。
`unpack`	bool値	(省略可能)初期値False Trueにすると出力される配列は転置(transpose)されます。各々の列の値を別々の変数に代入したいときなどに用いられます。
`ndmin`	int 有効なのは0,1,2	(省略可能)初期値0 返される配列の最低次元数を指定します。ここが指定されないと要素数が１の次元の軸(axes)に関しては次元の削減が行われます。
`encoding`	string	(省略可能)初期値`'bytes'`。ファイルを読み込む際に使う文字コードを指定する。 ‘bytes’は特別な値で後方互換性のため、可能な限りバイト配列を受け渡し可能になり、 `'latin1'`エンコーディングの文字列を渡せるようになります。 `None`でシステムのデフォルトが使用されます。
`quotechar`	ユニコード文字または None	（省略可能）初期値None。ひとつのフィールドとして認識させるため引用文字の開始と終了を示すために使用される文字。引用フィールド内では、delimiterやコメント文字は無視される。これは引用サポートが無効であることを意味する。引用フィールド内にquotecharが連続して2回現れる場合、最初のものはエスケープ文字として扱われる
`like`	array_like	NumPy配列以外の参照オブジェクトで生成します。`__array_function__`プロトコルを継承しているオブジェクトを指定することができます

returns:

ファイルから読み込まれたデータが出力されます。

このloadtxt関数には9つもの引数が存在しています。これらを用いてどのような形でファイルを読み込んでいくかを詳細に指定することができます。引数を詳細に指定することで、様々な形式に対応することができます。

np.savetxt関数

次に、savetxt関数のAPIドキュメントを見ていきます。

numpy.savetxt(fname, X, fmt=’%.18e’, delimiter=’ ‘, newline=’\n’, header=’’, footer=’’, comments=’#’, encoding=None)

params:

パラメータ名	型	概要
`fname`	ファイル名またはファイル・ハンドル	保存するファイルを指定します。.gzが拡張子のときはgzip形式のファイルとして保存します。
`X`	array_like (配列に相当するもの)	保存データを指定します。
`fmt`	stringまたは stringのシーケンス	(省略可能)初期値’%.18e’ それぞれの列ごとにおける有効桁数を指定します。
`delimiter`	string	(省略可能)初期値’ ‘ 列ごとを区切る文字を指定します。
`newline`	string	(省略可能)初期値’\n’ 行ごとを区切る文字を指定します。
`header`	string	(省略可能)初期値’‘ ファイルの最初に何を書き込むかを指定します。
`footer`	string	(省略可能)初期値’‘ ファイルの最後に何を書き込むかを指定します。
`comments`	string	(省略可能)初期値’#’ headerやfooterを挿入する際、先頭に入力する文字を指定します。
`encoding`	string or None	出力ファイルに使用されるエンコード。出力ストリームには適用されません。デフォルトは`'latin1'`です。

どちらも引数が多いですが、参照しながらどのような形式で読み書きしたいのかを考えて使いこなしていきましょう。

サンプルコード

では、この２つの関数を使って実際にコードを見ながら使い方を見ていきます。まずはシンプルにファイルの書き込み、読み込みをしていきます。

In [1]: import numpy as np

In [3]: a = np.random.randn(3,4) # 標準正規分布に従った乱数を2次元配列で生成

In [5]: np.savetxt('sample.txt', a) # 特に何も指定しない状態で保存してみる。

In [6]: b = np.loadtxt('sample.txt') # 保存したデータを読み込む。

In [7]: a
Out[7]:
array([[-0.98495064, -0.54105417,  1.05258227,  1.0710156 ],
       [ 1.31193658,  1.09343955, -1.2977759 ,  0.78322404],
       [-1.54344345, -1.46554656,  0.40285187,  0.1302892 ]])

In [8]: b
Out[8]:
array([[-0.98495064, -0.54105417,  1.05258227,  1.0710156 ],
       [ 1.31193658,  1.09343955, -1.2977759 ,  0.78322404],
       [-1.54344345, -1.46554656,  0.40285187,  0.1302892 ]])

In [9]: np.savetxt('sample.csv', a) # csv形式でも対応してる。

In [10]: c = np.loadtxt('sample.csv')

In [11]: c
Out[11]:
array([[-0.98495064, -0.54105417,  1.05258227,  1.0710156 ],
       [ 1.31193658,  1.09343955, -1.2977759 ,  0.78322404],
       [-1.54344345, -1.46554656,  0.40285187,  0.1302892 ]])

In [12]: np.savetxt('sample.dat', a) # dat形式でも大丈夫。

In [13]: d = np.loadtxt('sample.dat')

In [14]: d
Out[14]:
array([[-0.98495064, -0.54105417,  1.05258227,  1.0710156 ],
       [ 1.31193658,  1.09343955, -1.2977759 ,  0.78322404],
       [-1.54344345, -1.46554656,  0.40285187,  0.1302892 ]])

次は区切り文字を変えていきます。,に変更してみましょう。

In [15]: np.savetxt('sample2.txt', a, delimiter=',')

実際にファイルを開いて見てどうなっているか確認してみましょう。

-9.849506405118685359e-01,-5.410541661151561099e-01,1.052582274254199479e+00,1.071015596176571272e+00
1.311936581354347986e+00,1.093439550506633662e+00,-1.297775904738235564e+00,7.832240368728708990e-01
-1.543443447806609692e+00,-1.465546557520085447e+00,4.028518723924314759e-01,1.302891977491596742e-01

ちなみに、先ほど使用したsample.txtの方はどうなっているのでしょうか。

-9.849506405118685359e-01 -5.410541661151561099e-01 1.052582274254199479e+00 1.071015596176571272e+00
1.311936581354347986e+00 1.093439550506633662e+00 -1.297775904738235564e+00 7.832240368728708990e-01
-1.543443447806609692e+00 -1.465546557520085447e+00 4.028518723924314759e-01 1.302891977491596742e-01

こちらはデフォルト通り、スペースでデータが区切られていますね。では、,で区切ったテキストファイルを読み込んでみます。

In [16]: e = np.loadtxt('sample2.txt') # delimiterに何も指定しないとエラーが返ってくる
-------------------------------------------------------------------
(エラーメッセージが表示される)
ValueError: could not convert string to float: b'-9.849506405118685359e-01,-5.410541661151561099e-01,1.052582274254199479e+00,1.071015596176571272e+00'

In [17]: e = np.loadtxt('sample2.txt', delimiter=',')

In [18]: e
Out[18]:
array([[-0.98495064, -0.54105417,  1.05258227,  1.0710156 ],
       [ 1.31193658,  1.09343955, -1.2977759 ,  0.78322404],

np.savetxt関数ではデータを保存する際に有効桁数を指定することができます。デフォルトで指定されている’%.18e’というのは小数点以下18桁まで表示し、オーダーをe+08やe-01のような形式で表すことを示します(１番大きい桁が１の位に来るように表記されるということです)。

’%.18f’にすると小数点以下18桁まで表示されますがオーダーを表す記号が存在せず、322.248..のように表示されます。整数部の上限もつけることができ’%3.f’とすれば1000の位までしか表記できなくなります。

dtype = complex(複素数)のときは’%.3e + .2ej’のように表すことができます。タプルやリストの形式で複数の列に対して個々の有効桁数を指定することができます。

有効桁数2桁でまずはやってみましょう。

In [19]: np.savetxt('sample3.txt', a, fmt ='%.2e')

ファイルの中身は以下のようになっています。

-9.85e-01 -5.41e-01 1.05e+00 1.07e+00
1.31e+00 1.09e+00 -1.30e+00 7.83e-01
-1.54e+00 -1.47e+00 4.03e-01 1.30e-01

では次はeからfに変えて見ます。　　

In [20]: np.savetxt('sample4.txt', a, fmt ='%.2f')

ファイルの中身は以下のようになります。

-0.98 -0.54 1.05 1.07
1.31 1.09 -1.30 0.78
-1.54 -1.47 0.40 0.13

eの表記が消えたのがわかるでしょうか。次は複素数を保存して見ます。

In [21]: f = np.array([[10.1+3.21j,100+32.1j],[20.0+0.2j, 22.1-1j]]) # 複素数を要素とする配列を生成


In [22]: np.savetxt('sample6.txt', f, fmt= ['%.3e + %.3ej', '%.1e + %.1ej'])

もちろん実部虚部を別々に指定せず'%.2e'のようにして両方とも同じ値を設定することもできます。ファイルの中身を見て見ましょう。

1.010e+01 + 3.210e+00j 1.0e+02 + 3.2e+01j
2.000e+01 + 2.000e-01j 2.2e+01 + -1.0e+00j

ちゃんと指定した有効桁数通りになっていますね。

次はloadtxtで抜き出す列や行を変えていきます。sample4.txtを使っていきます。

In [44]: np.loadtxt('sample4.txt', usecols = (0,2)) # 0,2列目だけを使う。
Out[44]:
array([[-0.98,  1.05],
       [ 1.31, -1.3 ],
       [-1.54,  0.4 ]])

In [45]: np.loadtxt('sample4.txt', skiprows = 1) # 0行目をとばす
Out[45]:
array([[ 1.31,  1.09, -1.3 ,  0.78],
       [-1.54, -1.47,  0.4 ,  0.13]])

次はheaderとfooterを指定します。最初の乱数配列であるaを保存します。

In [46]: np.savetxt('sample7.txt', a, fmt ='%.3e', header='this is a header',footer='this is a footer')

中身を確認してみます。

# this is a header
-9.850e-01 -5.411e-01 1.053e+00 1.071e+00
1.312e+00 1.093e+00 -1.298e+00 7.832e-01
-1.543e+00 -1.466e+00 4.029e-01 1.303e-01
# this is a footer

#を頭文字としてちゃんと入力されていることがわかりますね。では、ここの#の部分を>>>に変えてみましょう。np.loadtxtを使って対象行を無視してみます。

np.loadtxt,np.savetxt共にcommentsに指定すれば対象行を無視することができます。

In [48]: np.savetxt('sample8.txt', a, fmt ='%.3e', header='this is a header',footer='this is a footer', comments='>>>')

In [49]: np.loadtxt('sample8.txt', comments='>>>') # loadtxtでちゃんと読み込めるか確かめる。
Out[49]:
array([[-0.985 , -0.5411,  1.053 ,  1.071 ],
       [ 1.312 ,  1.093 , -1.298 ,  0.7832],
       [-1.543 , -1.466 ,  0.4029,  0.1303]])

ファイルの中身も確認しておきましょう。sample8.txtの中身を見て見ます。

>>>this is a header
-9.850e-01 -5.411e-01 1.053e+00 1.071e+00
1.312e+00 1.093e+00 -1.298e+00 7.832e-01
-1.543e+00 -1.466e+00 4.029e-01 1.303e-01
>>>this is a footer

ちゃんと指定できていました。

次に、loadtxtを使ってデータ型を指定して見ます。以下のようなアンケート結果のようなcsvデータを考えて見ます。(ファイル名はfoo.csv扱います。)

# age gender tall[cm] driver's_lisense
female 154.1 No
male 172.3 Yes
female 160.8 Yes
male 180.1 Yes
female 145.0 No

左か年齢、性別、身長、運転免許の有無についてです。これらを列ごとにデータ型を指定しながら読み込んでいきます。

In [10]: np.loadtxt('foo.csv', dtype=[('col1', 'i8'), ('col2', 'S10'), ('col3', 'f8'), ('col4', 'S10')]) # 8バイトのint、10バイトのstr, 8バイトのfloat,１０バイトのstrの順に指定している。
Out[10]:
array([(18, b'female',  154., b'No'), (21, b'male',  172., b'Yes'),
       (22, b'female',  160., b'Yes'), (23, b'male',  180., b'Yes'),
       (25, b'female',  145., b'No')],
      dtype=[('col1', '<i8'), ('col2', 'S10'), ('col3', '<f8'), ('col4', 'S10')])

unpack = Trueにすることで転置をほどこすことができ、要素ごとに配列へ収納することができます。

In [11]: np.loadtxt('foo.csv', dtype=[('col1', 'i8'), ('col2', 'S10'), ('col3','f8'), ('col4', 'S10')], unpack =True) # unpack=Trueにすると転置が起こる。  
Out[11]:
[array([18, 21, 22, 23, 25]),
 array([b'female', b'male', b'female', b'male', b'female'],
       dtype='|S10'),
 array([ 154.,  172.,  160.,  180.,  145.]),
 array([b'No', b'Yes', b'Yes', b'Yes', b'No'],
       dtype='|S10')]

In [12]: age, gender, tall, driver_lisense = np.loadtxt('foo.csv', dtype=[('col1', 'i8'), ('col2', 'S10'), ('col3', 'f8'), ('col4', 'S10')], unpack =True)

In [13]: age
Out[13]: array([18, 21, 22, 23, 25])

In [14]: gender
Out[14]:
array([b'female', b'male', b'female', b'male', b'female'],
      dtype='|S10')

In [15]: tall
Out[15]: array([ 154.,  172.,  160.,  180.,  145.])

In [16]: driver_lisense
Out[16]:
array([b'No', b'Yes', b'Yes', b'Yes', b'No'],
      dtype='|S10')

引数convertersを用いて文字列データをあらかじめ数値に変えておくとのちの処理も楽になるかもしれません。例えば性別でmaleを1,femaleを-1とし、driver's_lisenseでYesを1, Noを-1にするとします。以下のように２つの関数を設定してから読み込みます。

In [20]: def driver_lisense(str): # 関数を２つ定義する。
    ...:     if str == b'Yes' : return 1
    ...:     else: return -1
    ...:     

In [21]: def gender(str):
    ...:     if str == b'male': return 1
    ...:     else: return -1
    ...:     

In [22]: np.loadtxt('foo.csv', converters={1: lambda s: gender(s), 3: lambda s: driver_lisense(s)}) # 文字列のデータを関数を使って数値に変換。
Out[22]:
array([[  18.,   -1.,  154.,   -1.],
       [  21.,    1.,  172.,    1.],
       [  22.,   -1.,  160.,    1.],
       [  23.,    1.,  180.,    1.],
       [  25.,   -1.,  145.,   -1.]])

このconverters引数を用いることによって空の値に対してデフォルトの値を与えることができます。では、先ほどのデータでgender欄に穴を開けて、そこの値をNaNにするよう設定して見ます。うまく認識されなかったため、ここでデータの区切りをスペースから,に変更しました。

# age gender tall[cm] driver's_lisense
18,,154,No
21,male,172,Yes
22,,160,Yes
23,,180,Yes
25,female,145,No

In [33]: def gender2(str): # 関数を改めて設定する
    ...:     if not str: return 0 # 何も入力されていないときは0を返すようにする
    ...:
    ...:     elif  str == b'male': return 1
    ...:     else: return -1
    ...:     

In [34]: np.loadtxt('foo.csv', converters={1: lambda s: gender2(s), 3: lambda s:
    ...:  driver_lisense(s)}, delimiter =',')
Out[34]:
array([[  18.,    0.,  154.,   -1.],
       [  21.,    1.,  172.,   -1.],
       [  22.,    0.,  160.,   -1.],
       [  23.,    0.,  180.,    1.],
       [  25.,   -1.,  145.,   -1.]])

np.genfromtxt

np.savetxt関数の変形版としてnp.genfromtxt関数というのも存在します。この関数を使うことで、データの欠落に対する挙動を指定することができます。

いちいち列ごとに指定する必要がなく、全ての列に対して一括で指定できます。

まずはAPIドキュメントを確認してみましょう。

np.genfromtxt(fname, dtype = ‘float’, comments=’#’, delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values = None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=None, replace_space=’_’, autostrip=False, case_sensitive=True, defaultfmt=’f%i’, unpack=None, usemask=False, loose=True, invalide_raise=True, max_rows=None, encoding=’bytes’, …, ndmin=0, like=None)

params;

パラメータ名	型	概要
`fname`	file, str またはファイルのパス	読み込むファイルを指定します。
`dtype`	データ型	(省略可能)初期値’float’ 返される配列における要素のデータ型を指定します。
`comments`	str	(省略可能)初期値’#’ ヘッダーやフッターの目印として使われる文字を指定します。この文字が現れたあとにある文字列やデータは全て読み込まれません。
`delimiter`	strやint またはシーケンス	(省略可能)初期値None データを区切る記号を指定します。デフォルトではスペース（空白）となっています。
`skip_header`	int	(省略可能)初期値0 最初に読み飛ばす行数を指定します。
`skip_footer`	int	(省略可能)初期値0 ファイルの末尾で読み飛ばす行数を指定します。
`converters`	dict(辞書)	(省略可能)初期値None 列ごとにどのような関数を適用するかを指定します。loadtxtと同じ使い方です。
`missing_values`	variable	(省略可能)初期値None 欠損データに対応する文字列の組みを指定します。
`filling_values`	variable	(省略可能)初期値None データが欠損しているときに穴埋めする値を指定します。
`usecols`	シーケンス	(省略可能)初期値None どの列を読み込むのか指定します。デフォルトの値では全ての列を読み込みます。
`names`	{None, True, str, シーケンス}のいずれか	(省略可能)初期値None それぞれの列に対して名称をつけます。
`excludelist`	シーケンス	(省略可能)初期値None 除外するデータを指定します。
`deletechars`	str	(省略可能)初期値None namesから消去する必要のある無効な文字を指定します。
`defaultfmt`	str	(省略可能)初期値’f%i’ デフォルトのフィールド名を定義します。
`autostrip`	bool値	(省略可能)初期値False 値からスペース（空白）を自動的に取り除くかどうかを指定します。
`replace_space`	文字	(省略可能)初期値’_‘ スペース（空白）があった場合、そこにどんな値を入れていくかを指定します。
`case_sensitive`	{True, False, ‘upper’, ‘lower’}のいずれか	(省略可能)初期値True 各フィールドの名前を大文字にするかどうかを指定します。`True`のときはそのままで、`upper`や`False`のときは大文字にし、`lower`のときは小文字にします。
`unpack`	bool値	(省略可能)初期値None 返す配列を転置させるかどうかを指定します。
`usemask`	bool値	(省略可能)初期値False マスクされた配列（無効な値などが含まれている可能性のある配列)として出力するかどうかを指定します。
`loose`	bool値	(省略可能)初期値True Trueの場合、無効な値を含んでいてもエラーを返しません。
`invalid_raise`	bool値	(省略可能)初期値True Trueの場合、列数で矛盾が発生した場合例外を発生させます。Falseの場合、警告が発せられ、行の追加が見送られます。
`max_rows`	int	(省略可能)初期値None 最大で何行読み込むかを指定します。デフォルトでは全てを読み込みます。
`encoding`		ファイルを読み込む際に使う文字コードを指定する。初期値で設定されている’bytes’は後方互換のためバイトデータを読むように指定する特別な値です。
`ndmin`	int	loadtxtと同じです。
`like`	array_like	NumPy配列以外の参照オブジェクトで生成します。`__array_function__`プロトコルを継承しているオブジェクトを指定することができます

returns:

データを読み込んだ配列が返されます。

引数の数がnp.savetxt以上に多い上、実際に使われているものの種類が少ないため上記の表を見ながら使っていきましょう。

以下のようにデータに欠損のあるファイルを読み込ませて見ます。ファイル名はbar.txtです。

1,,
3, 5.2, -9.1
1,, 2.0

これを読み込ませてみると、

In [3]: np.genfromtxt('bar.txt', delimiter=',')
Out[3]:
array([[ 1.1,  nan,  nan],
       [ 2.3,  5.2, -9.1],
       [ 0.1,  nan,  2. ]])

このように、欠損部分がnanとして返されています。データの区切りが,だったのでdelimiterでそれを指定しています。データ型も変更してみます。

In [4]: np.genfromtxt('bar.txt', delimiter=',', dtype=('int', 'float', 'int')) # int, float, intと交互にした。  
Out[4]:
array([(-1,  nan, -1), (-1,  5.2, -1), (-1,  nan, -1)],
      dtype=[('f0', '<i8'), ('f1', '<f8'), ('f2', '<i8')])

このようにnp.genfromtxtは特に何も指定しなくても欠損データのところに値を入れてくれます。

それぞれの関数の特徴

np.load、np.save関数の特徴

np.loadtxt、np.savetxt関数の特徴

np.savetxt、np.loadtxt

np.loadtxt関数

params:

returns:

np.savetxt関数

params:

サンプルコード

np.genfromtxt

params;

returns:

参考

DeepAgeではAIに関する厳選した内容を記事にしてお届けします。気に入って頂けたら応援お願いします！

人工知能(AI)技術の事業活用に興味はございませんか？

`np.load`、`np.save`関数の特徴

`np.loadtxt`、`np.savetxt`関数の特徴

DeepAgeではAIに関する厳選した内容を記事にしてお届けします。
気に入って頂けたら応援お願いします！

人工知能(AI)技術の事業活用に
興味はございませんか？