TensorFlowのDataset APIは、バージョン1.2から追加された新しい機能です。Dataset APIを使うことで、TensorFlowの独自のキューによる入力パイプラインの煩わしさを減らし、データセットの加工や入れ替えがスムーズに出来るようになります。
一般的に、データの読み込みではtf.train.string_input_producer
やtf.train.shuffle_batch
などのTensorFlowの提供するAPIを通して大規模なデータを複数スレッドで処理できるように設計されています。[1] しかしながら、もっと気軽にキューの入出力を意識せずに使いたいと考えていた人は多いはずです。
また、訓練データやテストデータの切り替えも処理パイプラインの組み換えに独自の実装を施さなければならず、簡単とは言い難いものでした。
今回の変更点のDataset APIを使うことで、このような煩わしさから解放されます。独自のキューパイプラインから解放され、複雑な前処理も簡単に実装することができるようになります。本記事では、Dataset APIを紹介し、使い方を解説します。
Dataset API
Dataset APIは、tf.contrib.data
モジュールを経由して使用します。以下の3つのメリットをデベロッパーが得られるように設計されています。
- 複雑な入力パイプラインを簡単にすること
- 処理パイプラインの再利用性を高めること
- 大量のデータを処理可能にしながら、様々な形式に対応すること
Dataset APIの2つの概念
Dataset APIには2つの重要な概念があります。Dataset
とIterator
です。
Dataset
Dataset
は、テンソル要素の集合です。入力データセットを抽象化していて、Dataset
の中には複数の入力データが含まれています。C#のCollection
やJavaのStream API、Swiftの配列のようにmap
やflat_map
、zip
といったデータ変換APIを適用することができます。
Iterator
Iterator
は、Dataset
の要素を抽出して機械学習モデルにデータを流す繋ぎのインターフェースです。Iterator
でDataset
内での現在位置を管理して、次の要素を取得するための操作を提供します。
3種類のIteratorの使い分け方
Iterator
には、3種類のIterator
があります。それぞれ特色が違うので、特徴と使い分け方を紹介します。
one-shot
one-shotは、入力データを一巡する標準的なイテレータです。後述する種類のイテレータと違い、パラメータ化をサポートしません。以下のコードのように、入力データを一巡します。iterator.get_next()
関数で、次の要素を取得できるオペレータを使ってsess.run
すると次の要素が手に入ります。
このコードをone_shot.pyと名前を付けて実行してみます。すると、0から9までの要素をone_shotイテレータで取得することができました。
rangeで0~9までのDatasetを作成していますが、10を超えてnext_elementを取得しようとすると、どうなるのでしょうか。one-shotイテレータの場合は、tf.errors.OutOfRangeError
例外をスローします。
initializable
initializableイテレータは、データセットの作成と処理パイプラインをパラメータ化することができます。
initializableイテレータを作成する場合は、make_one_shot_iterator
の代わりに、make_initializable_iterator
メソッドを使用します。
初期化するパラメータは以下のように、iterator.initializerオペレータを使ってtf.Sessionのfeed_dictに値を指定します。
reinitializable
reinitializableイテレータは、同じ型と形状を出力するデータセットを組み替えることができます。つまり、訓練データセットやテストデータセットなどのデータセットの切り替えのために使用します。
仮にFizzBuzzの関数を学習させることを考えてみましょう。0~99までの数字を訓練データセットとして、100から200までのテストデータセットを作成して学習させることを考えてみます。この場合、以下のコードのような変換をすると、訓練データとテストデータをreinitializableイテレータを使用して分離することができます。
reinitializableイテレータは、型と形状を指定して、make_initializer
関数で初期化オペレーションを生成します。
Datasetは、関数合成のように処理パイプラインを組み合わせて使用します。そのため、複数の変換関数を覚える必要があります。基本的な使用方法を紹介します。
基本変換
map
mapは、各入力要素を関数適用するために使用します。上述の例だと、range
で生成した数値をfizzbuzzの学習データに変換するために使用しています。
以下のコードのように、lambda式を使用することもできます。
flat_map
flat_mapは、ネストしたDatasetの出力をネストを解消しながら各要素に関数適用することができます。
zip
zipはPythonのビルトイン関数のzip
と同様に、複数のDatasetを1つにまとめることができます。
group_by_window
group_by_windowは、条件でグループ化して窓サイズで分割するために使用します。
データセット作成便利関数
repeat
repeatは、データセットの要素を繰り返すことができます。データセットを作成する際には、one-shotイテレータを使う場合にはエポック数を指定することがあります。引数を指定しないと、永久にリピートします。
shuffle
shuffleは、データセットの要素の順番をシャッフルするために使用します。バッチ毎のデータ分布が偏ると上手く学習できなくなることがあるので、シャッフル化しておくと良いでしょう。引数にはシャッフルするバッファサイズを指定します。
batch
batchはバッチサイズ毎に分割するために使用します。
unbatch
unbatchはバッチを分解することができます。
padded_batch
padded_batchはゼロパディングしながら、分割します。
生成関数
range
rangeはPythonのビルトイン関数と同様に、範囲内のイテレータを作成するために使用します。
enumerate
enumerateもPythonのビルトイン関数と同様に、インデックスの番号を付けて返します。
知っておくと役に立つDataset APIの使用方法
実践でDataset APIを使いこなすためには、各ファイルフォーマットからの読み込み方や加工方法を知る必要があります。CSVファイルやTFRecordの読み込み方やEstimatorとの併用を含めて使い方を紹介します。
CSVファイルから前処理をする
以下のCSVファイルから画像ファイルの名前とラベルを取得して、カテゴリ分類する例を考えてみましょう。最初の一行目に各カラムの説明が書いてあり、次の行からデータの中身が入力されています。
CSVファイルを読むには、CSVファイルが小さなデータセットであればメモリに入れてfrom_tensors
かfrom_tensor_slices
しても問題ないですが、大きい場合にも対応可能なようにdata.TextLineDataset
を使用します。
tf.py_func
を使用することで、上記のようにPythonの関数を呼び出すことができるようになります。
TFRecordを読み込む実用例
TFRecordを作成すると、GPUとCPUを並列に動作させることができるので高速になります。TFRecordもtf.contrib.data
モジュールの関数で読み込むことができます。以下のようにパース関数を書いてmap
で変換します。
TFRecordについては、以下の記事を参考にしてください。
TensorFlowのデータフォーマットTFRecordの書き込みと読み込み方法 /tensorflow/2017/10/07/tfrecord.html
まとめ
TensorFlowのDataset APIはデータセットを簡単に読み込めるようにした新しいモジュールです。これまでの読み込み関数は廃止になる可能性もありますし、このモジュールの関数が大幅に変更になるかもしれません。
個人的にはこれまでのAPIと比較すると、使いやすい印象があります。
さらに使いやすく、ハイパフォーマンスになると良いですね。
参考
[1] Reading data
[2] Using the Dataset API for TensorFlow Input Pipelines