tDataShuffling
シャッフルでは、入力テーブルのデータについて、データセットのファンクションを保ったまま実際のデータを保護します。これはテストやトレーニングなどの目的で使用できます。
tDataShufflingは、元の値を同じカラムの別の行の他の値に置き換えます。
1つまたは複数のカラムをパーティショングループとして定義すると、テーブル全体が特定の数のパーティションに分割されます。これらのパーティションは、パーティショニングされたカラムの同じ値を共有します。次に、シャッフルプロセスが各パーティションに個別に適用されます。すべてのパーティションが1つの出力テーブルにマージされます。
カラムをパーティショングループとして設定しない場合、シャッフルプロセスは入力テーブル全体に適用されます。
ローカルモードでは、Apache Spark 1.4.0以降のバージョンがサポートされています。
Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。
使用しているTalend製品に応じて、このコンポーネントは、次のジョブのフレームワークの1つ、一部、またはすべてで使用できます。
-
標準:tDataShufflingの標準プロパティをご覧ください。
このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。
-
Spark Batch:Apache Spark BatchのtDataShufflingプロパティをご覧ください。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。