tStandardizeRow
受信データを個別のXMLまたはJSONデータフローで正規化して、ルール準拠データを非準拠データから分離または標準化します。
tStandardizeRowは、前のコンポーネントから受け取ったデータフローをトークン化し、ユーザー定義のパーサールールを適用してデータを分析します。この分析に基づいて、このコンポーネントは、分析されたデータを正規化して別のデータフローに書き込み、ユーザー定義のルール名を使ってタグ付けします。生データは変更されません。
標準化オプションは出力フローに補足カラムを追加し、正規化されたデータがそこで標準化されます。
JavaライブラリーANTLRは、着信データを解析してトークン化するために使われます。ANTLRの詳細は、次のサイトをご覧ください。
http://www.antlr.org/ (英語のみ)
ローカルモードでは、Apache Spark 1.6、2.0、2.3、2.4、3.0がサポートされています。
- インストーラーがある場合: /addons/scripts/Lucene_Migration_Tool/README.md
- インストーラーがない場合: ライセンスメールで、Migration tool for Lucene Indexes from version 4 to version 8のリンクをクリック
Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントをご覧ください。
使用しているTalend製品に応じて、このコンポーネントは、次のジョブのフレームワークの1つ、一部、またはすべてで使用できます。
-
標準: tStandardizeRowの標準プロパティをご覧ください。
このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。
-
MapReduce:tStandardizeRow MapReduceプロパティ(非推奨)をご覧ください。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。
-
Spark Batch:Apache Spark BatchのtStandardizeRowプロパティをご覧ください。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。
-
Spark Streaming:Apache Spark StreamingのtStandardizeRowプロパティをご覧ください。
このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。