tJapaneseTransliterate
日本語のテキストデータを仮名とラテンスクリプトに変換します。
翻字とは音声的な操作であり、tJapaneseTransliterateコンポーネントは、文字列の表す音声に基づいて元のテキストデータと同等の文字列を仮名文字またはローマ字で作成しようと試みます。
現代の日本語表記システムでは、漢字と音節仮名(ひらがなとカタカナ)を組み合わせて使います。漢字や仮名が読めない外国人のために、ラテン文字で日本語を書くローマ字システムが開発されました。
tJapaneseTransliterateコンポーネントは、日本語を仮名またはローマ字に変換します。
- 仮名文字
- ひらがな
- カタカナ読み
- カタカナ発音
- ローマ字
- 修正ヘボン式: 最も広く使われているローマ字表記システムです。
- 訓令式: このローマ字化システムは、日本政府および国際標準化機構によってISO 3602として標準化されています。現代の標準日本語のための日本式システムの修正バージョンです。
- 日本式: このローマ字化システムは、仮名とローマ字の間で1対1の対応を維持するため、最も標準的なローマ字化システムです。
ローカルモードでは、Apache Spark 1.6、2.3、2.4、3.0がサポートされています。
Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。
使用しているTalend製品に応じて、このコンポーネントは、次のジョブのフレームワークの1つ、一部、またはすべてで使用できます。
- 標準:tJapaneseTransliterateの標準プロパティをご覧ください。
このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。
- Spark Batch:Apache Spark BatchのtJapaneseTransliterateプロパティをご覧ください。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。
- Spark Streaming:Apache Spark StreamingのtJapaneseTransliterateプロパティをご覧ください。
このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。