Generate from file/list
Cette fonction remplace aléatoirement la valeur d'entrée par une des valeurs définies par l'utilisateur ou l'utilisatrice.
Cette fonction s'applique aux types String ou de données numériques.
Option | Description |
---|---|
Method | La méthode Randomly sélectionne aléatoirement une valeur de la liste (ou un fichier). Deux valeurs d'entrée similaires peuvent ainsi être masquées par différentes valeurs de sortie. La méthode Consistently s'assure que deux valeurs d'entrée similaires sont masquées par la même valeur de sortie. Lorsque vous utilisez l'option Consistently, la probabilité de générer des doublons peut être calculée à l'aide des formules suivantes :
où P est la probabilité de générer des doublons, N la taille des données d'entrée et K la taille de la liste d'entrée donnée en paramètre. Via cette approche, il est possible de calculer la probabilité de trouver une paire partageant la même valeur au sein d'un groupe. Par exemple, la probabilité que, dans un groupe de n personnes, deux personnes fêtent leur anniversaire le même jour est de :
|
Extra parameter | Cette fonction nécessite un paramètre supplémentaire. Le paramètre supplémentaire peut être :
Les valeurs doivent êtres stockées dans une chaîne de caractères et séparées par des virgules, par exemple "item1, item2, item3, etc.". Cette fonction utilise la méthode hashCode() fournit par Java pour choisir un élément d'une liste. Si vous utilisez la version Apache Spark Batch ou Apache Spark Streaming du composant, saisissez le préfixe avant le chemin d'accès au fichier :
Les chemins vers les dossiers ne sont pas supportés. Si le paramètre supplémentaire n'est pas défini, la fonction retourne une chaine vide ou 0. |
Dans l'exemple suivant, la valeur masquée est l'une des valeurs définie comme paramètres supplémentaires.
Valeur d'entrée | Method | Paramètres supplémentaires | Exemples de valeurs masquées |
---|---|---|---|
21 | Randomly | "help,documentation" | help |