Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
database:utilitaires-imports [2021/05/07 12:57] – [Stats] jpmilcent | database:utilitaires-imports [2024/09/04 16:13] (Version actuelle) – [Extraction de lignes d'un fichier] jpmilcent | ||
---|---|---|---|
Ligne 33: | Ligne 33: | ||
Compter le nombre de ligne d'un fichier : <code bash> wc -l synthese.csv </ | Compter le nombre de ligne d'un fichier : <code bash> wc -l synthese.csv </ | ||
+ | |||
+ | ==== Visualiser un fichier TSV dans un terminal ==== | ||
+ | Pour afficher les premières lignes d'un fichier TSV sans l' | ||
+ | * Créer un fichier '' | ||
+ | #!/bin/bash | ||
+ | perl -pe ' | ||
+ | </ | ||
+ | * Editer '' | ||
+ | # pretty tsv with first ten lines | ||
+ | alias watch=' | ||
+ | </ | ||
+ | * Vous pouvez lancer la commande '' | ||
===== Extraire les lignes comprenant un nombre de tabulation anormal ===== | ===== Extraire les lignes comprenant un nombre de tabulation anormal ===== | ||
Ligne 53: | Ligne 65: | ||
<code bash> | <code bash> | ||
# Afficher le nombre de tabulation des lignes du fichier contenant un extrait de la synthese | # Afficher le nombre de tabulation des lignes du fichier contenant un extrait de la synthese | ||
- | # Le chemin / | + | # Le chemin /data-nvme/jpmilcent/tmp/ correspond à un dossier temporaire sur un disque rapide SSD NVM-E |
- | grep -n -o -P " | + | grep -n -o -P " |
# Extraire le nombre de tabulation anormal (**ici différent de 58**) et le numéro de la ligne correspondante : | # Extraire le nombre de tabulation anormal (**ici différent de 58**) et le numéro de la ligne correspondante : | ||
- | # Le chemin / | + | # Le chemin /data-nvme/jpmilcent/tmp/ correspond à un dossier temporaire sur un disque rapide SSD NVM-E |
- | grep -n -o -P " | + | grep -n -o -P " |
# Supprimer le nombre de tabulation (occupant les 8 premières caractères de chaque ligne) | # Supprimer le nombre de tabulation (occupant les 8 premières caractères de chaque ligne) | ||
Ligne 80: | Ligne 92: | ||
==== Extraire les lignes dupliquées ===== | ==== Extraire les lignes dupliquées ===== | ||
- | * Extraire les lignes dupliquées : <code bash> sort -T / | + | * Extraire les lignes dupliquées : <code bash> sort -T /data-nvme/jpmilcent/tmp/ synthese.csv | uniq -cd > synthese.duplicates.csv </ |
* Extraire les lignes dupliquées en se basant seulement sur le contenu de la première colonne (remplacer le chiffre dans '' | * Extraire les lignes dupliquées en se basant seulement sur le contenu de la première colonne (remplacer le chiffre dans '' | ||
Ligne 102: | Ligne 114: | ||
Les lignes possédant une valeur dupliquée dans la colonne sélectionnée devraient | Les lignes possédant une valeur dupliquée dans la colonne sélectionnée devraient | ||
apparaître avec un texte rouge. | apparaître avec un texte rouge. | ||
+ | |||
+ | ===== Trouver les valeurs NULL dans les champs obligatoires ===== | ||
+ | * Vérifier la présence de valeur NULL (='' | ||
+ | * Vérifier que la colonne 33 correspond bien au champ // | ||
+ | * Extraction des lignes contenant " | ||
+ | |||
===== Affichage/ | ===== Affichage/ | ||
Ligne 133: | Ligne 151: | ||
<code bash> cut --complement -f 36-37 synthese.csv > synthese.cuted.csv </ | <code bash> cut --complement -f 36-37 synthese.csv > synthese.cuted.csv </ | ||
+ | Sélections de colonnes pour réaliser un fichier de corrections. Ex. sélection des colonnes 1, 3 et 5 à 6, les autres sont supprimées : | ||
+ | <code bash> cut --complement -f 2,4,7- synthese.csv > synthese.fix-2022-03-29.csv </ | ||
+ | |||
+ | **NOTES** : préalablement à l' | ||
+ | |||
+ | ===== Remplacer le contenu d'une colonne ===== | ||
+ | Remplacer le contenu de la 33ème colonne dans le fichier // | ||
===== Remplacement de chaine ===== | ===== Remplacement de chaine ===== | ||
Ligne 171: | Ligne 196: | ||
# Recréation du fichier synthese.csv à partir des 2 fichiers de 2 millions de lignes | # Recréation du fichier synthese.csv à partir des 2 fichiers de 2 millions de lignes | ||
- | cat synthese.2.csv >> synthese.1.csv ; mv synthese.1.csv synthese.csv | + | cat synthese.2.csv >> synthese.1.csv ; mv synthese.1.csv synthese.csv ; rm -f synthese.2.csv |
</ | </ |