database:utilitaires-imports

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
database:utilitaires-imports [2022/04/16 20:14] – [Supprimer des colonnes] jpmilcentdatabase:utilitaires-imports [2024/09/04 16:13] (Version actuelle) – [Extraction de lignes d'un fichier] jpmilcent
Ligne 33: Ligne 33:
  
 Compter le nombre de ligne d'un fichier : <code bash> wc -l synthese.csv </code> Compter le nombre de ligne d'un fichier : <code bash> wc -l synthese.csv </code>
 +
 +==== Visualiser un fichier TSV dans un terminal ====
 +Pour afficher les premières lignes d'un fichier TSV sans l'ouvrir en totalité (gros volume) dans un terminal :
 +  * Créer un fichier ''pretty_tsv.sh'' dans ''~/bin'' et y insérer les lignes suivantes : <code bash>
 +#!/bin/bash
 +perl -pe 's/((?<=\t)|(?<=^))\t/ \t/g;' "$@" | head -n 10 | column -t -s $'\t' | exec less  -F -S -X -K 
 +</code>
 +  * Editer ''~/.bash_aliases'' et insérer la ligne suivante : <code bash>
 +# pretty tsv with first ten lines
 +alias watch='~/bin/pretty_tsv.sh'
 +</code>
 +  * Vous pouvez lancer la commande ''watch ../chemin/vers/fichier'' dans le Terminal
  
 ===== Extraire les lignes comprenant un nombre de tabulation anormal ===== ===== Extraire les lignes comprenant un nombre de tabulation anormal =====
Ligne 102: Ligne 114:
 Les lignes possédant une valeur dupliquée dans la colonne sélectionnée devraient Les lignes possédant une valeur dupliquée dans la colonne sélectionnée devraient
 apparaître avec un texte rouge. apparaître avec un texte rouge.
 +
 +===== Trouver les valeurs NULL dans les champs obligatoires =====
 +  * Vérifier la présence de valeur NULL (=''\N'') dans la colonne 33 (= //nom_cite//) :
 +    * Vérifier que la colonne 33 correspond bien au champ //nom_cite// avec : <code bash>head -1 synthese.csv | cut -f33</code>
 +    * Extraction des lignes contenant "\N" dans la colonne 33 : <code bash>grep -P '^(?:[^\t]+\t){32}\\N\t' synthese.csv  > synthese.col33_null.csv</code>
 +
  
 ===== Affichage/Extraction de lignes contenant une chaine particulière ===== ===== Affichage/Extraction de lignes contenant une chaine particulière =====
Ligne 139: Ligne 157:
  
 ===== Remplacer le contenu d'une colonne ===== ===== Remplacer le contenu d'une colonne =====
-Remplacer le contenu de la 33ème colonne dans le fichier //synthese.csv// quand elle contient ''\N'' avec la commande : '' sed -i -E 's#^(([^\t]*\t){32})\\N\t#\1\t#' synthese.csv ''+Remplacer le contenu de la 33ème colonne dans le fichier //synthese.csv// quand elle contient ''\N'' avec la commande : <code bash> sed -i -E 's#^(([^\t]*\t){32})\\N\t#\1\t#' synthese.csv </code>
 ===== Remplacement de chaine ===== ===== Remplacement de chaine =====
  
  • database/utilitaires-imports.1650140083.txt.gz
  • Dernière modification : 2022/04/16 20:14
  • de jpmilcent