By | 13 Agustus 2020

Ada kalanya dalam pemrosesan suatu file text kita mengalami kesulitan akibat adanya karakter non-ASCII. Keberadaan karakter ini dalam suatu file text dapat mengakibatkan perubahan baris/kolom ketika text tersebut diproses. Yang paling sering (saya termui) adalah file text berformat CSV dan XML.

Ada 2 cara (yang saya tahu dari hasil pencarian di google search) untuk mencari/melihat karakter non-ASCII, yaitu:

A. Menggunakan perintah grep (Global Regular Expression Print)

$ grep --color='auto' -P -n "[\x80-\xFF]" file.csv

$ grep --color='auto' -P -n "[^\x00-\x7F]" file.csv

B. Menggunakan perintah perl (Practical Extraction and Report Language)

$ perl -ne 'print "$. $_" if m/[\x80-\xFF]/' file.csv

Semoga bermanfaat.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *