
Ada kalanya dalam pemrosesan suatu file text kita mengalami kesulitan akibat adanya karakter non-ASCII. Keberadaan karakter ini dalam suatu file text dapat mengakibatkan perubahan baris/kolom ketika text tersebut diproses. Yang paling sering (saya termui) adalah file text berformat CSV dan XML.
Ada 2 cara (yang saya tahu dari hasil pencarian di google search) untuk mencari/melihat karakter non-ASCII, yaitu:
A. Menggunakan perintah grep (Global Regular Expression Print)
$ grep --color='auto' -P -n "[\x80-\xFF]" file.csv
$ grep --color='auto' -P -n "[^\x00-\x7F]" file.csv
B. Menggunakan perintah perl (Practical Extraction and Report Language)
$ perl -ne 'print "$. $_" if m/[\x80-\xFF]/' file.csv
Semoga bermanfaat.