如何删除脚本中的所有汉字
来源:岁月联盟
时间:2012-01-12
从GB2312-1980编码开始,汉字都是采用双字节编码。为了与系统中基本的ASCII字符集区分开,所有汉字编码的每个字节的第一位都是1。例如:“啊”字的编码为0xB0A1。GB2312的汉字编码规则为:第一个字节的值在0xB0到0xF7之间,第二个字节的值在0xA0到0xFE之间。GB12345和GB13000是对GB2312-1980的扩充,所有已经包含在GB2312中的汉字编码不变,另外增加更多的码位。其编码规则大致为:第一个字节的值在0x81到0xFE之间,第二个字节的值在0x40到0xFE之间。由于GB13000是对GB2312的扩展,所以也被成为GBK。
那剩下的问题就简单了,我用sed把符合这些编码格式的用空替代不就解决了吗。
sed的命令表达式如下:
#sed -r "s/[/x81-/xFE][/x40-/xFE]//g" file
执行一下发现有问题,原来系统的编码设置问题,更新一下:
#LANG=C sed -r "s/[/x81-/xFE][/x40-/xFE]//g" file
C代表英文环境ASCII 编码格式,再次运行,一切OK。
本文出自 “小苗” 博客