paulxie
作者paulxie·2012-09-28 07:21
数据库管理员·CMBC

数据迁移过程中的字符集编码问题

字数 1027阅读 4439评论 0赞 0
数据迁移过程中,文件一落地就涉及到文件字符集编码问题。为保证正确的数据入库,几处与字符集相关的设置需要注意。

1.首先是文件的字符集确认和转换。
案例:有一个文件需要导入数据库,数据库编码为utf-8。文件中的字段分割符为“|”,在导入过程中指定1386(GBK)的话会报错,原因是“|”超出了字符定义范围;但是如果指定1208(utf-8)的话,虽然文件被顺利导入数据库,但是当查询的时候遇到中文会报错(有一点很奇怪需要注意,这里说的报错是使用查询工具,如TOAD,AQUA等,应用程序查询也会出错,不过如果在服务器上使用CLP查询会正确显示中文)。没办法确定文件的编码方式,不过怀疑应该是1386(GBK),也就是说我们使用错误的编码存入了数据库而导致错误。使用iconv工具将该文件从GBK转为utf-8,重新导入,问题解决。结果可以断定,该文件原编码肯定是GBK。由于我们导入的时候指定编码为1208,则数据库直接把1386的编码作为1208写入了数据库,没有经过编码转换。

在Linux中查看文件编码可以使用Vim编辑器,打开文件后输入“:set fileencoding”就会显示当前文件的编码格式,例如utf-8。由于在AIX中目前还没有安装Vim,所以还没有找到有效查看文件编码的方法。
在AIX中转换文件编码可以使用iconv命令,曾完成从GBK到UTF-8的转换。

2.LOAD/IMPORT编码设置

首先需要使用db2set db2codepage来设置当前系统代码页,设置完需要terminate,使之生效。缺省情况下(即不指定codepage),LOAD认为输入文件使用数据库代码页编码的,直接将文件转化为数据库codepage编码。如果输入文件不是以数据库codepage编码的,可以通过codepage修饰符来指定文件编码从而正确导入文件。而缺省情况下IMPORT使用程序人为输入文件中的数据是用当前系统的代码页(即db2codepage)编码的,当将数据文件导入数据库时,DB2会自动将数据文件从当前系统代码页转换成数据库代码页。如果输入文件不是当前系统的代码页编码的,也可以通过codepage修饰符来指定文件编码从而导入正确文件。

可以参考:http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-1007wucx/index.html

3.EXPORT编码

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关问题

X社区推广