数据迁移过程中的字符集编码问题

字数 1027阅读 4439评论 0赞 0

数据迁移过程中，文件一落地就涉及到文件字符集编码问题。为保证正确的数据入库，几处与字符集相关的设置需要注意。

1.首先是文件的字符集确认和转换。

案例：有一个文件需要导入数据库，数据库编码为utf-8。文件中的字段分割符为“|”，在导入过程中指定1386（GBK）的话会报错，原因是“|”超出了字符定义范围；但是如果指定1208（utf-8）的话，虽然文件被顺利导入数据库，但是当查询的时候遇到中文会报错（有一点很奇怪需要注意，这里说的报错是使用查询工具，如TOAD，AQUA等，应用程序查询也会出错，不过如果在服务器上使用CLP查询会正确显示中文）。没办法确定文件的编码方式，不过怀疑应该是1386（GBK），也就是说我们使用错误的编码存入了数据库而导致错误。使用iconv工具将该文件从GBK转为utf-8，重新导入，问题解决。结果可以断定，该文件原编码肯定是GBK。由于我们导入的时候指定编码为1208，则数据库直接把1386的编码作为1208写入了数据库，没有经过编码转换。

在Linux中查看文件编码可以使用Vim编辑器，打开文件后输入“:set fileencoding”就会显示当前文件的编码格式，例如utf-8。由于在AIX中目前还没有安装Vim，所以还没有找到有效查看文件编码的方法。

在AIX中转换文件编码可以使用iconv命令，曾完成从GBK到UTF-8的转换。

2.LOAD/IMPORT编码设置

首先需要使用db2set db2codepage来设置当前系统代码页，设置完需要terminate，使之生效。缺省情况下（即不指定codepage），LOAD认为输入文件使用数据库代码页编码的，直接将文件转化为数据库codepage编码。如果输入文件不是以数据库codepage编码的，可以通过codepage修饰符来指定文件编码从而正确导入文件。而缺省情况下IMPORT使用程序人为输入文件中的数据是用当前系统的代码页（即db2codepage)编码的，当将数据文件导入数据库时，DB2会自动将数据文件从当前系统代码页转换成数据库代码页。如果输入文件不是当前系统的代码页编码的，也可以通过codepage修饰符来指定文件编码从而导入正确文件。

可以参考：http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-1007wucx/index.html

3.EXPORT编码

字符编码 load export import

著作权归作者所有

如果觉得我的文章对您有用，请点赞。您的支持将鼓励我继续创作！

添加新评论0 条评论

Ctrl+Enter 发表

匿名评论

数据迁移过程中的字符集编码问题

添加新评论0 条评论

作者其他文章

相关问题