Httpclient HttpGet 中文乱码问题

  昨天被HttpGet抓取的中文乱码折腾的要死,在网上找了半天也没到找到解决方案,好吧,一点一点调试,最后才发现有非中文汉字出现才导致乱码。比如这个,这是什么文?岛语?找到原因就很容易解决了,用正则.


private static String getZh(String msg) {
    Pattern pattern = Pattern.compile("[\u4E00-\u9FA5a-zA-Z0-9]{1,}");
    Matcher matcher = pattern.matcher(msg);
    StringBuffer stb = new StringBuffer();
    while (matcher.find()) {
        stb.append(matcher.group());
    }
    return stb.toString();
}

 问题解决..

您有什么不同的意见或看法? 欢迎留言共同学习,谢谢。

本文链接:http://www.hihubs.com/article/231

关键字:Httpclient HttpGet 中文乱码问题

若无特别注明,文章皆为Hubs'm原创,转载请注明出处...O(∩_∩)O