Httpclient HttpGet 中文乱码问题

  昨天被HttpGet抓取的中文乱码折腾的要死,在网上找了半天也没到找到解决方案,好吧,一点一点调试,最后才发现有非中文汉字出现才导致乱码。比如这个,这是什么文?岛语?找到原因就很容易解决了,用正则.


private static String getZh(String msg) {
    Pattern pattern = Pattern.compile("[\u4E00-\u9FA5a-zA-Z0-9]{1,}");
    Matcher matcher = pattern.matcher(msg);
    StringBuffer stb = new StringBuffer();
    while (matcher.find()) {
        stb.append(matcher.group());
    }
    return stb.toString();
}

 问题解决..