让我们一起爱米兰
站内搜搜:
移动设备
请扫描二维码
或访问
m.milan100.com
您所在的位置 -> 米兰百分百 -> JAVA -> java抓取网页的乱码问题(通用)

java抓取网页的乱码问题(通用)

点击数:1452 发表时间:2011-10-12 18:20:23 作者: 来源链接:
分享到:
分享到微信

//解决抓取页面的乱码问题

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;

public class DownPage {
    public static void main(String args[]) throws IOException{

//抓取的页面地址
        String urlStr = "http://www.baidu.com";
        URL url = new URL(urlStr);
        URLConnection connection = url.openConnection();

//获得该网页的编码
        String ss = connection.getContentType();
        System.out.println(ss);

//查InputStreamReader的构造方法,gb2312为该页面的编码
        BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),"gb2312"));
        File file = new File("d:/a.html");
        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)));
        if(br != null){
            String s = null;
            while((s = br.readLine())!=null){
                //String sss = new String(s.getBytes("gb2312"),"windows-31J");
                System.out.println(s);
                bw.write(s);
                bw.flush();
            }
            bw.close();
            br.close();
        }
    }
}

1
很 好
0
一 般
0
差 劲
热门新闻
相关文章
上一篇: java ArrayList去重复值
下一篇: 【学习】JSP教程
评论区
匿名

返回首页 | 收藏本页 | 回到顶部
Copyright 2010. 米兰百分百 Powered By Bridge.
京ICP备15050557号