Java实现爬虫给App提供数据（Jsoup网络爬虫）

概述

爬虫是一种自动化的软件程序，可以模拟人类用户的行为，在互联网上自动收集获取数据并进行分析。在实际应用中，爬虫可以被用于网站数据的抓取、搜索引擎优化、数据分析等领域。Java是一种流行的编程语言，在爬虫方面也有很好的支持和工具。其中，Jsoup是一种高效的Java网络爬虫框架，可以用于爬取和解析HTML、XML文件，非常适用于Web开发和数据挖掘。

Jsoup的基本用法

引入依赖

在使用Jsoup之前，需要先将相关的依赖导入到项目中，可以通过Maven或Gradle进行安装配置。也可以在JAR包的形式下下载Jsoup并手动导入到项目中。

爬取HTML内容

通过Jsoup可以快速而方便地爬取网页中的HTML内容。以下是一个基本的爬取HTML的示例代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class App {
    public static void main(String[] args) {
        try {
            //使用Jsoup连接URL并请求页面
            Document doc = Jsoup.connect("https://www.baidu.com").get();
            //通过选择器获取页面中所有的超链接
            Elements links = doc.select("a[href]");
            for (Element link : links) {
                //获取每个链接的地址
                System.out.println(link.attr("href"));
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在上述示例代码中，我们通过Jsoup连接到百度首页并请求页面，然后使用选择器获取页面中所有的超链接。最后打印出每个链接的地址。

解析HTML内容

除了可以爬取HTML内容之外，Jsoup还可以解析HTML内容。以下是一个基本的解析HTML的示例代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class App {
    public static void main(String[] args) {
        try {
            //使用Jsoup连接URL并请求页面
            Document doc = Jsoup.connect("https://www.baidu.com").get();
            //获取页面标题
            String title = doc.title();
            System.out.println("Title : " + title);
            //获取页面元素
            Element element = doc.getElementById("mnav");
            //获取元素内容
            String text = element.text();
            System.out.println("Text : " + text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在上述示例代码中，我们同样连接到百度首页并请求页面，然后获取页面标题和指定元素的内容。

爬虫实践

示例一：爬取天气数据

以下是一个使用Jsoup爬取天气数据的示例代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class App {
    public static void main(String[] args) {
        try {
            //使用Jsoup连接URL并请求页面
            Document doc = Jsoup.connect("http://www.weather.com.cn/weather/101010100.shtml").get();
            //获取页面元素
            Element weather = doc.getElementById("7d");
            //获取7日天气列表
            Elements list = weather.getElementsByTag("li");
            for (Element item : list) {
                //获取日期
                String date = item.getElementsByTag("h1").first().text();
                //获取天气状况
                String weatherInfo = item.getElementsByTag("p").first().text();
                //输出天气数据
                System.out.println(date + " : " + weatherInfo);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在上述示例代码中，我们爬取中国天气网的天气数据，并获取7日天气列表的日期和天气状况。

示例二：爬取新闻列表数据

以下是一个使用Jsoup爬取新闻列表数据的示例代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class App {
    public static void main(String[] args) {
        try {
            //使用Jsoup连接URL并请求页面
            Document doc = Jsoup.connect("https://news.baidu.com/").get();
            //获取页面元素
            Element news = doc.getElementById("pane-news");
            //获取新闻列表
            Elements list = news.getElementsByTag("li");
            for (Element item : list) {
                //获取新闻标题
                String title = item.getElementsByTag("a").first().text();
                //获取新闻来源
                String source = item.getElementsByTag("a").last().text();
                //输出新闻数据
                System.out.println(title + " : " + source);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在上述示例代码中，我们爬取百度新闻的新闻列表数据，并获取每条新闻的标题和来源。