前言
爬虫常见有两种方式
- 通过接口抓取
- 通过网页抓取
通过接口抓取要模拟接口的请求头和传参
通过网页爬取需要加载网页后解析网页
网页抓取
puppeteer(NodeJS)
使用无头浏览器模式抓取。
如果使用NodeJS推荐使用这个,比较好用,谷歌出品。
官方文档
安装依赖
1 | npm install puppeteer@24.8.2 pdf-lib@1.17.1 |
其中
puppeteer
把HTML转为PDFpdf-lib
把封面、目录、正文的PDF进行合并
安装慢可以使用
1 | npm install -g cnpm --registry=https://registry.npmmirror.com |
示例
1 | const puppeteer = require("puppeteer"); |
HtmlUnit(Java)
安装依赖
1 | <dependencies> |
示例
1 | import com.gargoylesoftware.htmlunit.WebClient; |
WebMagic
需要登录的使用这个不行。
添加依赖
1 | <dependency> |