博客爬虫的特点在于通过RSS来获取内容。
此篇实例我们用到了feedly来解析RSS的内容。
npm install
node BlogCrawler.js
测试用例
需求:根据一个bog 的 URL 地址进行爬虫(示例URL)
已知问题:
- URL重定向(解决方案)
- RSS URL重定向
- RSS URL需补全
- 页面不存在
- 本身RSS内容为空
- 找不到RSS URL
开始分析
-
第一步:
-
第二步:
-
第三步:
- 拿到 RSS URL
- 解析RSS URL
- 利用node-feedly
- 调用 feedlyContents() 并输出;