Git Product home page Git Product logo

bilispider's Issues

视频分区对应表 不全

例如b站出现了咨询专区 tid>200: 201:科学科普-科技 ; 203 :热点-资讯;204:环球-资讯 ;205:社会-资讯;206:综合-资讯

关于VPS存储空间不足的临时解决方案

背景

项目开始的时候由于错误估计了B站用户数据量的大小,未能合理的设计架构,导致了目前VPS的磁盘空间无法容纳未来爬取的所有数据。

方案A

开启mongo自带的压缩功能,每隔一段时间,将VPS上的数据回传本地,并删除VPS上的相应数据。等到所有数据爬完,对数据进行汇总整理:

  • 检查遗漏数据
  • 对字段进行裁剪
 [yxlllc] 节省空间的原则:
1. 重复数据只记录一次(比如fans 和 followers)
2. 相似的数据间只记录不同的部分 (比如 face 里的地址片段)
3. 只记录逻辑链条顶层的数据 (比如值经验值可以推出等级,则只记录经验值)
4. 尽可能数字化数据(比如性别用012表示)
5. 对数据库进行压缩
  • 改进数据库,重新把处理后的数据上传到空间充足的服务器

无需对现有架构进行调整,大家可以继续分布式爬虫。

PS:

  • mongo自带的压缩功能,使用样本数据测试后发现相比默认参数压缩率能达到68%
  • 即使启用最高压缩级别,未裁剪的数据仍然需要82G的空间,而裁剪字段并不能做到75%的裁剪效率。
  • 默认情况下mongo已经启用压缩功能(比较弱鸡的压缩),120万的数据大概占用600M的磁盘空间

方案B(备选)

把Mongo数据库迁移到本地一台空间充足,24小时在线的机器,以VPS作为中转服务器。此方案需要对现有架构进行一定的调整,调整包括对字段进行裁剪。

目前按方案A进行处理

可以赞助域名和网站

  1. 域名例如 uupers.com 我可以赞助你们啊
  2. 网站如果不介意我可以给你们用 jekyll 搭一个,不过要你们定设计稿

求视频数据

uupers团队你们好 请问数据已经停止维护了吗?我最近在做一个关于bilibili视频信息的分析,能否使用一下你们的数据呢?非常感谢!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.