Git Product home page Git Product logo

bilibili_uploader_analyze's Introduction

Bilibili UP_information Scrapy

DEMO version || Fin version

本项目抽取数据为 HIVE
本项目所使用的数据可视化为 Excel
Using HIVE to analyze this project's data.
Using Excel to visualize this project's result.

该爬虫仅供学习使用!
This project is for learning only!

文件介绍_Introduction

  • user_bilibili.py:爬取up主信息的文件
    For uploaders' personal information
  • video_info_for_up_bilibili.py:爬取up主所有视频信息的文件
    For all the information of the uploaders' videos
  • danmu_bilibili.py:弹幕下载器(注意只能爬当前弹幕池的弹幕,非所有历史弹幕)
    For the barrage of all the videos(Tips:Only for the barrage in current POOL)
  • danmu_wordcloud.py:所给弹幕的词云
    For the wordcloud of the given barrage
  • av_to_comment.py:生成"哔哩哔哩AV号.txt"以便使用评论抓取.exe抓取评论
    Generating "哔哩哔哩AV号.txt" which will be further used by the exe
  • 哔哩哔哩视频评论抓取by墨问非名[beta][20180322].exe:抓取评论
    Scraping all the comments in the videos
  • comment_bilibili.py:处理评论信息
    Dealing with the comments' information
  • Hive_HQL.sql:一些抽取数据的HQL/SQL脚本
    The HQL/SQL script for extracting data

Bilibili_UP主成绩报告(DEMO)

跪求Star Orz...

UP主成绩初步分析(DEMO)

基本概况

  • 总UP数:19(选取各区个人比较喜欢的UP主,使用时各位可随意发挥)
    hanser、泠鸢yousa||papi酱||凉风有性胖次君、LexBurner||赤九玖、咬人猫||暴走漫画、木鱼水心、谷阿莫||
    渗透之C君、STN工作室、怕上火暴王老菊、敖厂长、神奇陆夫人、逍遥散人、黑桐谷歌||吃素的狮子、茶几君梦二||

  • 抓取用户所有视频存入数据库但抽取近一年的视频作品作为样本分析:(发稿日期)2017.04.01—2018.04.18

  • 抓取字段:共四张表,具体字段详见程序。

产量

产量
可以看到这一年当中,影视区的up主普遍高产,游戏区次之。其中陆夫人554个视频堪称“母猪”。

播放量

播放量
咬人猫、敖厂长、papi酱的均播放量为前三甲。
影视区和游戏区其他up主则因为视频数基数大,这一指标有所影响。

硬币数

硬币数
敖厂长的均硬币数遥遥领先,有5w+之多,可见其《囧的呼唤》系列视频之精。“哥们”可谓非常良心了。

弹幕量

弹幕量
C菌的均弹幕量和敖厂长旗鼓相当,并达到4w+;第二集团则有散人蕾丝,达到2w左右。
他们的视频内容更吸引大家发送弹幕吐槽。

收藏量

收藏量
咬人猫的均收藏量达到惊人的3w+,结合其播放量,可见咬人猫非常受欢迎,其视频会被反复观看。
鬼畜区音乐区动画区收藏量都不错,游戏区和影视区则偏少。可能和视频内容以及定位有关。

评论数

评论数
B站评论区是观众留言讨论的地方。蕾丝的动画吐槽、影评、广告等视频更吸引大家留下自己的见解,每个视频平均有7000+条评论。(包含楼中楼)

非常适合做广告啊啊啊啊啊!

评论观众质量评估(以屎蛋和狮子为例,其他up主依次可做)

抽取所有在屎蛋和狮子近一年的视频中发表评论的用户数据。
观众等级
可见,大多观看他们视频并留言的观众大多为 4、5级
屎蛋和狮子观众的平均等级分别为 4.454.20
两位up主的粉丝交集占两者总观众7%,因而从留言评论的角度来看,两位up主粉丝交集一般。

观众VIP
会员方面,两者的留言观众中,非会员部分均超过了50%。具体会员/非会员比:屎蛋为0.96:1;狮子为0.72:1

词云(以屎蛋和狮子为例,其他up主依次可做)

屎蛋的抽样弹幕词云:
屎蛋词云
狮子的抽样弹幕词云:
狮子词云
大家自行体会吧。(ง•̀_•́)ง

鸣谢 Thanks

airingursb

bilibili_uploader_analyze's People

Contributors

kaygoym avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.