Git Product home page Git Product logo

bdbc-kg-nlp / covid-19-tracker Goto Github PK

View Code? Open in Web Editor NEW
82.0 6.0 28.0 5.29 MB

北航大数据高精尖中心研究团队进行数据来源的整理与获取,利用自然语言处理等技术从已公开全国4626确诊患者轨迹中抽取了基本信息(性别、年龄、常住地、工作、武汉/湖北接触史等)、轨迹(时间、地点、交通工具、事件)及病患关系形成结构化信息

License: MIT License

covid-19 tracking nlp extraction visualization

covid-19-tracker's Introduction

新冠疫情确诊患者轨迹结构化数据

随着新冠疫情发展与国家疫情相关数据公开,新冠疫情确诊患者轨迹、所在小区及相关移动信息等成为在疫情防控中大众关心的热点信息,越来越多政府部门也陆续公开相关确诊患者的非隐私信息。同时,该部分数据也为相关研究人人、政府部门研究疫情传播与防控提供了重要数据参考。

但由于全国公开数据分散,多为文本非结构化数据,难以直接迅速形成有价值的结构化信息为后续的研究提供深度支撑。北航大数据高精尖中心研究团队进行数据来源的整理与获取,利用自然语言处理等技术从已公开全国各省市直辖区4634确诊患者轨迹(更新至2020年3月22日,以下同)中抽取了基本信息(性别、年龄、常住地、工作、武汉/湖北接触史等)、轨迹(时间、地点、交通工具、事件)及病患关系形成结构化信息。希望能为疫情传播与防控相关研究提供有效数据支撑。数据将保持定期持续更新、持续提高数据抽取精准性,如有不足请大家批评指正,欢迎各位自然语言处理、数据分析研究者取用,也欢迎大家共同完善此数据集。

目前该数据已作为CCF科技抗疫大赛“重大突发公共卫生事件处理解决方案”的参考数据集,欢迎大家参赛使用 https://www.datafountain.cn/competitions/426/datasets

版本更新

2月23日,数据v1版上线,数据更新至2月20日

2月23日,数据v1.1版提交,人工过滤、优化安徽、广东、河南、江苏、山东、山西、浙江省数据

2月25日,将提交数据v1.2版本,将完成剩余省份数据优化

2月26日,将提交v2版本,数据更新至2月26日。发布“确诊患者轨迹查询与可视化系统”

3月前将上线第一版英文轨迹数据与病例关系数据,同时该数据集也将发布至“国家人口健康科学数据中心”,让更多科学研究人员和公众能够使用该数据

如有相关问题欢迎大家在issue中留言,也欢迎大家对于优化的数据提交request

数据介绍

本数据集采集自全国政府官网、卫健委等官方途径,现共获取4634位确诊患者轨迹信息(截止至3月22日,数据将持续更新)。数据集提供获取的原始数据(Word)、结构化数据(Json\Xml\csv),可通过Github方式获取。--Xml与Csv将在今日上传(0222)

结构化数据属性

确诊患者原始公开数据

图片替换文本

抽取结构化json数据

图片替换文本

公开数据以患者为单位,分为基本信息和轨迹信息两类信息:

基本信息包括病例编号(官方公布编号)、性别、年龄、常住地、工作、病例公布地区(省、市、区县)、确诊时间、武汉(湖北)接触史、武汉(湖北)接触史描述,共9种属性。轨迹信息包括时间、事件、交通工具、途经地(起点终点)及经纬度、描述,共5种属性。

确诊患者轨迹可视化分析与查询

北航大数据科学与脑机智能高精尖中心研究团队也已开发‘确诊患者轨迹可视化分析与查询’可视化系统,系统目前正在完善中,即将发布,敬请期待。同时,病患关系结构化数据也即将发布

致谢

特此感谢支持数据公开与系统研发工作的北航高精尖中心及参与这项工作的各位团队成员(排名按字母顺序、不分先后):

关旭涛 何睿智 李卓然 梁为寅 罗培祥 齐楚涵 张淑慧 郑春晓 孙凯 杨凤涛

数据使用说明

本数据仅开源作为研究使用,如您使用该数据产出相关研究结果,非常欢迎您在issue中与大家分享,相关研究成果成果请引用:

中文署名:北京航空航天大学大数据科学与脑机智能高精尖创新中心,北京, 100191

英文署名: Beijing Advanced Innovation Center for Big Data and Brain Computing, Beihang University, Beijing, 100191

如有商业用途请联系我们.

关于我们

北京市大数据科学与脑机智能高精尖创新中心

English version will come soon

covid-19-tracker's People

Contributors

chunxiaozheng avatar zhiyuanhubj avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar

covid-19-tracker's Issues

数据源

没有湖北省的病例轨迹数据嘛?

Misclassification

海南省.json 被归到xml里面去了

Keep up the good works!
本科生先star为敬hhhh

坐标系统

非常感谢你们这项工作!
不知道方便说明一下数据的坐标是采用了什么坐标系统不?我找了一下没找到说明,可能是我遗漏了

你好,请问为什么删去了广东等省的数据整理呢

您好,我是上海交通大学的一名硕士研究生,目前正与团队进行新冠肺炎潜在感染患者挖掘的研究工作。在删除历史中看到仓库中整理过的广东省等省份的轨迹数据被删去,冒昧请问其中原因,以及可否恢复这些被删除省份的数据呢?谢谢。

方法

想请教一下这个具体使用什么方法实现的

数据优化

今晚8点将上线一版优化版本,大家可以收藏随后下载。当前版本更新时间为2月22日12时

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.