Git Product home page Git Product logo

data.go.kr-crawling's Introduction

data.go.kr-crawling

건강정보, 의약품 크롤링 ckend dir

branch architecture

  • master
    • development

      • local : feature

      • feature branch

      $ git checkout -b myfeature(feat_[issue-number]) development
      
      $ git commit -m "close #1 - make some function" 이슈 닫아줌
      
      $ git checkout devleopment
      $ git merge --no-ff myfeature 필히 머지커밋 만들어줌
      $ git branch -d myfeature
      4 git push origin development
      
      
      • development -> master
      commit
      
      development branch 는 커밋 rebase , squash 하지 않고 git push
      master에는 pull request 를 통해 squash 로 머지 
      
      tagging
      
      $ git tag -a [version-number]
      $ git push origin [version-number]
      
      
      delete
      
      $ git branch -d feat_[issue-number]
      

      https://nvie.com/posts/a-successful-git-branching-model/

data.go.kr-crawling's People

Contributors

jeongtai avatar q00 avatar

Stargazers

 avatar  avatar  avatar  avatar

Watchers

 avatar

data.go.kr-crawling's Issues

공공데이터 더 추가할 시에 dictionary 변수 자동 추가

  • 의약품 성분 약효 정보
  • 의약품 처방정보
  • 건강보험심사평가원 병원약국찾기 정보
  • 건강보험심사평가원 약국정보 서비스
  • 건강보험심사평가원 진료행위 정보 서비스
  • 건강기능식품 대상별 정보(DB) 서비스

해당 key - value 매칭작업 너무 작업이 오래걸려 자동으로 추가할 방법에 대해서 생각이 필요

  • 크롤링 방법
  • 엑셀을 읽는방법

queue validate 검사

validate에서 거르지 않는지 계속 똑같은 데이터를 가져오고 있다
똑같은 데이터를 가져오지않고 다 가져왔을 시 worker가 queue에만 갈 수 있도록 할 수 있게 만들 필요가 있음

base url, urlList 처리하는 방법

어떻게 처리할 것인지에 대해 방안 필요

  • 파일로 따로 보관, baseUrl을 키로, urlList를 밸류로 하는 자료구조
  • 그냥 코드에 다 넣어서사용

10만개 넘어갈 경우 너무 오래걸림

해결방법

  • 정보 제공한 곳에 전화하여 numOfRows를 백개 이상으로 늘려달라고 제안

  • 쓰레드 사용하여 a~z까지 비동기 코드 사용 lock으로 엑셀 입력 제한
    - 다른 방법으로는 여러 파일을 동시에 만들었다가 나중에 합치는 방법이 있음
    - gevent 사용하기

  • csv와 pandas를 xlsx대신 사용하기
    - csv 합치기

change scaffolding

code 일반화부분을 메인으로 남겨두고
api마다 개별 모듈로 빼서 실행

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.