웹 크롤러 (web-crawler)

딥러닝에 필요한 데이터를 인터넷에서 크롤링하기 위한 기능들을 모음 입니다.

환경

$ pip install tqdm
$ pip install pandas
$ pip install bs4
$ pip install wget
$ pip install pymongo

$ python naver_news_csv.py [--year] [--output] [--threads] [--sleep]

진행중 상태는 각 thread 별로 {thread_id: date(complete/total)} 형태로 표현 됩니다.
{'0': '20191112( 0/ 2047)', '1': '20191111( 0/ 2144)', '2': '20191018( 0/ 2100)'}
저장폴더/연도/yyyymmdd.csv 형태로 날짜별로 저정됩니다.
컬럼은 [url/제목/내용] 순으로 구성 되어 있습니다.
seperator는 \u241D를 사용 하였습니다.

url,title,text
/main/ranking/read.nhn?...,"..."
...

csv.field_size_limit(sys.maxsize)
SEPARATOR = u"\u241D"
df = pd.read_csv(filename, sep=SEPARATOR, engine="python")

$ python kowiki.py [--output]

id,url,title,text
5,https://ko.wikipedia.org/wiki?curid=5,"..."
...

csv.field_size_limit(sys.maxsize)
SEPARATOR = u"\u241D"
df = pd.read_csv(filename, sep=SEPARATOR, engine="python")

$ python stackoverflow.py [--output] [--tag] [--sleep]

저장폴더/tag.csv 형태로 저정됩니다.
컬럼은 [votes/answer/title/url/overview/tags/act_time/user_img/user_id/user_home] 순으로 구성 되어 있습니다.
seperator는 \u241D를 사용 하였습니다.

votes/answer/title/url/overview/tags/act_time/user_img/user_id/user_home
...

csv.field_size_limit(sys.maxsize)
SEPARATOR = u"\u241D"
df = pd.read_csv(filename, sep=SEPARATOR, engine="python")