Git Product home page Git Product logo

kor-nlu-datasets's People

Contributors

hammouse avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

kor-nlu-datasets's Issues

multinli.train.ko.tsv, xnli.dev.ko.tsv, xnli.test.ko.tsv 에서 스페이스로 구분된 행이 있습니다.

multinli.train.ko.tsv

ParserError: Error tokenizing data. C error: Expected 3 fields in line 24426, saw 4

multinli.train.ko.tsv의 일부 행이 탭 대신 스페이스로 구분되어 pandas로 인식되지 않아 위와 같은 오류가 발생합니다.

xnli.dev.ko.tsv

image

xnli.dev.ko.tsv의 한 행도 pandas에서 탭으로 구분되지 않았습니다.

xnli.test.ko.tsv

premise 이런 설명이 없다면 성이 프랑스식 수르놈에서 나온 정보라는 건 별로 관심이 없는 것 같습니다.에 해당하는 행도 구분자 탭을 인식하지 못하였습니다.

pandas.errors.ParserError: Error tokenizing data. C error: Expected 7 fields in line 2658, saw 8

간단하게 데이터를 불러와서 사용하려고 했는데 오류가 발생합니다

data = pd.read_csv("KorSTS/sts-train.tsv", delimiter="\t")

pandas.errors.ParserError: Error tokenizing data. C error: Expected 7 fields in line 2658, saw 8

data = pd.read_csv("KorSTS/sts-train.tsv", delimiter="\t",error_bad_lines=False)

error_bad_lines 를 붙여 사용하니 train data 5750 개중에 5696개만 출력됩니다.

dev도 1500개중 1466개만 출력이 됩니다. test는 오류가 없습니다.

중간에 \t 말고 띄어쓰기가 들어간것 같습니다. (오류난 라인 들어가서 변경해보니 오류가 제거됬습니다)

multinli.train.ko.tsv 파일의 일부 이상한 문장이 포함되어 있습니다.

sentence1 sentence2 gold_label
으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으 나는 어제 그 말을 들었다. contradiction
어허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허 허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허허 1천 달러의 한도를 가진 것을 가지고 있을 것이다. entailment
연방 취득 www.ARNet.gov/far/critical Infrastructure Assurance www.caio.gov Federal Computer Incident Response www.fedcirc.gov Federal Information Processing ///www.itl.nist.gov Gov General Accounting //www.gao.gov/ GSAas www.policyworks.gov IT Policy On- on- www.itpolicy.itpolicy.gsa.gov National Partnership for Reinventing www.npr. 연방 컴퓨터 사고 대응은 fedcirc.gov.에서 찾을 수 있다. entailment
허우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우우 우리가 그렇게 된 것 같아? entailment
연방정보자원협회 www.affirm.org 최고재무책임자 www.financenet.gov Federal Chief Information Officers www.cio.gov Government Information Technology Services www.gits.gov Information Systems Audit and Control Association 및 www.iasca.org Information Technology Association Association of www.ita.org Information Resources www.itarb.itrb.g International Federational of www.ifac.org National Informational Informational Resourcessociation of www.ifac. 정부 집행 잡지는 연방 기관과 주 정부가 보상으로 인해 효과적으로 일할 수 있는 추가 인센티브를 제공합니다. neutral
2000년 7월 26일(GAO/OCG-92-2, 1992년 6월 5일), The Deficit and the Update of Long-Term Simulations (GAO/AIMD/OCE-95-119, 1995년 4월 26일), Budget Deficit Reduction and the Long-Term (GAO/T-AIMD-96-66, 1996년 3월 13일), Budget Audget Analysis of Long-Term Fiscal Out (GAO/AIMD/O/OCE-2007월 22일), Bal-2007월 26일, 2000년 7월 26일, Bal-2001-2001-2001-2002-2002-2007-2002-2002-200, Bal-200-200-2007-200, Bal-2002-200, Balanging Pudget, Bal-2002-2002-2002-200, Bal-200-2002-2002-2002-200-2002-200-200-200-200-200-200-200-200-200-200-200-200-200-200-200-200 예산 보고서는 미래의 여행을 계획하는데 투입되어야 한다. contradiction
음-흠-흠-흠-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음- 고양이들이 내 식물을 죽였다. entailment
와우 흠 흠 와우 그것은 사실입니다. 당신이 아는 장비를 집어 들이고 당신이 아는 사람이 말했을 때 나에게 속했던 속눈썹을 깜박이지 않았습니다. 내 큰 새 잔디 깎는 기계와 물건으로 알고있는 백 달러의 물건 나는 단지 괜찮아 그렇습니다 당신이 옳습니다 당신이 옳습니다 나는 당신이 아주 약간의 돈을 겪을 수 있다고 생각합니다. 당신은 당신이 보육이나 음에서 우리가 홈 디포를 좋아하는 경우에 그것을 구입하는 경우 여기에서 나는 그것을 가지고 있는지 모르겠다 나는 마당에 쓸 장비를 사려고 5천 달러를 모았다. neutral
그래, 그녀는 그렇게 하지만 그녀는 물론 음-흠-흠-흠-흠-흠-흠-흠-흠-흠-음-흠-흠-음-흠-음-흠-흠-음-흠-음-음-흠-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음-음- 그녀는 그렇게 자랐기 때문에 그렇게 한다. neutral

KorNLI 데이터셋에서 길이가 긴 문장을 살펴보다가 무의미한 문장을 발견하여 제보드립니다.

무의미한 문장이 데이터셋에 포함되어 있고, label도 붙어 있기 때문에 학습에 방해가 되지 않을까 우려됩니다.

다 찾아본 것은 아니기 때문에 제가 발견한 예시만 올려드립니다.

What's the rule for score in STS dataset?

Thanks for the dataset beforehand.
While making good use of these datasets, I can't find the EXACT MEANING of the score in the STS dataset.
I've only found that 0 is the case for totally dissimilar one while 5 is for similar one.
Since the score is ranged from 0 to 5 with real value, how would it be proper to interpret them?
What were the ground rules behind making the dataset? ( For me, considering several examples, it seems like the output of some other pretrained model's predictions)

Thanks,

File Name 수정 문의

좋은 한국어 데이터 공개 감사드립니다.

혹시 의도한 부분이 아니라면 아래 파일 확장자가 명확히 표현 되는건 어떤가요 ?

snli_1.0_train.kor ==>snli_1.0_train.kor.tsv

좋은 하루 되세요.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.