anrom7 / neru_corpus Goto Github PK
View Code? Open in Web Editor NEWКорпус української мови для NER
Корпус української мови для NER
доброго дня. якщо я перетворюю txt в utf - 8 і загружаю його в gate то в мене програма не читає цього документу. а без кодування utf -8 читає. що мені тоді робити?
(Named Entity) потрібно виділити тегом token. АЛЕ лише тегом token, не вказуючи features (pos, lemma, morphology).
Скажіть, будь ласка, назву бару Соняхи позначати як власну назву чи загальну?
Скажіть, будь ласка, контекст:" ...що на Коновальця..." визначати так
token {lemma=Коновалець, morphology=Npmsln, pos=N} ???
Сліпота є в переліку захворювань ока .
а коли за текстом: ....
від 6 до 20% всіх випадків захворювання закінчуються сліпотою [45].
Чи правильно залишити (сліпотою) все ж illness?
Дякую.
картопля смажена, смажений хек, грильовим м"ясом, крем масляний, чорного хліба - маркувати все разом як food, чи брати тільки окремі слова: картопля, хек, м"ясо, крем, хліб...???
Доброго вечора, Андрій Богданович.
1.Коли слово повторюється 2-3 рази в тексті, маркувати і визначати тип щоразу?
2. Аmigo(KK) - тип організація, token - не визначати, бо не кирилиця. Так?
3. ель греко - організація, token - не визначати, так?
За даними Всесвітньої організації охорони здоров'я (ВООЗ) у світі налічується..
Всесвітньої організації охорони здоров'я -маркую organizaion,+ token
(ВООЗ) - беру теж як організація та додаю токен
і далі 2 слова та перед маркую за усіма моргфологічним ознаками
Такий розбір правильний?
Дякую.
за джерелами літератури від 50 до 93% випадків цього
93% відсоток, токен
50 ?
від
до
Це будуть правильні слова для маркування перед?
Дякую
Скажіть, будь ласка:
...(ліки) проколов. болі залишились, тушнота, змінений стул.
мало б бути - нудота( симптом)
змінений стул (? ) - в такому вигляді це не буде симптомом? Так
Чи робити тут розбір морфолог-й ?
Дякую.
Доброго дня!
Маю декілька запитань:
6.Якщо симптом розкиданий по тексту, то маркуємо його? Чи не рухаємо?
"Живіт (4слова) болить"
Дякую, що дочитали :)
Чекаю на відповідь.
З повагою,
Іванна Кушнірук
Левандівка - це сленг? Як це маркувати - X?
Доброго дня, підкажіть, будь ласка чи
дата 30.04.2013 - 3 токени?
Носко Н.А. 3 токени ? Так правильно?
Дякую.
чи потрібно маркувати- грибної приправи, з 12.00 до 15.00, З 11 по 17, обідній час...?
Чи правильно я розумію, що терміни гіперліпідемія, ортостатична гіпотонія, які мають ознаки певних відхилень або розладів, не маркуються як (Named Entity) , бо не є захворюваннями?
Дякую.
це імя вигадане, тому перша інформація була така, що ми не виділяємо token, і не маркуємо жоден нікнейм.
Якщо зараз теба виділяти токен, і маркувати, то це стосується лише слова кирилицею?
Якщо ще якісь умови, то хотілося б отримати детальнішу інформацію.
Дякую.
..телятина з картофлями "фрі"
токен lemma картоплини, бо вжито множину.
якщо Nc-pin, то не відповідає оригіналу вжитому в тексті.
Чи залишити пустий рядок морфологія?
Дякую
Скажіть будь ласка, р-н Левандівка маркувати як Address - Street, чи Location - Rerion ?
1)скажіть, будь ласка, чи потрібно писати token до нікнеймів, якщо вони є кирилицею,н-д: Руда Лисиця?
2)і чи такі речі як "15, 20 грн."---money-------->token----->lemma-гривня, Ncfpnn?
3)салат цезар-------виділяти разом food, token -окремо до кожного слова потім писати(цезар маркувати в token-------> Npmsny?)
4)у контексті: "Фраєрку
підкажіть,будь ласка, де то є?" слово Фраєрку---------organization---->token-->Npfsan(lemma---фраєрка)?
5)у контексті: "піцерії " Тралі - Валі " Піноккіо" як правильно маркувати ці слова?
6)чи потрібно маркувати тут кожне слово -----food: "суп-крем із шпинату з лососем, суп з лосося "Буйабесс"-нормально, як звичайна зупка, хіба з смачненьким лососем...........качка з фруктовим салатом...........манюсінький кусочок качки......овочі-фрукти.....соус-джем.......соки.....шматочки тортиків.....ванільні печенька з молочним шоколадом........салат-мікс з горішками......салатик з латуком, чері і ще якоюсь травичкою.......медальйони з телятини в беконі.....фуа-гра під грушевим соусом......яблучні струделі з морозивом і горішками.....капучіно..."?
7) чи потрібно маркувати token такі назви організацій: Маккафе, Деліс, Макдональдс?
8)таку організацію як (паб): Динамо-блюз----organization------2 token for words?
9) контекст : у програмі Ревізор--------чи потрібно це якось взагалі маркувати?
на Новому каналі------organization----token for "Новий" чи і для "канал"?
дякую.
як маркувати organisation "Мі100"- позначити "X" чи все таки "Npnsnn"
Наукові дослідження продемонстрували наявність певних чинників ризику виникнення та наростання захворювання, а саме:
....
Скажіть, будь ласка, контекст:" ...що на Коновальця..." визначати так
token {lemma=Коновалець, morphology=Npmsln, pos=N} ???
"cоєвий соус" робити, як food----2 token for 'соєвий', and "соус"?
і чи потрібно токени для "локшина з вершками і шпинатом"?
Підкажіть будь ласка.
Чи важлива послідовність колонки ID? Чи порядок 1,2,3,7,8 буде помилкою?
Дякую.
Чи потрібно маркувати таке у контексті: "відсвяткувати 20-ліття"--------time--->period----->lemma-??Y----?
і чи 20-потрібно маркувати числівником?
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.