Git Product home page Git Product logo

daba's People

Contributors

eldams avatar maslinych avatar vdobrovolskii avatar vieenrose avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

daba's Issues

Last entry

It seems that the parser does not see the last entry of each dictionary. So, in Bamadaba, it does not see the entry zùwɛn (therefore, all zùwɛn in the parsed texts remain non-analyzed). In yorow.txt, it does not see Zonba, etc.

bug in a parser: a conglomerate

The Parser does not recognize don-ka-bo, although this word is in Bamadaba:

dòn-kà-bɔ́:n:agitation [dòn:v:entrer kà:pm:INF bɔ́:v:sortir]

Parsing of tonal texts

Concerning the parsing of Dumestre's tonal texts:
For monosyllabic verbs (kɛ́, bɔ́, suffixes -ra/-la/-na, and -len/-nen are not glossged correctly (because of the tonal diacritics?)

do not treat parens and quotes as sentence boundaries

  1. Не считать скобки и кавычки границами предложения.

Это действительно было бы хорошо, потому что - с какой стати они границы предложения?

splitting of two autors

If a text have two autors (or more), they should be introduced into the autors' database as separate entries (so far, they are in one entry)

siginɔnɔkɛnɛ parsing

Кирилл, ещё парсер несправился с такой формой:

siginɔnɔkɛnɛ

Она должна члениться так:

sìgi:n:buffle nɔ́nɔ:n:lait kɛ́nɛ:adj:sain

Но парсер не предлагает правильного членения, он хочет обязательно делить nɔnɔ на две части.
Вообще-то правильно писать так: siginɔnɔ kɛnɛ (потому что kɛnɛ - прилагательное, оно должно писаться отдельно), т.е. в исходнике неправильное написание. Может, это из-за этого?

Search, CQL, corbama-net-tonal

Actually, if one makes a search in corbama-net-tonal by CQL, only occurances in the original texts can be found where tones were marked, i.e., a slim minority of all the occurances.
I think, this types of search should be done not in the "original" line, but in the desambiguated line. Otherwise, this search makes no sens.

gdisamb: show name of the opened file

  1. Ещё одно желательное усовершенствование: хорошо бы в программе дезамбигуизации при работе над файлом где-нибудь (в нижней или верхней рамке, например) высвечивалось его имя. А то ведь, бывает, пока работаешь, уже и забываешь, над чем работаешь – и посмотреть можно только через Save As.

parser: support for language switching

Сделать возможность в парсере переключаться между языками. А лучше сделать варианты с предзагруженными словарями и грамматикой для каждого из языков (чтобы не загружать заново).

sɛmɛkala parsing

имеем слово sɛmɛkala, оно должно члениться на sɛ̀mɛ:n:hache-houe + kàla:n:tige. Парсер предлагает разные другие членения (более мелкие), но не это. Это - баг, или так и должно быть, и такие случаи предполагается всегда доводить вручную?

parser progress indicator

а трудно ли сделать в интерфэйсе парсера какой-нибудь индикатор,
отражающий ход парсирования? Ну, типа - чтобы загоралась какая-нибудь
точка, что, мол, процесс парсинга идёт, ждите. Ещё лучше - чтобы отражался
процент сделанной работы (чтобы понятно было, сколько ещё ждать). А то
сейчас это вообще какой-то чёрный ящик, непонятно - то ли работа идёт, то
ли уже закончилась... (это, конечно, не самое насущное - главное, чтобы
парсер в принципе работал).

faamatɔ parsing

Жан Жак жалуется, что парсер плохо глоссирует слов faamatɔ: здесь мы имеем -tɔ:mrph:ST, но парсер этого варианта почему-то не предлагает.

gdisamb: crash on JoinTokens

gdisamb crashes on Join tokens operation (Linux).
Need to make "be ka" and similar a single token with space inside it.
Provide that it should work later in corpus.

Metaeditor: a minor disfunction

In the Metaeditor, when in the option "Author", key combinations do not work. I.e., "file - Open" (etc.) can be accessed only by clicking.

Types of texts

It would be fine if, when the option "Text type" is activated, one could select SEVERAL individual texts (i.e., compose an individual subcorpus). By now, it is impossible.

Makefile extension

Hi Kirill,
Is it possible to extend the makefile to compile the project on Linux Workstation ?
Cheers

Multiple authors

In Metaeditor, if a file has multiple authors, each author is not stored in the Authors' Database separately. Instead, the set of all the authors of one text is stored as one entry. So, if the text A has one author (ex., Amadu Ture), and the text B has two authors (ex., Amadu Ture & Mamadu Sisoko), Amadu Ture of the text B is not identified with Amadu Ture of the Text A; instead, a new entry, "Amadu Ture & Mamadu Sisoko", is created.
It is necessary to modify the mechanism so that multiple authors' entries were split into individual authors' entries.

very long sentences make disambiguisation impossible

Сейчас мы используем таг <br/> для обозначения границ строк в стихах, таблицах и списках. Но вот парсер эти тэги не считает границами предложений (видимо, оправданно) - и получается, что иногда довольно много строк, разделённых этим тэгом, идут одним огромным блоком, который просто заполняет всё пространство экрана в дезамбигуизаторе - при этом его нельзя никак ни прокрутить, ни подвинуть с экрана. То есть, обрабатывать такие куски оказывается вообще невозможно.

metaeditor: support for language switching

Сделать возможным переключаться между разными системами метаразметки
(при старте программы). Нужно для метаразметки бамана и манинка с разными meta.xml и authors.xml

tèmènen, tinyènen parsing

  1. Почему-то формы tèmènen, tinyènen (в новой орфографии: tɛmɛnen, tiɲɛnen) не анализируются парсером правильно (не выделятется –nen:mrph:PTCP.RES).

parsing of suffix combination -len-ba

When we have combination of the suffixes -len:mrph:PTCP.RES and -ba:mrph:AUGM, the parser does not recognize (probably, because -ba is not supposed to combine with participles? but in reality, they can combine!). Ex.:
ɲágalilenba:ptcp: [ɲágali:v:être.content len:mrph:PTCP.RES ba:mrph:AUGM]

Authors' database for the metaeditor

Now, if a text has two authors (or more), their data is automatically imputted into the database as follows:

Ag Doho, Sidalamini|Kulibali, Adama Jokolo | inconnu|m 0|0 |Beledugu inconnu|Bambara |linguiste, enseignant à l'Université de Bamako

It is necessary to split it and represent separately for each author.

bug: kalifabaa

In the word kalifabaa, gparser has not recognized -baa/baga AG.OCC

gdisamb: wrong placement of diacritics

Когда пишешь вручную французскую глоссу, включив французскую раскладку, то получается, что аксанты перескакивают на букву вправо. Т.е., когда пишешь, например, complètement, то получается вот так:
completement̀
(аксан сдвигается в конце концов в крайне правую позицию).
У Жан Жака тоже получается так же.
Воспроизводится ли этот баг у Вас?

Editing of a word analysis in gdesamb

When clicking on a word (for editing of the word analysis), it is not the current analysis (to be modified) that appears, but a semi-empty variant.
E.g.: for the word yaalala, I've chosen an analysis yáala:v:se.promener la:mrph:AG.PRM. After that I click on the word, and in the editing interface, instead of yaalala:n: [yáala:v:se.promener la:mrph:AG.PRM], I find the following: yaalala::
By the way, a mistake in the Grammar file: in the proposed analysis, a verbal stem + la:mrph:AG.PRM should produce a noun, i.e. yaalala:n: [yáala:v:se.promener la:mrph:AG.PRM], while the Parser produces a "verb" instead: yaalala:v: [yáala:v:se.promener la:mrph:AG.PRM]

gdisamb: interface to edit complex form partially

можно ли как-то сделать, чтобы предлагаемую парсером форму не заменять полностью, а лишь редактировать? Это особенно актуально для длинных композитов: нужно, например, только добавить тон – из-за этого приходится переписывать всё многоэтажье.

a.b.b.r.e.v.

Сейчас в аббревиатурах с точками каждая буква парсируется как отдельное предложение: C.M.D.T. Исправить: если после точки нет пробела, то это – не граница предложения.

nasal variants of suffixes

Nasal variants of suffixes -ni, -nen, -na can appear not only after -n, but also after a syllable with a nasal consonant (nu, na, mi, ɲɛ, etc.).This possibility is not taken into account the the parser.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.