Git Product home page Git Product logo

cl-wnbrowser's Introduction

Open Portuguese WordNet (OWN-PT)

This repository hosts Portuguese WordNet data in textual format, this is an experimental branch of http://openwordnet-pt.org. It is linked to (but independent from) the Open English WordNet.

You can also get the data in JSON and RDF format.

See the Wiki for how the data was generated, how it compares to Princeton WordNet and what is the syntax of the text files. This data is validated and exported by the mill tool — see its repository for more information about validation, export formats, etc.

cl-wnbrowser's People

Contributors

arademaker avatar fcbr avatar gris avatar hmuniz avatar joaopedropp avatar livyreal avatar odanoburu avatar rafaelbetatester avatar vcvpaiva avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar

cl-wnbrowser's Issues

support for back to search from a synset page

"search doesn't allow you to go back one page, so if I wan to check all 9 adj pertainnyms and I've seen the first one, I cannot see the other 8, as the document is expired , so the search has to start from the top again."

documentar campos de busca

Os campos do DB não são de conhecimento dos usuários, precisamos listar os campos para os usuários saberem como podem fazer as buscas usando os campos. Alguns exemplos de busca também pode ser úteis.

permitir reordenação de palavras dos synset

seria uma forma de sugestão?! precisamos disso ou apenas permitimos que algumas pessoas possam reordenar palavras?

Notem relação com #28 e #32. A partir do momento que a ordem for relevante, temos que ter cuidado com a estrutura do DB.

reestrutura DB

um doc por synset de cada wordnet. Hoje mesclamos os synsets EN e PT em apenas um. A longo prazo isto pode tornar o BD mais difícil de manter.

páginas estáticas

como mesclar páginas HTML estáticas ou produzidas por algum static site generator com as partes dinâmicas dentro do mesmo path /wn/ do servidor?

nominalizações deveriam ligar para senses

hoje nominalizações apontam para words e não word-senses. Temos que pensar em como dar suporte na interface para esta correção que será gradativa, possivelmente duplicando nominalizações.

listar synsets com comentários

Na interface do disqus temos como listar os comentários, mas isto está longe do ideal. O melhor será mesmo termos os comentários no próprio site, talvez no solr apenas, permitindo que na interface também possamos ter (talvez na home), uma lista das discussões em andamento.

isto faz parte do esforço de longo prazo de tornar a ferramenta util para apoiar as discussões e revisões da openWordnet-PT.

Via disqus os moderadores devem receber mensagens quando novos comentários são feitos, talvez isso fosse interessante ser mantido quando deixarmos de usar o disqus. Alguma feature de mandar alertas por email.

link to SUMO

queremos links diretos para SUMO, assim como Francis faz. Mas podemos melhorar a idéia e export também os tipos de links para permitir facetas nestes tipos.

documentation

Some initial doc about instalation of the tool, solr, proxy etc.

issue when navigating filtered list of results

eu quero saber todos os motion.verbs (1408 results found for 'wn30_lexicographerFile:verb.motion)
que sao core synsets, sao 114 deles.

wn30:CoreConcept (114)

eu clico no link e vejo os 10 primeiros. mas quando eu sou pro next, pra ver os proximos 10, ate' chegar nos 114, a busca volta pra TODOS os

1408 results found for 'wn30_lexicographerFile:verb.motion'

me parece, em vez de continuar procurando pelos 114 core e motion.

busca por synset

implementar alguma forma de busca por synset mais intuitiva. A opção agora seria digitar o código do synset na url diretamente que retorna a página do synset.

relações sintáticas

Existem poucas mas algumas relações na Wordnet que não são entre synsets. Um exemplo:

http://logics.emap.fgv.br:10035/repositories/wn30#node/%3Chttp://arademaker.github.com/wn30/schema/antonymOf%3E

No SOLR agora não temos estas relações, mas para as conferências de adjetivos, seria interessante termos os antônimos, por exemplo. Temos que pensar como adicionar estas relações nos docs do SOLR e como apresentar estas relações na interface.

Vide http://www.w3.org/TR/wordnet-rdf/

derivationallyRelated   WordSense   WordSense   der
antonymOf   WordSense   WordSense   ant
seeAlso WordSense   WordSense   sa
participleOf    WordSense   WordSense   ppl

Vide http://wordnet.princeton.edu/wordnet/man/wndb.5WN.html

The source/target field distinguishes lexical and semantic pointers. It is a four byte field, containing two two-digit hexadecimal integers. The first two digits indicates the word number in the current (source) synset, the last two digits indicate the word number in the target synset. A value of 0000 means that pointer_symbol represents a semantic relation between the current (source) synset and the target synset indicated by synset_offset .

A lexical relation between two words in different synsets is represented by non-zero values in the source and target word numbers. The first and last two bytes of this field indicate the word numbers in the source and target synsets, respectively, between which the relation holds. Word numbers are assigned to the word fields in a synset, from left to right, beginning with 1 .

See wninput(5WN) for a list of pointer_symbol s, and semantic and lexical pointer classifications.

Vide http://wordnet.princeton.edu/wordnet/man/wninput.5WN.html

Pointers are used to represent the relations between the words in one synset and another. Semantic pointers represent relations between word meanings, and therefore pertain to all of the words in the source and target synsets. Lexical pointers represent relations between word forms, and pertain only to specific words in the source and target synsets. The following pointer types are usually used to indicate lexical relations: Antonym, Pertainym, Participle, Also See, Derivationally Related. The remaining pointer types are generally used to represent semantic relations.

stats

A query abaixo é mais informativa para a página de stats que a atualmente usada:

select ?f ?total_pt ?total_pr (round(?total_pt*100/?total_pr) as ?percent)
where {
{
 select ?f (count(?sspt) as ?total_pt) 
 {
  ?ssen owl:sameAs ?sspt .
  ?ssen rdf:type ?f .
  FILTER exists { ?sspt wn30:containsWordSense ?sense . }
 }
 group by ?f 
}
{
 select ?f (count(?sspt) as ?total_pr) 
 {
  ?ssen owl:sameAs ?sspt .
  ?ssen rdf:type ?f .
 }
 group by ?f 
}
}
order by ?percent

Também seria legal, ao invés do ALT das imagens mostrar a percentagem, mostrar os números [X/Y] onde X são os synsets com wordsense e Y o total de synsets.

novo erro com buscas sequenciais

Fabricio,
se eu peco todos os synsets usando
':' e depois todos os verbos
VerbSynset (13767)
eu vejo que temos
BaseConcept (1441)
CoreConcept (996)
mas qdo peco pra ver ou os coresynsets ou os basesynsets vejo essa mensagem de erro:

Error

The search for ':' resulted in the following error:

dimension 'rdf_type' was already added

Tambem tenho problemas se tento fazer o contrario, primeiro pedir os coresynsets

CoreConcept (4960)

mas quando tento clicar no

VerbSynset (996)
o mesmo erro aparece

obrigada por investigar,
valeria

interface bilingue

Seria interessante, embora com pouca prioridade, ter a interface em EN e PT.

busca vazia ou *

Fazer com que busca vazia se transforme em ":" assim como busca com "*".

acompanhamento da evolução e participação das pessoas

mas queria saber mais sobre o que estamos/vamos fazer em termos de ter um historico. vamos so' ter o github? da' pra extrair stats de quanto melhoramos por semana, por mes, etc? eu gostaria de ter um sistema de regressao basico "in place", se possivel que mostrasse que os numeros de substantivos, verbos, adjetivos e adverbios em portugues estao realmente sempre crescendo, talvez fosse bom ter um sistema de mostrar os ultimos updates? nao sei bem como poderiamos medir o "aumento de qualidade" numero de synsets "mexidos/touched?

count of words

Será que conseguimos pesquisar e facetar por count of words PT e EN? Ou temos que explicitamente criar um campo nos docs com estes valores? Seria bem legal poder filtrar synsets por números de palavras (usando possívelmente os filtros from faixas (range facets).

facet search

A forma de usar as facetas tem suas particularidades. Por exemplo, se pesquiso por "casa" e depois refino a busca escolhendo um valor específico de uma faceta, por exemplo, clicando em verb.change para o campo wn30_lexicographerFile, a query não deveria mudar, apenas um filtro adicional ser adicionado. SOLR implementa isso com o campo fq (facet query). Ou seja, vc não muda sua query inicial, apenas acrescenta filtros a medida que escolhe um valor de uma faceta.

Outra coisa importante é permitir que estes filtros adicionados a uma query possam ser removidos e/ou trocados por outros.

http://wiki.apache.org/solr/CommonQueryParameters#fq

Veja, por exemplo, o comportamento de

http://dblp.l3s.de/?q=rademaker&search_opt=all&newQuery=yes&resTableName=query_resultZIx44V&synt_query_exp=full

Eu posso adiconar ou remover a restrição dos anos sem mudar a query principal, "rademaker". Por isso estas facetas são geralmente colocadas em barras ao lado dos resultados.

acompanhamento dos comentários

http://logics.emap.fgv.br/wn/synset?id=03151582-a&term=wn30_lexicographerFile:adj.ppl#comment-1786219461

O mecanismo de discussão não está bom, ainda iremos melhorar. Acontece que vários comentários não geram discussão pois são casos triviais. Nestes casos, eu apenas aplico a mudança sugerida sem responder ao comentário. O ruim é que quem comentou fica sem saber o que foi aceito e se já foi aceito.

Outros comentários, como o acima, geram alguma dúvida e espaço para discussão. Estes deveriam ser de alguma forma listados como "em aberto" para sabermos o que precisa de resposta ainda.

Better support for ownpt2.mybluemix.net being down

The application at ownpt2.mybluemix.net is temporarily unavailable for a couple of seconds while it is being redeployed (or if it crashes); we need to make sure the web site does not show an cryptic error message during those times.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.