Git Product home page Git Product logo

Comments (19)

PanderMusubi avatar PanderMusubi commented on June 24, 2024 3

Bedankt voor je input. Ik ben al redelijk ver maar ander werk (de spellingcontrole hier) en werk aan Nuspell gaat even voor. Volgende week kom ik hier op terug. Nog even geduld.

from opentaal-wordlist.

PanderMusubi avatar PanderMusubi commented on June 24, 2024 3

@KeesCBakker, goed gezien. Er staan momenteel alleen woorden in die niets anders dan de letters a t/m z bevatten. Dit is gedaan voor de toepassing in Jitsi om de naam en URL van een willekeurige chatroom te genereren. Later zullen we ook het ingefilterede bestand delen. Stay tuned.

from opentaal-wordlist.

PanderMusubi avatar PanderMusubi commented on June 24, 2024 2

In de maand mei heb ik hier een oplossing voor.

from opentaal-wordlist.

PanderMusubi avatar PanderMusubi commented on June 24, 2024 1

Alstublieft https://github.com/OpenTaal/opentaal-wordlist/tree/master/experimenteel

from opentaal-wordlist.

PanderMusubi avatar PanderMusubi commented on June 24, 2024

Dat is voor gegenereerde namen van chatrooms in Jitsi! :-) Was ik zelf ook naar aan het kijken. Deze informatie hebben we pas later dit jaar om te publiceren. We zijn hier ook zelf mee bezig, ook voor een lijst van Nederlandse woorden voor gegenereerde wachtwoordzinnen (passphrases).

Als je handig bent met Python en je hier aan mee wil werken kan ik je wel op weg helpen. Stuur ons een bericht op ons algemene e-mailadres.

from opentaal-wordlist.

berkes avatar berkes commented on June 24, 2024

Ik ben handig met Ruby, Rust, JavaScript en een beetje Python. Ik zie echter geen emailadres.

Het directe doel is inderdaad jitsi, al gebruik ik dit nu ook al voor mijn wachtwoordmanager[1]. En heb ik jaren terug eens een scheldwoordengenerator ter hilariteit van mijn kleine nichtje geschreven[2]. En kan ik iets dergelijks goed voor onze servernamen gebruiken[3].

In alle gevallen is een database waarbij de woorden aangemerkt zijn op "categorie" een grote verbetering. Enkel willekeurige woorden uit /usr/share/dict/nederlands pakken werkt, maar maakt niet zulke mooie frasen.

[1] https://gist.github.com/berkes/3f428f7e229df545508786446a0e7447
[2] https://gist.github.com/berkes/2c383a865eecee42ee2f1868707714b8
[3] https://git.webschuur.com/berkes/naminator

from opentaal-wordlist.

PanderMusubi avatar PanderMusubi commented on June 24, 2024

Zie onze website voor e-mailadres.

from opentaal-wordlist.

berkes avatar berkes commented on June 24, 2024

Als er iets is wat ik ondertussen al kan bijdragen, hoor ik het graag.

from opentaal-wordlist.

jeannegoossens avatar jeannegoossens commented on June 24, 2024

Oh heel interessant! Weet niet hoe ver dit inmiddels ontwikkeld is, maar mogelijk is het nuttig hiervoor wat NLP libraries te gebruiken? Bijvoorbeeld frog is erg goed in 'part-of-speech' tagging van Nederlandse zinnen (zie het voorbeeld in het kopje 'what does it do' op hun website).

Ik heb de python binding van frog gebruikt voor een project vorig jaar. Als ik hier iets kan bijdragen hoor ik het graag! Lijkt me erg interessant.

from opentaal-wordlist.

petervandenabeele avatar petervandenabeele commented on June 24, 2024

Ook geïnteresseerd om te weten. Concreet wil ik vooral een lijst van alle Nederlandse werkwoorden maken en dan voor die werkwoorden waar relevant dt-fouten gaan opsporen.

from opentaal-wordlist.

PanderMusubi avatar PanderMusubi commented on June 24, 2024

Dank voor de interesse. We gaan ook PoS-tags ondersteunen maar voorlopig druk met nieuwe versie spellingcontrole. Mocht je willen meehelpen, we zoeken mensen die maatwerk imports willen maken voor onze OpenThesaurus. Kunnen daar de maatwerk exports weer uit komen.

from opentaal-wordlist.

berkes avatar berkes commented on June 24, 2024

@PanderMusubi hoe wil je dit het liefst aangepakt zien?

Ik zie enkele mogelijkheden, misschien zijn er meer.

  1. een branch met uiteindelijk een pull-request met daarin meerdere tekstbestanden met het begin van enkel woordenlijsten.
  2. een branch met uiteindelijk een pull-request met daarin één CSV bestand waarin de woordenlijsten opgenomen zijn.
  3. een van bovenstaande opties, maar dan met een fork en een pull-request.
  4. een van bovenstaande opties maar dan in een nieuwe repo.
  5. een wiki waarin we woordenlijsten beginnen op te stellen.

In alle drie gevallen is nodig om te vinden welke categorieën we mee beginnen. Ik stel voor:

  • meervoudsvorm
  • werkwoord
  • bijwoord
  • bijvoeglijk naamwoord

Graag aanvullen als ik cruciale categorieën mis.

Bij losse bestanden stel ik voor per categorie een bestand te maken. Bijvoorbeeld meervouden.txt, werkwoorden.txt, bijvoeglijk-naamwoorden.txt enzovoort. Hier zullen dubbele woorden ontstaan, bijvoorbeeld werken is een meervoudsvorm (de werken aan de Antwerpse ring) en een werkwoord (ik wil graag werken).

Bij keuze voor een CSV stel ik voor die categoriën aan te merken. Dus bijvoorbeeld:

woord, meervoudsvorm, werkwoord, bijwoord, bijvoeglijk-naamwoord
werpen, n, y, n, n
werken, y, y, n, n

Bij keuze voor een wiki, stel ik voor om per categorie een wiki-pagina te maken.

Een fork maakt dat we wel los van elkaar moeten werken en elkaars werk moeten samenvoegen op het eind. Dat vereist wat coordinatie. Eventueel kan ik een fork maken waar een selecte groep lees/schrijf/etc rechten heeft.
Een branch maakt dat alles hier blijft, maar vereist dat een selecte groep (tijdelijk) lees-schrijf enzovoort rechten krijgen in de opentaal-wordlist repo.
Een nieuwe repo maakt dat het wél onder de opentaal org kan, maar in een repo waar (tijdelijk) een groepje lees- en schrijfrechten krijgt.

Mijn voorkeur gaat uit naar losse bestanden omdat deze makkelijker te parsen zijn voor nu. Vereist geen "csv-gereedschap", maar enkel de standaard tools die ieder systeem al heeft.
Mijn voorkeur gaat verder uit naar een nieuwe repo onder OpenTaal. Dit kan ik echter niet opzetten.

from opentaal-wordlist.

jeannegoossens avatar jeannegoossens commented on June 24, 2024

@PanderMusubi Heeft u hierover een update?

from opentaal-wordlist.

PanderMusubi avatar PanderMusubi commented on June 24, 2024

Komend weekend weer tijd voor en kom er dan op terug. Excuses voor de vertraging.

from opentaal-wordlist.

KeesCBakker avatar KeesCBakker commented on June 24, 2024

@PanderMusubi Awesome work! Ik mis een paar woorden op de meervoud-lijst.

Bron: https://onzetaal.nl/taaladvies/fotograven-fotografen/

  • astrosofen
  • digrafen
  • fonetografen
  • fonosofen
  • mesoscafen
  • tomografen
  • xenografen
  • xylografen

Verder mis ik nog de woorden:

  • oogpotloden
  • autobiografen
  • bathyscafen
  • oceanografen
  • theosofen
  • halfgoden
  • geweerschoten
  • wijnvaten
  • hoofdwegen
  • zeeslagen
  • handwerkslieden
  • speellieden
  • dagjesmensen
  • dipsauzen
  • voetencrèmes

from opentaal-wordlist.

KeesCBakker avatar KeesCBakker commented on June 24, 2024

Er zitten ook geen 's-woorden in, zoals:

  • auto's
  • kimono's
  • ski's
  • menu's
  • paraplu's
  • villa's
  • firma's
  • baby's
  • pony's
  • hobby's
  • mascara's

from opentaal-wordlist.

pge-01 avatar pge-01 commented on June 24, 2024

@PanderMusubi

Het ligt (op dit moment) misschien niet in jullie scope, maar voor het gebruik van de woordenlijst in woordspellen zou het helpen als de voorgestelde categoriën worden uitgebreid met 'afkorting', zodat deze er uitgefilterd kunnen worden.

Bijvoorbeeld: wc, lts, vmbo, mavo, vwo.

Wc en lts zijn er uit te filteren (alleen medeklinkers), daarna wordt het lastig.

Leestekens (" ", "-", "'s") en dergelijke kunnen in zo'n bestand blijven en er later naar wens uitgefilterd worden.

Is dit voor u een hele opgave of zit het eigenlijk al in de database?

from opentaal-wordlist.

PanderMusubi avatar PanderMusubi commented on June 24, 2024

Er is ook nog een verschil tussen woorden als vmbo (waar de letters los worden uitgesproken) en mavo (dat als een woord word uitgesproken). Dit is op basis van de gebruikte letters er niet uit te filteren. We hebben deze informatie deels in een oud systeem. Dat moet worden overgezet en worden aangevuld. Als over is gezet geef ik hier wel een seintje.

from opentaal-wordlist.

pge-01 avatar pge-01 commented on June 24, 2024

Bedankt voor de snelle reactie.
Dat is inderdaad ook een issue. Afhankelijk van het speltype kunnen de afkortingen er ook uit. Dat is natuurlijk aan de spelmaker.

from opentaal-wordlist.

Related Issues (8)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.