Comments (19)
Bedankt voor je input. Ik ben al redelijk ver maar ander werk (de spellingcontrole hier) en werk aan Nuspell gaat even voor. Volgende week kom ik hier op terug. Nog even geduld.
from opentaal-wordlist.
@KeesCBakker, goed gezien. Er staan momenteel alleen woorden in die niets anders dan de letters a
t/m z
bevatten. Dit is gedaan voor de toepassing in Jitsi om de naam en URL van een willekeurige chatroom te genereren. Later zullen we ook het ingefilterede bestand delen. Stay tuned.
from opentaal-wordlist.
In de maand mei heb ik hier een oplossing voor.
from opentaal-wordlist.
Alstublieft https://github.com/OpenTaal/opentaal-wordlist/tree/master/experimenteel
from opentaal-wordlist.
Dat is voor gegenereerde namen van chatrooms in Jitsi! :-) Was ik zelf ook naar aan het kijken. Deze informatie hebben we pas later dit jaar om te publiceren. We zijn hier ook zelf mee bezig, ook voor een lijst van Nederlandse woorden voor gegenereerde wachtwoordzinnen (passphrases).
Als je handig bent met Python en je hier aan mee wil werken kan ik je wel op weg helpen. Stuur ons een bericht op ons algemene e-mailadres.
from opentaal-wordlist.
Ik ben handig met Ruby, Rust, JavaScript en een beetje Python. Ik zie echter geen emailadres.
Het directe doel is inderdaad jitsi, al gebruik ik dit nu ook al voor mijn wachtwoordmanager[1]. En heb ik jaren terug eens een scheldwoordengenerator ter hilariteit van mijn kleine nichtje geschreven[2]. En kan ik iets dergelijks goed voor onze servernamen gebruiken[3].
In alle gevallen is een database waarbij de woorden aangemerkt zijn op "categorie" een grote verbetering. Enkel willekeurige woorden uit /usr/share/dict/nederlands
pakken werkt, maar maakt niet zulke mooie frasen.
[1] https://gist.github.com/berkes/3f428f7e229df545508786446a0e7447
[2] https://gist.github.com/berkes/2c383a865eecee42ee2f1868707714b8
[3] https://git.webschuur.com/berkes/naminator
from opentaal-wordlist.
Zie onze website voor e-mailadres.
from opentaal-wordlist.
Als er iets is wat ik ondertussen al kan bijdragen, hoor ik het graag.
from opentaal-wordlist.
Oh heel interessant! Weet niet hoe ver dit inmiddels ontwikkeld is, maar mogelijk is het nuttig hiervoor wat NLP libraries te gebruiken? Bijvoorbeeld frog is erg goed in 'part-of-speech' tagging van Nederlandse zinnen (zie het voorbeeld in het kopje 'what does it do' op hun website).
Ik heb de python binding van frog gebruikt voor een project vorig jaar. Als ik hier iets kan bijdragen hoor ik het graag! Lijkt me erg interessant.
from opentaal-wordlist.
Ook geïnteresseerd om te weten. Concreet wil ik vooral een lijst van alle Nederlandse werkwoorden maken en dan voor die werkwoorden waar relevant dt-fouten gaan opsporen.
from opentaal-wordlist.
Dank voor de interesse. We gaan ook PoS-tags ondersteunen maar voorlopig druk met nieuwe versie spellingcontrole. Mocht je willen meehelpen, we zoeken mensen die maatwerk imports willen maken voor onze OpenThesaurus. Kunnen daar de maatwerk exports weer uit komen.
from opentaal-wordlist.
@PanderMusubi hoe wil je dit het liefst aangepakt zien?
Ik zie enkele mogelijkheden, misschien zijn er meer.
- een branch met uiteindelijk een pull-request met daarin meerdere tekstbestanden met het begin van enkel woordenlijsten.
- een branch met uiteindelijk een pull-request met daarin één CSV bestand waarin de woordenlijsten opgenomen zijn.
- een van bovenstaande opties, maar dan met een fork en een pull-request.
- een van bovenstaande opties maar dan in een nieuwe repo.
- een wiki waarin we woordenlijsten beginnen op te stellen.
In alle drie gevallen is nodig om te vinden welke categorieën we mee beginnen. Ik stel voor:
- meervoudsvorm
- werkwoord
- bijwoord
- bijvoeglijk naamwoord
Graag aanvullen als ik cruciale categorieën mis.
Bij losse bestanden stel ik voor per categorie een bestand te maken. Bijvoorbeeld meervouden.txt
, werkwoorden.txt
, bijvoeglijk-naamwoorden.txt
enzovoort. Hier zullen dubbele woorden ontstaan, bijvoorbeeld werken
is een meervoudsvorm (de werken aan de Antwerpse ring) en een werkwoord (ik wil graag werken).
Bij keuze voor een CSV stel ik voor die categoriën aan te merken. Dus bijvoorbeeld:
woord, meervoudsvorm, werkwoord, bijwoord, bijvoeglijk-naamwoord
werpen, n, y, n, n
werken, y, y, n, n
Bij keuze voor een wiki, stel ik voor om per categorie een wiki-pagina te maken.
Een fork maakt dat we wel los van elkaar moeten werken en elkaars werk moeten samenvoegen op het eind. Dat vereist wat coordinatie. Eventueel kan ik een fork maken waar een selecte groep lees/schrijf/etc rechten heeft.
Een branch maakt dat alles hier blijft, maar vereist dat een selecte groep (tijdelijk) lees-schrijf enzovoort rechten krijgen in de opentaal-wordlist repo.
Een nieuwe repo maakt dat het wél onder de opentaal org kan, maar in een repo waar (tijdelijk) een groepje lees- en schrijfrechten krijgt.
Mijn voorkeur gaat uit naar losse bestanden omdat deze makkelijker te parsen zijn voor nu. Vereist geen "csv-gereedschap", maar enkel de standaard tools die ieder systeem al heeft.
Mijn voorkeur gaat verder uit naar een nieuwe repo onder OpenTaal. Dit kan ik echter niet opzetten.
from opentaal-wordlist.
@PanderMusubi Heeft u hierover een update?
from opentaal-wordlist.
Komend weekend weer tijd voor en kom er dan op terug. Excuses voor de vertraging.
from opentaal-wordlist.
@PanderMusubi Awesome work! Ik mis een paar woorden op de meervoud-lijst.
Bron: https://onzetaal.nl/taaladvies/fotograven-fotografen/
- astrosofen
- digrafen
- fonetografen
- fonosofen
- mesoscafen
- tomografen
- xenografen
- xylografen
Verder mis ik nog de woorden:
- oogpotloden
- autobiografen
- bathyscafen
- oceanografen
- theosofen
- halfgoden
- geweerschoten
- wijnvaten
- hoofdwegen
- zeeslagen
- handwerkslieden
- speellieden
- dagjesmensen
- dipsauzen
- voetencrèmes
from opentaal-wordlist.
Er zitten ook geen 's
-woorden in, zoals:
- auto's
- kimono's
- ski's
- menu's
- paraplu's
- villa's
- firma's
- baby's
- pony's
- hobby's
- mascara's
from opentaal-wordlist.
Het ligt (op dit moment) misschien niet in jullie scope, maar voor het gebruik van de woordenlijst in woordspellen zou het helpen als de voorgestelde categoriën worden uitgebreid met 'afkorting', zodat deze er uitgefilterd kunnen worden.
Bijvoorbeeld: wc, lts, vmbo, mavo, vwo.
Wc en lts zijn er uit te filteren (alleen medeklinkers), daarna wordt het lastig.
Leestekens (" ", "-", "'s") en dergelijke kunnen in zo'n bestand blijven en er later naar wens uitgefilterd worden.
Is dit voor u een hele opgave of zit het eigenlijk al in de database?
from opentaal-wordlist.
Er is ook nog een verschil tussen woorden als vmbo
(waar de letters los worden uitgesproken) en mavo
(dat als een woord word uitgesproken). Dit is op basis van de gebruikte letters er niet uit te filteren. We hebben deze informatie deels in een oud systeem. Dat moet worden overgezet en worden aangevuld. Als over is gezet geef ik hier wel een seintje.
from opentaal-wordlist.
Bedankt voor de snelle reactie.
Dat is inderdaad ook een issue. Afhankelijk van het speltype kunnen de afkortingen er ook uit. Dat is natuurlijk aan de spelmaker.
from opentaal-wordlist.
Related Issues (8)
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from opentaal-wordlist.