Cronfa adnoddau prosesu iaith naturiol (PIN) [NLP]
Y gobaith yw ychwanegu adnoddau a chyfarpar dros amser, i alluogi dadansoddi uwch o ddefnydd y Gymraeg.
Rhain yw'r geiriau sydd fwyaf cyffredin mewn ysgrifau. Maent yn hanfodol i frawddeg fod yn synhwyrol, ond yn ychwanegu sŵn i'r gwybodaeth mwyaf pwysig. E.e. "Mae Huw wedi bod i'r siop." Yr atal eiriau yw 'mae', 'wedi', 'bod', 'i + y'. Y geiriau dros ben, a'r rhai sydd o ddiddordeb mwyaf yw 'Huw' a 'siop'.
I greu'r rhestr hwn:
- Lawrlwytho copïau PDF o "Y Traethodydd" oddi ar wefan Llyfrgell Genedlaethol Cymru - 128 cyhoeddiad rhwng 1800-1900;
- Defnyddio ImageMagick i ddarllen y dogfennau PDF a chreu copïau ar ffurff Tiff;
- Defnyddio Tesseract (OCR) i adnabod y testun yn y lluniau sganiedig o fewn y ffeiliau Tiff a chreu ffeil testun plaen o'r ysgrgrifau a ddarllenwyd.
Yn dibynnu ar y cymhwysiad, caiff rhai geiriau eu hystyried fel atal-eiriau pan fo eraill ddim. Dyma gychwyn.
Yn y ffeil atal-eiriau, mae rhestr o'r geiriau unigol a ddarganfyddid yn ogystal â'u hamlder o fewn y 128 dogfen. Mae'r geiriau wedi eu trefnu gyda'r mwyaf cyffredin tua'r brig. Ystyriwch oes y cyhoeddiadau, y cynulleidfa, a'r cynnydd/esblygiad mewn iaith ysgrifenedig.