86 五笔 Unicode 扩展 C、D、E 区汉字的 RIME 词库,正在逐区更新。
如果有错误或可以改进的地方,请务必指出。
rime/rime-wubi 的 wubi86.dict.yaml
只有基本区和扩展 A、B 区的汉字,仍需补充。
因为找不到,所以自己来做了。
文件 | Unicode | 字数 |
---|---|---|
wubi86.109.dict.yaml | 9FA6-9FFF 4DB6-4DBF 2A6D7-2A6DF 2B735-2B738 |
90 10 9 4 |
wubi86.extc.dict.yaml | 2A700-2B734 | 4149 |
wubi86.extd.dict.yaml | 2B740-2B81D | 222 |
wubi86.exte.dict.yaml | 2B820-2CEA1 | 5762 |
按照叶典的说法,wubi86.109.dict.yaml
的四个部分分别叫做:基本区补充、扩展 A 补充、扩展 B 补充和扩展 C 补充。
第一,这些码表有容错码,放在每个码表的后部,用注释 #容错码
隔开。同时也总结在 summary.txt
中,用于参考。请注意,容错码的正异只是主观判断的结果。容错码产生原因如下:
- 86 五笔自己存在一些繁体字根。繁体字根会使一些字有两种拆法,如“齒”字,既可以是
hbj
,也可以是hwwb
; - 一些汉字字形特别、结构难以判断,五笔码不好决定。如“𪭃”字,既是
nghl
,也是nfll
。 - 一些汉字在不同字库中,字形存在分歧,如“鿃”字,本应为⿰目㚒,
hdty
,但 SimSun-ExtB 字体作⿰目夾,hdww
。 - 有相当一部分五笔码的编写是参考了 rime/rime-wubi 的
wubi86.dict.yaml
。例如“𠕄”字,它作mmgg
,所以这里的“𫩦”字既是kmgm
,又是kmmg
。 - 彩蛋。
第二,这些码表编制时,使用的字形标准尽量跟随**大陆(内地)的。例如,遇到的部件“爭”一律作“争”处理。值得注意的是,rime/rime-wubi 的 wubi86.dict.yaml
似乎并不特意把字形全部改为**大陆(内地)标准的,比如“𨼳”字,作 bbkf
,这是按照**字形编写的。同时,它对字根的处理也略有不同,比如“𡆢”字,作 lqi
,而本码表会认为应该作 lnv
。
总之,使用时只有多尝试不同的笔顺、拆分方式和结构判断方式,才更有可能打出想要的汉字。
例如,要将 wubi86.109.dict.yaml
和 wubi86.extc.dict.yaml
导入 wubi86.dict.yaml
,就应该在 wubi86.dict.yaml
的 ---
和 ...
之间写上:
import_tables:
- wubi86.109
- wubi86.extc