Git Product home page Git Product logo

rla-es's Issues

Publicación de la versión 2.0

Abro este issue para documentar la publicación de la versión 2.0. Voy a seguir los pasos descritos en el documento que tenemos en el wiki. Como con la versión 0.8, si es necesario, actualizaré el documento con las posibles diferencias que encuentre.

Esta versión es la 2.0 y no la 0.9 para sincronizar los números de versión entre los complementos de LibreOffice/OpenOffice.org y los de Mozilla. El cambio de versión también se debe a los cambios en el repositorio: paso de codificación ISO-8859-1 a UTF-8 e inclusión de topónimos.

Detección incorrecta de los prefijos en el diccionario español

Corresponde al registro 867 de de RLA-ES en Forja.rediris.es
Creado por Ricardo Berlasso (rgb-es) con fecha y hora 2014-03-28 20:49

Salvo casos muy particulares (ver (1) para una descripción completa), los prefijos en castellano van unidos a las palabras que modifican. Con la versión 0.7 del diccionario en OpenOffice, palabras como «precondición» o «extesorero» (correctas) son marcadas como erróneas, mientras que «pre-condición» o «ex-tesorero» (erróneas) son marcadas como correctas.

(1) http://blog.lengua-e.com/2014/los-prefijos-se-escriben-juntos/

Lista completa de duplicados

Corresponde al registro 774 de de RLA-ES en Forja.rediris.es
Creado por Daniel Gómez Martínez (dagomezma) con fecha y hora 2013-12-03 04:02

Hola a todos,

He creado un script (en BASH, para Linux, estoy asumiendo que todos usamos alguna distribución de Linux, pero no estoy seguro) que cuenta las palabras por el número de veces que aparece en la totalidad de archivos de texto (.txt), y crea un archivo que específica la ubicación de las palabras que están más de una vez (palabrasRepetidasUbicación.txt).

Escribí este primer script de tal manera que se ignoran las palabras dentro de los directorios «l10n», osea las localizaciones específicas, de lo contrario algunas palabras aparecerían más de diez veces. Lo mejor sería encontrar también las palabras duplicadas para cada una de las localizaciones, y en conjunto, pero dejo eso a futuros cambios en el script.

Dejo adjunto un .zip con el script y el listado de duplicados con su ubicación.

Para ejecutar el script deben moverlo primero a un lugar cómodo para su ejecución, que bien puede ser una carpeta en donde solo se encuentre una copia del directorio «palabras» y el propio script. Desde la terminal se dirigen a ese directorio y ejecutan la siguiente línea:

./countAndFind.sh palabras/

Si les dice que no tiene permisos de ejecución intenten con la siguiente línea antes de intentar correrlo de nuevo:

chmod +x countAndFind.sh

Una de las cosas que hace el script es pasar todos los archivos de texto a la codificación UTF-8 desde la ISO-8859-15, así que la copia de la carpeta «palabras» queda inhabilitada porque no puede pasar a UTF-8 desde ISO si ya es UTF-8, así que si quieren realizar otra vez la prueba deben tener lista una nueva copia de la carpeta «palabras».

Espero sea de ayuda.

Meta informacion de los diccionarios

Hoy me instale el diccionario 0.8 de AOO pero veo que le faltan algunas cosas en especifico la fecha. Incluyo un screenshot comparativo como la extension de Marco presenta una fecha de lanzamiento mientras que la mia no la presenta. No se quien use aqui AOO, pero tambien podra probar como el sistema de actualizacion se 'salta' avisar de la nueva version. Esto es por que no se declara este campo.
Recomiendo revisar los XML asi como la documentacion de extensiones de AOO:
https://wiki.openoffice.org/wiki/Extensions_packaging
Pongo el screenshot:
http://i.imgur.com/sIK9MqA.png

Nuevo sufijo para forma enclítica de imperativo con complemento directo e indirecto (p.e.: guárdatelo)

En el registro 682 de la Forja de RedIRIS, una de las palabras que se pedían añadir es "guárdatelo". No he encontrado ningún afijo que derive esa forma enclítica de complemento directo e indirecto (que yo considero válido y relativamente habitual). En cambio, la bandera Ï hace eso mismo para las formas 1ª y 3ª (pero no la 2ª, desconozco la razón), aunque no incluía las construcciones para el verbo guardar (que he añadido).

Hay que valorar si procede añadir en esa bandera la 2ª forma singular y plural, o si habría que crear otra bandera.

Palabras que faltan proporcionadas por Kantabrigian KNTRO

Corresponde al registro 725 de RLA-ES en Forja.rediris.es
Creado por @Almorca con fecha y hora 2012-11-07 22:27

En un comentario puesto en https://forja.rediris.es/forum/forum.php?thread_id=6527&forum_id=3679 Kantabrigian KNTRO propuso una lista de palabras que no estaban en el diccionario.

Abro este bug para llevar un mejor control de ellas e ir añadiéndolas poco a poco. He comenzado por los adjetivos y poco a poco iré avanzando.

Hola, antes que nada, me presento: soy KNTRO de Buenos Aires. Soy colaborador en la localización es-AR de Mozilla, tanto como QA Leader como localizador de complementos. También, junto a mi hermana, contribuí al Diccionario español Argentina con algunos términos.

De esos términos, quisiera notificar aquellos que no son reconocidos por la versión 0.6 del diccionario en español para LibreOffice 3.5. Algunas de estas palabras son argentinismos —expresiones utilizadas en Argentina— y otras forman parte del habla informal o vulgar, por lo que lo aclararé cuando sea necesario.

SUSTANTIVOS
Arial
badware
blog
boludez (término vulgar)
boludeces (término vulgar)
chabón (término informal)
chusmerío (término informal)
cookies
ciberconversación
demo
desprolijidad
diariero (argentinismo)
distro (término informal)
Fedora
filmadoras
freeware
gigabyte
gigabit
hidrostática
Hotmail
kbps
laburo (término informal)
Latinoamérica
Mac
malasangre (argentinismo)
malware
Mandriva
Mbps
megabyte
megabit
mouse
Navigator
Netscape
ofimático
papelerío
Paralímpicos
pelotudez (término vulgar)
pelotudeces (término vulgar)
politraumatismos
previsualización
punk
quilombo (término vulgar)
Remix
SeaMonkey
shareware
Slackware
smartphone
sorete (término vulgar)
spam
subtítulo
spyware
subdominio
supervisación
tutorial
Verdana
WiFi
WinRAR
WinZip
yuyo
altorrelieve
centauromaquia
esfinge
gigantomaquia
metadatos
revisación
sic

VERBOS
boludear (término vulgar)
catalizar (término vulgar)
pelotudear (término vulgar)

ADJETIVOS
actualizable
amarillista
amateur
boludo (término vulgar)
capitalino
convocante
desprolija
exhibidor
futurista
hinchabolas (término vulgar)
hinchapelotas (término vulgar)
inédita
localizador
multiplataforma
pelotudo (término vulgar)
rompebolas (término vulgar)
satelital
súper
traumado
versero

ADVERBIOS
cómplicemente
nomás (argentinismo)
panregionalmente
semiautomáticamente
bohemiamente
avergonzadamente
indecisamente
sorprendidamente
lúcidamente

[El siguiente listado contiene nombres ausentes de:
■ Todos los barrios de la Ciudad Autónoma de Buenos Aires.
■ Todos los partidos (con sus cabeceras de partidos) del Gran Buenos Aires.
■ Todos los partidos (con sus cabeceras de partidos) de la Provincia de Buenos Aires.
■ Todas las ciudades de Argentina con más de 50.000 habitantes.]

Alsina
Balvanera
Berazategui
Berisso
Boedo
Brown
Chacarita
Coghlan
Echeverría
Ezeiza
Guaminí
Hurlingham
Lanús
Lavalle
Liniers
Ortúzar
Perón
Puán
Pueyrredón
Quilmes
Salliquello
Sársfield
Soldati
Tilcara
Urquiza
Viamonte
Villarino

NOMBRES DE PERSONAS
Abel
Abigail
Alan
Analía
Ayelén
Bianca
Bibiana
Brenda
Camila
Carina
Celina
Christian
Cinthia
Cintia
Claribel
Clarissa
Cynthia
Daiana
Dalila
Dalma
Dámaris
Débora
Eleonora
Eliana
Elsa
Érica
Erick
Estefanía
Fabiana
Fanny
Gabriela
Gianina
Giannina
Gimena
Giorgina
Gisela
Gisele
Giselle
Gissele
Gisselle
Graciela
Griselda
Iliana
Ivana
Jésica
Jimena
Judith
Julieta
Karen
Karina
Katia
Kevin
Kiara
Letizia
Liu
Luciana
Lucila
Lucrecia
Ludmila
Mabel
Maia
Maira
Malena
Malvina
Marianela
Marianella
Maribel
Mariela
Marisa
Marisol
Mary
Mayra
Melody
Mia
Michelle
Miriam
Mirta
Nadia
Nancy
Nélida
Nelly
Nelson
Noemí
Priscila
Priscilla
Rosana
Roxana
Sabrina
Silvana
Solange
Tamara
Umberto
Vanessa
Vanina
Vannina
Viviana
Walter
Wendy
Ximena
Yamila
Yanina
Yésica
Zahira
Zaira
Zulma

Cualquier comentario será bienvenido.

Revisar topónimos de España

En el issue #1 comento que he visto algún error en los topónimos de España. Ahora no recuerdo cuáles son, pero debemos revisar la lista, ya que a partir de ahora va a incluirse en el diccionario.

Falta el adjetivo analfabeto y hay entradas duplicadas del adjetivo alfabeto en varias localizaciones

Corresponde al registro 766 de de RLA-ES en Forja.rediris.es
Creado por @RickieES con fecha y hora 2013-11-01 21:34

Revisando mensajes antiguos recibidos a través del contacto para el complemento de diccionario es-ES de Mozilla, he encontrado uno que alertaba de que la palabra "analfabeto" no está incluida en el diccionario y veo que aún no lo está, aunque quizá sí esté incluida en algún otro registro de los que tenemos pendientes de procesar.

Si cuando llegue el momento de procesar este registro, la palabra ya ha sido añadida, sólo tendremos que cerrarla, pero de esta manera evitamos que se nos siga olvidando añadirla. :-)

Analfabeto no se marca como incorrecta en las variantes del diccionario para Colombia, Costa Rica, Ecuador, Paraguay y República Dominicana porque tienen añadido "alfabeto" como adjetivo con el prefijo "a". En todas estas, hay dos entradas para ese adjetivo (se muestra el caso de Costa Rica como ejemplo), por lo que hay que eliminar
la segunda:

RAE/l10n/es_CR/Adjetivos.txt:alfabeto/aSG
RAE/l10n/es_CR/Adjetivos.txt:alfabeto/GS

Hay que eliminar esas entradas duplicadas y crear esta entrada en RAE/Adjetivos:

analfabeto/GS

Eliminar países de noRAE/NombresPropiosSiglas.txt

Tras el pull request #35 y su integración en el repositorio, tenemos palabras duplicadas en el archivo NombresPropiosSiglas.txt, que contiene nombres de países ahora incluidos en los topónimos. Posiblemente tengamos que revisar también los scripts de creación de diccionarios.

Palabras faltantes en el diccionario

Corresponde al registro 758 de de RLA-ES en Forja.rediris.es
Creado por Roberto Isaac González Gracia (riggr) con fecha y hora 2013-10-08 04:43

Hola:

las siguientes palabras no están en el diccionario:

victimizar, victimizada, 170,000 resultados en google.

ganoso, no está en el diccionario pero si está en los sinónimos, por lo que habria que agregarla.82,000 resultados en google.

la palabra lonja si está en el diccionario, al consultar sinónimos presenta un registro en blanco con el numero 3.

Revisión y discusión sobre entidades territoriales

Mientras acometo el issue #36, veo que hay algunos contenidos en NombresPropiosSiglas.txt que no están en el nuevo archivo entidades-territoriales.txt. Algunos ejemplos:

  • Nombres de continentes (África, Asia, Europa, etc.)
  • Nombres de islas y regiones de uso general (p.e.: Gales, Groenlandia, Inglaterra, Malvinas, etc.)

Yo creo que esos nombres deberían figurar en entidades-territoriales.txt. ¿Qué opináis?

Además, he detectado un par de errores en este nuevo archivo (p.e.: "Malí" en lugar de "Mali").

También he visto que en toponimos/l10n/es_AR/entidades-territoriales.txt las palabras no están ordenadas alfabéticamente, como tenemos en todos los demás archivos (que yo sepa).

Por último, en ambos archivos falta la cabecera de licencia. Cito a @sbosio porque me ha surgido la duda de quién debe figurar en la licencia. De esta página se deduce que habría que hacer figurar a todos los autores que hayan contribuido al archivo, pero me parece una locura. En estos nuevos archivos, no sé si el Copyright debe ser de Santiago, de @EquisTango o de ambos. Os animos a comentar vuestras opiniones mientras voy avanzando con otros issues. 😄

(1) http://www.gnu.org/licenses/gpl-howto.html

Gran colección de palabras

Tengo un diccionario de usuario de OpenOffice con más de 2500 palabras. Contiene palabras cotidianas, específicas de mis estudios, nombres de personas, de lugares, de autores, de personajes históricos y mitológicos... un poco de todo.

Lo podéis ver aquí:
https://github.com/algoban/dict

Está todo desordenado, no me he puesto a clasificar cada palabra, pero si os gusta puedo empezar a trabajar con él para mejorarlo. No conozco mucho de git pero todo es ponerse.

Perdón si aún es un poco pronto, supongo que os estaréis aclimatando a la nueva plataforma, pero no he podido resistirme al enterarme del cambio. Un saludo.

Palabras añadidas a la RAE en junio 2012

Corresponde al registro 751 de de RLA-ES en Forja.rediris.es
Creado por @Almorca con fecha y hora 2013-09-09 12:03

En junio de 2012 la RAE añadió una lista de nuevas palabras al diccionario.

Añado aquí las que veo que no están en el diccionario y cumplen las condiciones para estar.

Comunes a todos los idiomas:
Argumentario, bicampeonato, billonario, bioclimático, cartelería, chat, citricultor, culamen, demonización, dotacional, empático, empatizar, emplatado, emplatar, energizante, extradir, extrasalarial, golfístico, habitacional, incentivación, incentivador, intergeneracional, mexica, minicadena, okupa, okupar, orgásmico, peñazo, postproducción, racord, rácord, recursividad, recursiva /o, reorientación, rescatista, SMS, sudoku, tallaje, teletrabajador, transacionar, transversalidad, tutorización, tutorizar, ultraderechismo, ultraizquierdismo, USB

España:
gayumbos, gracieta

Modificar script de creación del diccionario

Hay que hacer algunas modificaciones en el script de creación del diccionario:

  • añadir los topónimos
  • revisar que el paso de SVN a GIT no implica ningún cambio en el script y, en caso contrario, ajustarlo
  • cambiar la codificación de ISO-8859-1 a UTF-8

Respecto del primer punto, hay que decidir cómo incluirlos. Yo, en principio, soy partidario de no añadir más modificadores al script, porque no creo que sea necesaria tanta granularidad para generar el diccionario. Así pues, tenemos dos modificadores que podríamos considerar:

  • r: incluir solo las palabras de la RAE. Si no se indica, se incluyen también las palabras de noRAE.
  • c: incluir también los sinónimos y separación.

Podemos decidir que las entidades territoriales son parte de la colección de palabras y, en concreto, asimilables a palabras no RAE, en cuyo caso las incluiríamos siempre que no se indique el modificador r. O bien podemos decidir que son un contenido extra distinto de la colección de palabras en sí, y entonces incluirlos solo si se indica el modificador c.

Yo me inclino más por la primera opción, es decir, incluir las entidades territoriales siempre que no se indique r, considerándolas una lista más de palabras con la misma categoría que las que hay en noRAE. Incluyo vuestros alias, @olea, @Almorca, @eksperimental, @EquisTango, @sbosio, y @KNTRO, para que podáis opinar.

Mientras opináis, voy a ir preparando los cambios para ganar tiempo. Nos interesa actualizar el script para poder generar los diccionarios y probar que los cambios que hacemos funcionan.

openthes-es ha desaparecido

Hace varios meses cerró el proyecto Berlios que era donde estaba alojado el proyecto Openthes-ES. No he encontrado ninguna nueva web que esté alojando el proyecto actualmente por lo que creo que ha desaparecido.
¿Alguien sabe algo?¿Si el proyecto ha desaparecido, lo albergamos dentro del proyecto RLA-ES para darle un mínimo soporte?

P.D. La última versión que he encontrado de la página está en http://web.archive.org/web/20140329072703/http://openthes-es.berlios.de/ de donde creo que se podría rescatar la información del proyecto.

Palabras faltantes y propuesta

Corresponde al registro 770 de de RLA-ES en Forja.rediris.es
Creado por Daniel Gómez Martínez (dagomezma) con fecha y hora 2013-11-18 05:52

Hola a todos, soy nuevo en el proyecto y quería empezar este nuevo hilo en el foro para discutir con todos una propuesta que tengo, dos preguntas, y para informar sobre algunas palabras faltantes.

Empezaré con las preguntas:

  • ¿Para las palabras se pueden definir reglas para que las marque como error si no están escritas con mayúscula al inicio? Esto sería especialmente útil para los apellidos y topónimos.
  • ¿Valdría la pena incluir los nombres propios que sean de compañías, organizaciones, software, etc. ampliamente conocidas?

Propuesta:

  • He notado que dentro del repositorio actual los nombres propios (o por lo menos los que he visto) se encuentran en el archivo ...palabras/noRAE/NombresPropiosSiglas.txt. Pienso que sería más organizado si la sección «toponimos/» que acompaña a RAE/ y noRAE/ pasa a formar parte de noRAE/, aunque me parecería incluso mejor que haya una nueva sección dentro de «palabras/» que se llame NombresPropiosSiglas y que contenga:
  • l10n // en donde irían los archivos aquí abajo para cada localización específica
  • apellidos.txt // en donde irían los apellidos más comunes del español en general
  • nombres.txt // en donde irían los nombres más comunes del español en general
  • siglas.txt
  • toponimos.txt // en donde irían los países del mundo.

Además, en cuanto tenga algo de tiempo agregaré los topónimos más importantes de Colombia dentro de la localización específica.

Palabras faltantes:

Palabras que sí están en el diccionario de la RAE:

  • hadrón
  • hadrones
  • quarks (plural de quark, que ya está en RLA)
  • graficar y todas sus conjugaciones
  • concadenar y todas sus conjugaciones
  • multímetro

Palabras que no están en el diccionario de la RAE:

  • geotérmica (como en planta de energía geotérmica)
  • capacitor (es a capacitancia como resistor a resistencia)
  • mecatrónica (relativo a mecánica y electrónica)
  • óhmetro (mide la resistencia de un resistor/resistencia)
  • transconductancia (es una de las variables físicas que describe el comportamiento de un transistor)

Estas irían para ...noRAE/Adverbios.txt

subsecuentemente (subsecuente sí está en dicc. RAE)
concatenadamente
concadenadamente
concéntricamente

Palabras para incluir en el diccionario

Corresponde al registro 755 de de RLA-ES en Forja.rediris.es
Creado por Roberto Isaac González Gracia (riggr) con fecha y hora 2013-09-21 22:42

Hola:
Les envío las siguientes palabras que no están el diccionario y que he colectado durante algún tiempo. Para su evaluación

Palabras RAE que no están en el diccionario
balacera
erógena
geoda
humanoide
insurgencia

Palabras NoRAE
latinoamérica
autoimagen
chaquetín
chapitas

Adjetivos RAE
atemporal
aperlada
existencialista
grandísimo
caleidoscópica ( de esta si está calidoscópica)
preocupadísimo

Adverbios de modo RAE
Son palabras que su raíz si existe en RAE pero en su forma adverbial no están en el diccionario
abrigante
agitadamente
aromáticamente
electrizante
acechante
frustrante
insospechadamente
despreocupadamente
egoístamente
erráticamente
gigantescamente
destellante
desvaneciente
implorante
desorbitante
díjole
enciéndete
liberante
líbrame
libérame
inconcebiblemente
protégeme
bésame
enfócate
autoflagelarse
boquita

Nombres propios
Rosalba

Cambiar codificación de noRAE/NombresPropiosSiglas.txt

Al comenzar a revisar el issue #36 he visto que este archivo está aún en codificación ISO-8859-15. Voy a cambiarlo de forma rápida, aunque me temo que tendremos que revisar todos los archivos. @Almorca, te cito para que estés al tanto, por si preparaste algún script durante el proceso de conversión que facilite la revisión.

Ficheros de afijos erróneos

Al ejecutar el commit c8653d4 se han dejado los ficheros de afijos locales inconsistentes. Hay que generar los nuevos ficheros de afijos (por lo menos el de es_ES) a partir del nuevo fichero de afijos común.

palabras que no están

Hola. Soy nuevo aquí y me disculpo si estoy haciendo algo mal. Quisiera dejarles un listado de palabras que no fueron reconocidas por el rla-es (al menos en el Writer de OO que acabo de descargar e instalar) y considero deberían ser añadidas:

adverbios, locuciones adverbiales (salvo indicación en contra, no están en el diccionario académico)
genéticamente
deductivamente
suplementariamente
nítidamente
sintéticamente (RAE)
autónomamente
fácticamente
de consuno (RAE)
problemáticamente (RAE)
indiscutiblemente
acertadamente (RAE)
provisoriamente
discursivamente
primigeniamente

adjetivos (salvo indicación en contra, presentes en el DLE)
autoconsciente/S (noRAE)
representacional/S (noRAE)
reconducible/S (noRAE)
estratosférico/GS
teorético/GS
unificador/GS
deambulatorio/GS
anómico/GS
experiencial/S
quíntuple/S
cúlmine (noRAE)

sustantivos
causación
ligazón
apoyatura/S
determinabilidad (noRAE)
interdicción
elucidación
implicancia/S (AR, BO, CH, CU, EC, NI, PY, PE, RD, UY, VE)
noúmeno/S
acápite/S (AR, CU, UY)
cariátide/S
absolutez (noRAE)
circularidad/S
plasmación
exteriorización
autolimitación (noRAE)
atemporalidad
incompletud (noRAE)
sustancialidad (noRAE)

gerundios
pronominales
tornándome
atribuyéndole
determinándome
transitivos
oponiéndolos
esbozándolo

infinitivos
transitivos pronominales
adscribirme/RED
anoticiar, anoticiarnos/RED (AR, BO)
figurárnoslos/RED
presuponerme/IRD
transitivos
inteligir/RED
atraversarla/IRD
aproximarla/RED
concretarlo/RED
moverlo/IRD
disrumpir/RED (noRAE)
elencar/RED (noRAE)
pronominales
autodeterminarse (noRAE)
autoimponerse/IRD
oponérsele/IRD
intransitivos
elongar/RED

verbos conjugados
pronominales
piénsate, piénsese, pensémonos
me autodetermino, se autodetermina, etc.
me anoticio
transitivos
comparémoslo
adecúe
disrumpa (noRAE)
transitivo pronominal
nos las habemos
intransitivos
interactúe

participios
obrante/S (noRAE)
inteligido/GS
sobreviniente/S (noRAE)
intuible/S (noRAE)
afectable/S
limitante/S
percipiente/S
conceptualizante/S (noRAE)
concipiente/S (noRAE)
volente/S (noRAE)
suprasensible/S (noRAE)
concatenante/S (noRAE)
antepuesto/GS
autoimpuesto/GS (noRAE)

¡Saludos!

Separación de sílabas (round 2)

Hola de nuevo, he encontrado lo que estaba buscando. Se llama LireCouleur (http://lirecouleur.arkaline.fr/presentation/), separa las palabras en sílabas con un arco y cambia las sílabas de color. Es interesante desde un punto de vista didáctico, sobre todo para aprender a tildar. Muchas palabras funcionan bien, pero cuando empiezas a probar con hiatos o triptongos la cosa se lía un poco.
He mirado las tripas y está programado en Python. Entiendo más o menos bien el funcionamiento, pero al estar todo todo TODO en francés (nombres de variables, nombres de funciones, notas, comentarios, salidas, etc...) me resulta muy complicado y me preguntaba si habría alguien en el equipo de rla-es o algún conocido que me pudiera echar un cable.
Gracias de antemano.

Valorar nuevos afijos

En los issues de las dos últimas versiones se ha ido hablando de la posibilidad de añadir posibles nuevos afijos. Abro este issue para que no nos olvidemos de ellos, con la idea de abordarlos tras la 2.1. Los afijos son:

  • mini-
  • maxi-
  • micro-
  • macro-
  • ex-
  • -ísimo
  • -mente

Podría ser que los cuatro primeros se agruparan en un mismo afijo, al estar tan relacionados entre sí.

Definir criterios para incluir nombres propios

En el issue #1 se proporciona una lista de nombres propios. En esa lista hay nombres que pueden considerarse de ámbito general, y otros que probablemente solo van a encontrarse normalmente en algunos países. Sin embargo, como nombres propios que son, puede haber debate en cuanto a si deben considerarse de ámbito regional o no.

Este issue que abro es para que debatamos qué criterios seguir. También, con el fin de tener un ejemplo en el que apoyarnos para debatir, traslado aquí la lista de nombres propuesta en el issue #1.

Añadir descripción en inglés a description.xml

Al subir la nueva versión al repositorio de diccionarios de LibreOffice observé que el archivo description.xml del repositorio tenía una etiqueta description en inglés además de la de español, por lo que la he añadido a nuestro repositorio.

Palabras faltantes

Corresponde al registro 747 de de RLA-ES en Forja.rediris.es
Creado por Richard von Moltke Necochea (ravmn) con fecha y hora 2012-11-07 22:27

Hola, soy usuario del diccionario es-ES para Firefox. A pesar del poco tiempo que tiene la versión 0.7 he notado que
faltan estas palabras.
*calcomanía
*interactuar
*aplausos (no estoy seguro si faltaba esta)

Espero no haberme equivocado. Gracias de antemano!

Sincronizar la numeración de versión de las extensiones de Mozilla con la del proyecto

El complemento de Mozilla para incluir el corrector ortográfico lo creó otra persona que decidió usar como número de versión 1.x para la versión correspondiente 0.x del proyecto y de las extensiones para LibreOffice y OpenOffice.org. Así, la versión 0.8 de RLA-ES se convierte en la 1.8 del complemento de Mozilla.

Veo dos opciones para solventar este problema:

  • Cuando RLA-ES alcance la versión 1.0, usar la versión 1.10 para el complemento en Mozilla y continuar la secuencia hasta que RLA-ES alcance la versión 2.0, en cuyo momento se sincronizarían. Pero, al paso que vamos, tardaremos bastante en alcanzar ese hito.
  • Aprovechar el hecho de que vamos a realizar un cambio importante, como es la recodificación de los archivos a UTF-8, para pegar un salto en la numeración del proyecto y pasar a la 2.0. Suena un poco drástico y forzado.

¿Qué os parece?

Modificación de afijos regionales para dejar de almacenarlos como parches.

Puesto que tener los ficheros de afijos regionales en formato de parches .patch por ahora solo dificulta el trabajo y no parece aportar nada propongo modificarlos para almacenar los ficheros completos.
Que a mí se me ocurra lo único que aporta tener los ficheros locales en formato de parche es un menor tamaño de los ficheros en el repositorio. Por contra cada vez que se quiere añadir un cambio hay que generar el fichero completo a partir del parche, modificar el fichero y volver a generar el parche.
@olea si tienes tiempo me gustaría conocer tu opinión sobre el tema.

Palabras faltantes en 0.7

Corresponde al registro 752 de de RLA-ES en Forja.rediris.es
Creado por @Almorca con fecha y hora 2013-09-09 12:05

Listado de palabras que faltan en la versión 0.7:

consultoría, esquinera / o, rocódromo, fumigación, papiroflexia

El cambio de codificación del archivo hyph_es_ANY.dic puede ocasionar mal funcionamiento de la separación silábica

En el commit que se implementó el cambio de codificación se modificó el encabezado del archivo hyph_es_ANY.dic (separación silábica) de "ISO-8859-1" a "UTF-8", pero esto no se debía hacer. Hasta donde sé es obligatorio que este diccionario utilice una codificación de 8-bit. El cambio a UTF-8 deberíamos analizarlo mejor y hacer muchas pruebas, porque el algoritmo de separación silábica que se utiliza (heredado del software TeX) es tan viejo (lo desarrolló Donald Knuth, creo, para que se den una idea) que en ese momento no existían codificaciones de bytes múltiples como UTF-8.

Además, se cambió el encabezado, pero no se convirtió el contenido del archivo a UTF-8, con lo cual es casi seguro que la separación silábica no funcione con el conjunto de diccionarios publicados de la versión 2.0.

Limpiar / Ordenar el proyecto

  • Estandarizar nombres de archivos en el proyecto #42
  • Eliminar scripts/archivos que ya no son necesarios
  • Renombrar directorio ortograf a ortografia ya que es es el único que se encuentra abreviado

podemos agregar mas items a la lista, pero me gustaría tener su opinión al respecto antes de realizar algún cambio

Estandarizar nombres de archivos en el projecto

actualmente estamos utilizando tres diferentes formas de nombres archivos y directorios (CamelCase, guión y guión bajo)
por ejemplo:

  • ortograf/herramientas/remover_comentarios.sh
  • ortograf/palabras/RAE/NombresMasculinos.txt
  • ortograf/palabras/toponimos/l10n/es_ES/entidades-territoriales.consideraciones.txt

habría que optar por utilizar una sola convencion.
CamelCase lo veo complicado a la hora de escribir los nombres en el teclado.
y por convencion a la hora de nombrar arvhicos en Unix, creo que el mas indicado es utilizar el guión bajo.
que les parece renombrar todos los archivos bajo un mismo estilo?

Proofing Tool GUI

No estoy seguro de que este sea el lugar apropiado, pero no encuentro un foro aquí en GitHub y no me es claro si el foro de RedIris seguirá siendo utilizado. Desde ya, pido disculpas si he equivocado lugar.

Dado que no he visto que se mencionara en el antiguo sito me pareció oportuno avisar que Marco Pinto ha desarrollado una herramienta para facilitar la edición de diccionarios, ya sean ortográficos, de sinónimos o de separación en sílabas llamada «Proofing Tool GUI».

http://marcoagpinto.cidadevirtual.pt/proofingtoolgui.html

No la he probado, pero al parecer es fácil de utilizar y podría ser una ayuda para desarrollar el diccionario Español.

Saludos

Número de versión Español Argentina en Mozilla

Visto que ha salido de la versión 2.0 del diccionario (felicitaciones y gracias por el laburo!), me resultó interesante actualizar el diccionario Español Argentina que está publicado para Mozilla, ya que hace rato que está medio abandonado y con muchos errores. La numeración que lleva ese diccionario es 2.5.1.

Una propuesta podría ser que en ese caso se salte a la numeración 2.6.

No tengo acceso para actualizarlo, debería consultar a la lista argentina de Mozilla.

Comunicación

Abro esta incidencia para ver si conocéis algún método por el cual podamos comunicarnos. Echo en falta un sistema por el cual podamos coordinarnos, algo como una lista de correo o un pequeño foro. No sé si github tiene algo que cumpla esa función.

La duda me ha surgido porque quería comentar que fecha buscar para publicar la versión 2.1 y que issues deberíamos resolver para darlo por finalizado.

La definición del sufijo 'N' (terminación -illo, -illa) debería desdoblarse en dos casos según el género

El sufijo con bandera 'N' puede aplicarse a nombres y adjetivos tanto masculinos como femeninos, pero si bien las terminaciones de ciertos lemas en algunos casos diferencian el género, en otros no.
Por ejemplo: el lema calzón (masculino), debe derivarse en calzoncillo, que puede lograrse con la regla existente: SFX N ón oncillo/S ón, pero el lema canción (femenino) tiene la misma terminación y sería derivada incorrectamente como cancioncillo, en lugar de cancioncilla.
Mi propuesta sería dividir la regla en dos según su género (masculino o femenino), y otra opción sería incluir los lemas directamente, sin reglas de sufijo, pero no creo que sea bueno.
Dejo el problema planteado y me gustaría saber qué opinan otros, para proceder a darle una solución definitiva.

Script palabras.sh

Revisando las cosas que hay que pasar a UTF-8 me he topado con el script palabras.sh que hay que actualizar. El script está diseñado para usar svn como repositorio por lo que habría que cambiarlo a git y habría que revisar el funcionamiento del mismo.

Falta el adjetivo 'lésbico' y sus formas derivadas

En el día de la visibilidad lésbica, veo que este adjetivo, precisamente, no integra el listado de palabras del diccionario. Sí está 'lesbio' que es sinónimo, pero últimamente la forma más extendida es la faltante, así que me propongo añadirla.

Cambio de la marca OpenOffice.org a Apache OpenOffice

En el año 2012, luego de que Oracle ceda el proyecto a Apache, por políticas de marcas de esta última, el proyecto OpenOffice.org se renombró a Apache OpenOffice.

En este proyecto y las extensiones publicadas aún se hace mención a OpenOffice.org.

Para README.md ya estaría corregido en el pull request #50, donde propuse una mejor version del README.md

En ortograf/docs/README_base.txt (el que aparece dentro del zip de las extensiones) se hace mención a versiones viejas de OpenOffice.org. Dado que hace más de 3 años del cambio de marca, a partir de la version 3.4 de Apache OpenOffice, se podria eliminar cualquier mención a versiones viejas.
Lo mismo con separacion/README_hyph_es_ANY.txt.

Por ultimo, habría que revisar en las descripciones de las extensiones en los respectivos sitios de cada aplicacion.

Compendio de palabras faltantes de la Wikipedia en castellano

Buenas a todos:
Hace un tiempo largo que he estado trabajando en un proyecto que se encarga en utilizar a la Wikipedia en castellano como un corpus. Extraer todas las palabras, hacer una limpieza, y realizar un gran análisis.
Me di cuenta viendo su proyecto, de la necesidad de tener conocimiento de cuáles son las palabras más frecuentes, para de ese modo darle prioridad a las faltantes.

El proyecto en cuestión se encuentra casi listo, pero por cuestiones de tiempo se ha demorado demasiado su publicación. Será software libre y espero sirva para muchos fines, entre ellos, a las personas que se dedican a crear correctores ortográficos, como es el caso de ustedes. Así que antes que deje correr más tiempo, vengo a ofrecerles de momento, un compendio de las palabras mas frecuentes, que no son detectadas por su diccionario.

La lista solamente incluye las primeras 1.872 palabras (la lista completa son algo más de 144.000). Incluyendo estas 1.872 palabras su diccionario estaría cubriendo el 95% de todas las palabras en Wikipedia. Este porcentaje se basa en la cantidad de palabras totales, y no únicas; por lo que toma en consideración su frecuencia. (y agregando solamente 193 palabras cubrirían el 90% de las palabras más populares)

Pueden ver la lista aquí: https://gist.github.com/eksperimental/acfc34a7bed80b967a42

Paso a explicar lo que significa cada columna:
La lista se encuentra ordenada por orden de frecuencia:

  • Position: Es lugar en la lista total e palabras (por ejemplo la primera en la lista es la 610va palabra más popular)
  • Matches: Cuantas veces se encontró esta palabra
  • Frequency: 1 en X, en el primer caso la palabra aparece 1 vez en 7.096 palabras
  • Top%_: es el porcentaje de las palabras mas populares,
  • Word: es la palabra en cuestión

Cabe destacar que he eliminado todas las palabras faltantes, que coincidían con el diccionario en ingles de Openoffice, ya que hay una gran cantidad de palabras en ingles en Wikipedia), así que habrá varias que se escriben igual en castellano y en ingles, y que están faltantes en su diccionario, que no aparecen aquí. habría que hacer una revisión manual (puede proveerles la lista completa con las palabras en ingles si así lo desean)

Palabras en total analizadas luego de eliminar hacer una limpieza y eliminar las que tenían muy pocas ocurrencias:
Total de palabras: 360.308.743
Palabras únicas: 686.257

Agradecería que a medida que revisan la lista las palabras que consideren que desean excluir del diccionario, si las pueden agrupar por categorías ya sea por error ortográfico como "despues", o por ser abreviaciones como "msnm", o por cualquier otro motivo. Las agregaría a una lista negra entonces ya no aparecerían en los reportes.

Cualquier duda, no duden en consultar. espero que les sea de ayuda.
-- Eksperimental

Actualización: El proyecto se encuentra disponible en: https://github.com/eksperimental/qorpora

Tutoriales para contribucion

Hola, creo que este proyecto podria usar una documentacion para usuarios comunes puedan contribuir mas facilmente a la manera como tenemos organizado tanto el codigo como las palabras. Es decir, algunas personas que le pase este proyecto para contribuir, no pudieron entender como meterle las palabras que ellos consideraban podrian entrar.

La confusion principal fueron dos secciones:
En que folder/archivo lo meto
Como defino la palabra (en caso de haber conjugacion, plural, capitalizacion, etc).

Pasar el diccionario a UTF-8

Voy a intentar estos días hacer pruebas para pasar el diccionario a UTF-8 y ver si para cuando se publique la versión 0.8 podemos trabajar con el diccionario en este nuevo formato.
Por ahora no subiré nada al repositorio pero iré informando del resultado de las pruebas.

El sufijo -ción (bandera A) no trata bien ciertos casos

Según informa @Almorca en el issue #24, hay que revisar en el fichero de afijos la regla A ya que con sustituir forma sustituición en vez de sustitución. El problema está en esta línea:

SFX A r ción/S [^c]ir

La razón por la que nuestro corrector no admite como válida "sustituición" es porque el afijo A no está añadido al verbo sustituir. No obstante, he buscado en el diccionario de la RAE (ahora se puede) todas las palabras que acaban en ~uir y salen unas cuantas. La lista completa está en el issue #24, pero aquí dejo solo las que creo que pueden derivar una acción:

  • atribuir
  • conseguir
  • constituir
  • construir
  • contribuir
  • deconstruir (tenemos que añadir esta palabra)
  • desobstruir
  • destituir
  • destruir
  • diluir
  • diminuir
  • disminuir
  • distinguir
  • distribuir
  • excluir
  • extinguir
  • imbuir
  • incluir
  • instituir
  • instruir
  • intuir
  • obstruir
  • ocluir
  • perseguir
  • precluir
  • prostituir
  • recluir
  • reconstituir
  • reconstruir
  • redistribuir
  • restituir
  • retribuir
  • subdistinguir (o quizá no, ¿subdistinción?)
  • substituir
  • sustituir

Faltante issue 11

Añado aquí el fichero que hay en contrib/faltantes_issue_11.txt para eliminarlo del repositorio.

Dérmico/a no se reconoce

Al menos en la variantes es_ES del diccionario 0.8, la palabra "dérmico" y sus variantes de género y número no se reconoce, a pesar de estar aceptada por la RAE.

Siendo un adjetivo, correspondería al archivo Adjetivos.txt con esta entrada:

dérmico/SG

Existe el sustantivo dermis, del que se derivaría dérmico, en NombresFemeninos.txt, pero no tenemos reglas para derivar el adjetivo a partir del sustantivo, y sinceramente no creo que merezca la pena crear o modificar ninguno.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.