Git Product home page Git Product logo

lilak's People

Contributors

b00f avatar behradbv avatar reza1615 avatar rsolomakhin avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

lilak's Issues

ایجاد مشکل بر اثر تبدیل جمع مکثر در کلمات عربی به جمع فارسی

استفاده از جمع مکثر کلماتی که ریشه عربی دارند از نظر زبانی نادرست نیست و به عنوان مثال می‌توان نوشت مدارس غیرانتفاعی
ولی از این گذشته تبدیل مدارس به مدرسه‌ها می‌تواند مشکل‌آفرین باشد به این مثال توجه کنید:‌
مدارس غیر انتفاعی
مدرسه ها غیر انتفاعی
همانطور که مشاهده می‌کنید نبود ی بعد از مدرسه‌ها جمله را کاملا غلط کرده است.

از زحمات همگی شما متشکرم

Adding Persian Spellchecker to LanguageTool

There is a great and open source tool for checking spell and grammar named LanguageTool which is also used in other tools or platforms like KNIME Spellchecker nodes.
They have already added Persian language to the tool but it cannot check for spelling in Persian.
I asked them about this here and they suggested to add Hunspell-based Persian dictionary.
Would you please cooperate on this?

واژگان انگلیسی در میان متن فارسی

خیلی از متون فارسی، به‌ویژه متون علمی، دارای واژگان انگلیسی در میان خودشان هستند. آیا راهی هست که کل این موارد (مثلاً همه کلماتی که با الفبای لاتین هستند) در متن فارسی نادیده گرفته شوند (روش دیگری که به ذهنم می‌رسد ساختن یک دیکشنری چندزبانه است که فکر می‌کنم حجم زیادی بگیرد و شاید شدنی نباشد)

Adding lilak to LibreOffice

Currently LibreOffice has no dictionary for Persian language.
All the dictionaries for Libre Office are listed here

We need to add latest release to this repo.

اشکال ریشه‌یابی کلمات سه‌حرفی

سلام و ممنون برای برنامه خوبتون،

علیرغم اینکه این برنامه ریشه اکثر کلمات را بدرستی درمی‌آورد، اما تعداد زیادی از کلمات (غالباً اسامی) سه‌حرفی که حرف آخر آنها یکی از حروف م، ی، ت، یا ش هستند تغییر کرده و یک نتیجه دو حرفی بی معنی تحویل میدهد، مثلاً آدم به آد و رزم به رز تبدیل میشوند. چند مثال:

آدم
آلی
برش
بزم
بنی
بوم
پخت
پخش
پرت
پری
پشت
پشم
ترش
تقی
تنش
جرم
رزم
ملی

البته مثالهای بیشتری هست، ولی به همین بسنده میکنم.

ترکیب با دیکشنری انگلیسی

ممنون از زحمتی که کشیدین.
فکر خوبی هست که دیکشنری انگلیسی هم داخلش اضافه بشه یا نسخه دومی ازش وجود داشته باشه که ترکیبی از دیکشنری انگلیسی و فارسی باشه؟
حداقل برای من دو امتیاز داره: یکی این‌که تو متن فارسی‌ای که عبارت‌های انگلیسی وجود داشته باشه هم انگلیسی‌ها اشتباه به حساب نمیان که صفحه رو شلوغ کنن و هم به تشخیص اشتباه‌های تایپی تو عبارت‌های انگلیسی کمک می‌کنه و یکی دیگه این‌که تو فایرفاکس که زبان رو به طور خودکار بر اساس محتوا حدس نمی‌زنه و انتخاب نمی‌کنه می‌تونیم دیکشنری رو دایما روی فارسی بذاریم و ازش هم برای نوشتن فارسی استفاده کنیم و هم انگلیسی.

من خواستم برای آزمایش خودم این کار رو بکنم، ولی متاسفانه تداخل‌هایی پیش میاد که برای حل کردنش باید اطلاعات کاملی در مورد این نوع دیکشنری داشت.

ـهٔ

مضاف‌های مختوم به های غیرملفوظ از نویسهٔ «ٔ» به جای کسره استفاده می‌کنند. به نظر می‌رسد در همهٔ موارد این‌ها به عنوان اشتباه شناسایی می‌شوند. مثال:

خانهٔ سبز
دروازهٔ فوتبال
پروانهٔ ساخت
شهریهٔ دانشگاه
نامهٔ او

(از افزونهٔ فایرفاکس استفاده می‌کنم)

شناسایی‌نشدن یای نکره در انتهای جمع‌های «ان»

برای مثال «یکتاپرستان» درست شناسایی می‌شود ولی «یکتاپرستانی» نه. به طور مشابه برای موارد زیر: - درختانی - ایزدانی - آموزگارانی

به نظر می‌رسد این موضوع مرتبط با #7 است. (واژه‌هایی که حالت جمعشان مستقیم در دادگان وارد نشده این مشکل را دارند و اگر به انتهای مثال‌های آنجا یک «ی» اضافه کنیم همین مشکل ظاهر می‌شود)

نقش‌نمای اضافه پس از صفت‌های منتهی به الف

موارد زیر که بیشتر حاصل ترکیب [صفت‌های منتهی به الف](http://danasrs.com/lexicon/search.php?text=%25%D8%A7&ana_text=&ana_type=84&pronounce=&lemma=&min_freq=&max_freq=&user_id=-1&export_type=) با یک اسم/صفت هستند اشتباه شناسایی می‌شوند: - بلندای آسمان - آرمانگرای حقیقی - اصولگرای واقعی - اسلامگرای نمونه - بامعنای ژرف‌معنی - [روستایِ] باصفای فلان - اقتدارگرای جاه‌طلب - [پیشنهادِ] کارگشای جناب‌عالی

البته مطمئن نیستم از نظر دستور زبان چگونه طبقه‌بندی می‌شوند، ولی فکر می‌کنم غالب مواردی که در پیوند بالا آمده‌اند چنین مشکلی دارند.

امکان حذف برخی کلمات از دیکشنری نهایی

باید این امکان وجود داشته باشد که برخی کلمات و واژگان را بشود از دیکشنری نهایی حذف کرد.
برای مثال می‌توان «می» به معنی شراب را از دیکشنری تولیدی حذف کرد. اینکار باعث می‌شود که افعال استمراری با دقت بیشتری تشخیص داده بشوند.

پیشنهاد

با سلام و احترام
من متوجه شدم که بخشی از واژه‌ها رو به‌عنوان واژه‌های خارجی توی داده‌ها‌تون متمایز کردید. الیته این کار به‌صورت کامل انجام نشده و تنها مقدار کمی از داده‌ها به‌این صورت هستند. خواستم پیشنهاد کنم که واژه‌های خارجی رو متمایز نکنید، چراکه تنها در صورتی می‌تونید چنین تمایزی رو در داده‌هاتون قائل بشید که تمایز ریشه‌شناختی براشون قائل بشید. مثلن واژه «زمان» یک واژه آرامی هست، واژه «کلید» یونانی و واژه «صابون» لاتین است. بااین حال هیچ یک از سخنگوهای زبان فارسی و حتا بسیاری از زبانشناس‌ها از چنین اطلاعات ریشه‌شناختی‌ای اطلاع ندارند. شما اگر بخواهید واژه‌های خارجی رو متمایز کنید یا باید از اطلاعات فارسی باستان استفاده کنید یا اگر بخواهید واژه‌های خارجی اخیر رو متمایز کنید، باید یک معیار عینی برای این «اخیر بودن» ارائه‌کنید که دستیابی به چنین معیار عینی‌ای اگه غیرممکن نباشه، ساده نیست.
من توی داده‌ها متوجه شدم که در بعضی از واژه‌ها التقای واکه‌ای وجود داره که می‌تونه بعدها براتون مشکل ایجادکنه.
پیشنهاد می‌کنم توی واج‌نویسی واژه‌ها تقطیع هجایی رو هم لحاظ کنید. چنین چیزی میتونه مانع از مشکلاتی نظیر التقای واکه‌ای بشه.

کلمات غیر رسمی

الان خروجی این پروژه کلمات غیررسمی‌ای مانند
اونا
بریم
آروم
بشیم
داغون
میده
میون
به نظرم برای هانسپل باید حد و مرز مشخص کرد آیا فقط برای موارد رسمی و کتابی ست یا برای موارد محاوره‌ای هم کاربرد دارد
اگر قرار باشد غیر رسمی‌ها را هم پشتیبانی کند پس عبارت‌های زیر هم باید به آن اضافه شود مانند
تهرون
ایرون الان ایرونی را می‌شناسد!
ایشون

جمع «ها» در واژه‌هایی که با نیم‌فاصله نوشته می‌شوند

این واژه‌ها با اینکه در دادگان هستند ولی در حالت جمع درست شناخته نمی‌شوند: - پیاده‌روها (با اینکه «پیاده رو» در دادگان هست) - چشم‌اندازها (با اینکه «چشم انداز» در دادگان هست) - کتاب‌خانه‌ها (با اینکه «کتاب‌خانه» را به تنهایی درست تشخیص می‌دهد) - تخته‌سیاه‌ها (با اینکه «تخته‌سیاه» درست شناخته می‌شود) - عرضه‌نویس‌ها (با اینکه «عریضه‌نویس» درست شناخته می‌شود)

روش کلی‌ای هست که بشود این‌ها را تشخیص داد یا باید جداگانه وارد شوند؟

Build failed on macos system

دستور sudo apt-get install libhunspell-dev برای سیستم عامل ubuntu هست و روی سیستم عامل مک خطا میده

بعد از اجرای make build >>
FileNotFoundError: [Errno 2] No such file or directory: '../build/fa-IR.aff'
make: *** [build] Error 1

صفت مفعولی + همزه

اگر بعد از صفت‌های مفعولی [که از ترکیب بن ماضی + ه تشکیل می‌شوند] همزهٔ روی «ـه» بیاید در اکثر موارد به عنوان اشتباه شناسایی می‌شوند، در حالی که درست هستند. مثال: «حملات گستردهٔ تروریستی» «دودمان برافتادهٔ قاجار» «عملیات پیچیدهٔ ریاضی» «شیر دوشیدهٔ تازه» «تنهٔ پوسیدهٔ درخت» و ...

اضافه کردن واژگان جدید

درود بر شما
برخی از واژگان‌ها در این بانک اطلاعاتی این غلط گیر وجود ندارد مثلا «بیخدایان »
من در مرورگرم برخی واژگان را به دیکشنری اضافه می‌کنم، مشکلم حل میشود!

حال چه راهکاری وجود دارد که من بتوانم واژگان جدید را هم به بانک اصلی اضافه کنم؟
ممنون میشم بطور کلی بنده را راهنمایی کنید که چگونه و به چه نحوی می‌توانم در بروز رسانی لغات این غلط‌گیر به نوبه خودم مشارکت داشته باشم؟

نسخه کروم

آیا نسخه کروم هم داره؟ نتونستم چیزی پیدا کنم
پ.ن : کارتون عالیه

حذف تدریجی دیکشنری کمکی

در حال حاضر یک دیکشنری کمکی در کنار مجموعه لغات برچسب گذاری شدهٔ لیلک وجود دارد که شامل تعداد زیادی واژه است. برخی از واژگان را می‌توان براحتی حذف کرد تا حجم دیکشنری نهایی کاهش یابد بدون اینکه در عملکرد لیلک تاثیری بگذارد
از سویی می‌توان باقی واژگان را به مرور به دادگان لیلک افزود.

دیکشنری کمکی را در اینجا پیدا کنید:
https://github.com/b00f/lilak/blob/master/src/data/dic_users

جمع کلمات با «ان»

پسوند «ان» که برای جمع اسامی جانداران به کار می‌رود در حال حاضر برای همه اسامی اعمال می‌شود.
راه حل اینست که فهرستی از تمامی اسامی که با «ان» قابل جمع هستند را بدست آورد.
البته چون از دیکشنری لیلک برای غلط یابی استفاده می‌شود (نه درست یابی!) این الگوریتم به نوعی ایجاد مشکل نمی‌کند.
بهتر است در این مورد بیشتر بحث شود.

فرمت استاندارد برای نسخهٔ ۳.۲ لیلک

سلام. شما بهتر از من می‌دانید که افزونه‌های استاندارد لیبره‌آفیس در فرمت OXT منتشر می‌شوند. نسخهٔ ۳.۲ افزونه در چنین قالبی منتشر نشده و کاربران عادی نمی‌توانند به‌سادگی نصبش کنند. ممنون می‌شوم این نقص را برطرف کنید.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.