شما هنوز به سیستم وارد نشده اید.

#1 2016-12-17 23:14:11

morealaz
Moderator
از : کرمان
ثبت شده: 2016-03-19
ارسال ها: 352

تبدیل فایل PDF به فایل متنی (استخراج متن فارسی از فایل)

فرهنگستان زبان و ادب فارسی کتابی رو تحت عنوان فرهنگ املایی خط فارسی منتشر کرده که در این کتاب لیستی از املای صحیح کلمات فارسی آورده شده که میتونه مرجع کاملی برای نرم افزارهای ویرایش متون فارسی باشه. متاسفانه این کتاب به صورت یک فایل PDF منتشر شده که امکان کپی متن و کلمات اون وجود نداره. با توجه به ضرورت استفاده از این فرهنگ در نرم افزارهای مختلف، از شما دوستان می خواهم که اگر راه حلی برای استخراج متون فارسی از این فایل PDF دارید با بقیه به اشتراک بگذارید.
در گروه خبری persian-computing که به همت بهداد اسفهبد و جمعی از فعالان جامعه اپن سورس علاقه مند به زبان فارسی راه اندازی شده میتونید در مورد این موضوع اطلاعات بیشتری کسب کنید.
خواهش میکنم فایل رو دانلود کنید و اگر راه حلی دارید بر روی اون امتحان کنید.
http://www.persianacademy.ir/UserFiles/File/fe1394.pdf

آفلاین

#2 2016-12-17 23:50:53

Arcush
Moderator
ثبت شده: 2015-09-15
ارسال ها: 1,505

پاسخ: تبدیل فایل PDF به فایل متنی (استخراج متن فارسی از فایل)

عالی. محمدجان، من همیشه بهترین نتیجه رو درمورد استخراج حروف فارسی از فایل های PDF با گزینه Preview نرم افزار recoll میگیرم. اما درمورد این فایل، حتی یک کاراکتر فارسی هم به من نداد. منظورم زود ناامید شدن نیست. ولی به نظرم یه راه خوب این هست که ازشون درخواست بشه تا یک فایل متنی معادل رو روی سایتشون قرار بدن. ما خیلی به چنین چیزی نیاز داریم.

آفلاین

#3 2017-01-06 23:21:40

morealaz
Moderator
از : کرمان
ثبت شده: 2016-03-19
ارسال ها: 352

پاسخ: تبدیل فایل PDF به فایل متنی (استخراج متن فارسی از فایل)

سعیدجان ممنونم از زحمتی که کشیدی و وقتی که گذاشتی. تلاشت مثال زدنی هست. راستش گزینه OCR در گروه Persian Computing هم مطرح شده بود. ولی بیشتر دنبال روشی هستیم که بدون استفاده از OCR بشه این کار رو کرد. چون همونجور که خودت گفتی OCR هنوز به خوبی زبان فارسی رو پشتیبانی نمیکنه. ولی فکر میکنم در نهایت با این فایل PDF عجیب و غریب راهی بجز OCR وجود نداشته باشه و یا اینکه اتفاق عجیبی در عرصه فرهنگ و تکنولوژی این مملکت رخ بده و فرهنگستان زبان خودش بیاد لااقل یه نسخه متنی از این کتاب رو برای استفاده عموم قرار بده که اینم بعیده!!!
بازم ازت تشکر میکنم به خاطر زحمتی که کشیدی.

آفلاین

پانوشت انجمن

پشتیبانی توسط تیم آرچ لینوکس ایران و نیرو گرفته با FluxBB