شما هنوز به سیستم وارد نشده اید.

#1 2016-12-17 23:14:11

morealaz
عضو
از : کرمان
ثبت شده: 2016-03-19
ارسال ها: 292

تبدیل فایل PDF به فایل متنی (استخراج متن فارسی از فایل)

فرهنگستان زبان و ادب فارسی کتابی رو تحت عنوان فرهنگ املایی خط فارسی منتشر کرده که در این کتاب لیستی از املای صحیح کلمات فارسی آورده شده که میتونه مرجع کاملی برای نرم افزارهای ویرایش متون فارسی باشه. متاسفانه این کتاب به صورت یک فایل PDF منتشر شده که امکان کپی متن و کلمات اون وجود نداره. با توجه به ضرورت استفاده از این فرهنگ در نرم افزارهای مختلف، از شما دوستان می خواهم که اگر راه حلی برای استخراج متون فارسی از این فایل PDF دارید با بقیه به اشتراک بگذارید.
در گروه خبری persian-computing که به همت بهداد اسفهبد و جمعی از فعالان جامعه اپن سورس علاقه مند به زبان فارسی راه اندازی شده میتونید در مورد این موضوع اطلاعات بیشتری کسب کنید.
خواهش میکنم فایل رو دانلود کنید و اگر راه حلی دارید بر روی اون امتحان کنید.
http://www.persianacademy.ir/UserFiles/File/fe1394.pdf

آفلاین

#2 2016-12-17 23:50:53

Arcush
Moderator
ثبت شده: 2015-09-15
ارسال ها: 1,281

پاسخ: تبدیل فایل PDF به فایل متنی (استخراج متن فارسی از فایل)

عالی. محمدجان، من همیشه بهترین نتیجه رو درمورد استخراج حروف فارسی از فایل های PDF با گزینه Preview نرم افزار recoll میگیرم. اما درمورد این فایل، حتی یک کاراکتر فارسی هم به من نداد. منظورم زود ناامید شدن نیست. ولی به نظرم یه راه خوب این هست که ازشون درخواست بشه تا یک فایل متنی معادل رو روی سایتشون قرار بدن. ما خیلی به چنین چیزی نیاز داریم.

آفلاین

#3 2017-01-06 22:40:49

LinArcX
عضو
ثبت شده: 2015-09-18
ارسال ها: 729
وب سایت

پاسخ: تبدیل فایل PDF به فایل متنی (استخراج متن فارسی از فایل)

درود خدمت محمدعزیز.آقا من همون روزی که این پست رو گذاشتی دنبال کارتونو گرفتم.اولین ایده ای که به ذهنم رسید این بود که دست به کد بشم و با استفاده از کتابخونه PDFBox در جاوا، لغات رو استخراج کنم.اما نتیجه مایوس کننده بودبرام.به صورتی که خروجی هایی که واسم می اومد همانند خروجی عیسی عزیز چیزی جز کاراکترهای در هم برهمِ غیر قابل فهم نبودن.همون لحظه به ذهنم رسید از آدم های باتجربه تر و فنی تر سوال کنم.تو stackoverflow کدم رو به همراه شرح ماوَقَع قرار دادم.خوشبختانه یه نتیجه خیلی خوب گرفتم از سوالم و اونم این بود که به خاطر رعایت انکودینگ های خاص، نمیشه در واقع با هیچ کتابخونه شناخته شده ای، لغات این pdf رو اکسترکت کرد.اما نکته کلیدی که کاربر mkl بهم گفت:

Thus, in case of the sample PDF, you most likely will have to resort to OCR.

نتیجه گرفتم یه تحقیق کوچیک راجع به ocr کنم.اینکه آیا کتابخونه ای ازش موجوده که بتونه لغات رو با دقت بالا استخراج کنه؟تلاش های من، وقتی که علاقه مند بودم زبان فارسی هم توسط اون کتابخونه ساپورت شده باشه تقریبا به بن بست رسید و متاسفانه تو کشور خودمون هم فک میکنم هنوز کار جدی ای تو این زمینه صورت نگرفته.(دوستان اگه اطلاع دارین جایی این کارها داره انجام میشه در جریان بذارین ما رو.خوشحال میشیم.)
در هر صورت پس از کمی تحقیق دیگه متوجه شدم که گوگل به تازگی قابلیت ocr رو در اسناد فارسیش هم فعال کرده .بدین ترتیب که کافیه اسکن اون pdf تونو تو google Doc آپلود کنید و تیک گزینه :

convert uploaded file to google doc editor format

رو که تو نتظیمات داک هست فعال کنید و عکس تونو آپلود کنید.بعدش رو فایلتون راست کلیک کنید و open with google docs رو بزنید.بعد چند ثانیه...بَنگ..
گوگل نسخه متنی عکس رو بهتون تحویل میده.
tgwm_screenshot_from_2017-01-06_21-42-42_thumb.png
پ.ن:
به نظرم واسه اینکه وقتت گرفته نشه واسه عکس گرفتن تک تک صفحات اون pdf میتونی یه برنامه ای بنویسی که این کارو واست کنه.در نهایت یه آپلود دسته جمعی باید انجام بدی و تمام فایل های تکستت رو بگیری.البته اونجوری که من متوجه شدم، این سرویس فعلا یه سری نقاط ضعف داره و تو تبدیل بعضی کلمات دچار مشکل هست.(مخصوصا تو رسم الخط و رعایت اِعراب گذاری ها)اونا هم باید نشست دستی انجام داد احتمالا.خیلی سعی کردم یه راه حل کاملا ماشینی از توی این سوالت در بیارم.اما انگار هنوز فناوری در اون حد پیشرفت نکرده که این مشکلات به مسایل روزمره تبدیل بشن. smile

آخرین ویرایش توسط LinArcX (2017-01-06 22:50:32)


"Enough!!!Don't Use "DEFAULTS" Any More..."make it simple stupid

آفلاین

#4 2017-01-06 23:21:40

morealaz
عضو
از : کرمان
ثبت شده: 2016-03-19
ارسال ها: 292

پاسخ: تبدیل فایل PDF به فایل متنی (استخراج متن فارسی از فایل)

سعیدجان ممنونم از زحمتی که کشیدی و وقتی که گذاشتی. تلاشت مثال زدنی هست. راستش گزینه OCR در گروه Persian Computing هم مطرح شده بود. ولی بیشتر دنبال روشی هستیم که بدون استفاده از OCR بشه این کار رو کرد. چون همونجور که خودت گفتی OCR هنوز به خوبی زبان فارسی رو پشتیبانی نمیکنه. ولی فکر میکنم در نهایت با این فایل PDF عجیب و غریب راهی بجز OCR وجود نداشته باشه و یا اینکه اتفاق عجیبی در عرصه فرهنگ و تکنولوژی این مملکت رخ بده و فرهنگستان زبان خودش بیاد لااقل یه نسخه متنی از این کتاب رو برای استفاده عموم قرار بده که اینم بعیده!!!
بازم ازت تشکر میکنم به خاطر زحمتی که کشیدی.

آفلاین

#5 2017-01-06 23:27:09

LinArcX
عضو
ثبت شده: 2015-09-18
ارسال ها: 729
وب سایت

پاسخ: تبدیل فایل PDF به فایل متنی (استخراج متن فارسی از فایل)

خواهش میکنم.کاری نکردم.
البته عیسی یه حرف قشنگی زد.بعضی وقت ها رایزنی میتونه گزینه سهل الوصول تری باشه.اگه طوری مذاکره باشه باهاشون که متوجه بشن این سند میتونه یه سند ملی باشه و مورد استفاده خیلی ها قرار بگیره، شاید تغییر رویه بدن.
امیدواریم که همچین اتفاقی بیفته و همه از آثار این تصمیم، خوشنود بشیم. smile

آخرین ویرایش توسط LinArcX (2017-01-06 23:27:55)


"Enough!!!Don't Use "DEFAULTS" Any More..."make it simple stupid

آفلاین

پانوشت انجمن

پشتیبانی توسط تیم آرچ لینوکس ایران و نیرو گرفته با FluxBB