تالار گفتگوی پارسی‌لاتک

زی‌پرشین XePersian => زی‌تک => نويسنده: محمد چهارسوقی در اكتبر 03, 2010, 10:18:54 am

عنوان: کپی و چسباندن یک متن فارسی از فایل PDF به word
رسال شده توسط: محمد چهارسوقی در اكتبر 03, 2010, 10:18:54 am
امروز هنگام کپی و چسباندن یک متن فارسی از درون فایل PDF و انتقال آن به فایل word  با یک پدیده‌ای مواجه شدم که نمی‌دانم آیا طبیعی است یا نه. و اینکه آیا حل شدنی است یا خیر.

چند پاراگراف معمولی با فونت یاس نوشتم که خروجی pdf آن را برایتان پیوست کردم. در پاراگراف اول فقط از حروف اصلی استفاده کردم. در پاراگراف دوم از نیم فاصله و کاما و خط کسره و علامت سوال استفاده کردم که متن در هنگام انتخاب و در نتیجه چسباندن بهم ریخت.

با تکرار پاراگراف و کم و زیاد کردن علائم خاص به این نتیجه رسیدم که با علامت سوال و همزه مشکلی ندارد. با علامت کسره بعضی جاها مشکل دارد و بعضی جاها مشکل ندارد!! مثلا در پارگراف سوم کسره بعد از کلمه نظر درست نمایش داده شده و باعث قطع جمله نشده اما در همین پارگراف کسره بعد از کلمهٔ متن مشکل‌ساز شده. همچنین به نظر می‌رسد با نیم‌فاصله همیشه مشکل داشته باشد.

آیا طبیعی است و یا می‌توان کاری کرد؟
ممنون
عنوان: پاسخ : کپی و چسباندن یک متن فارسی از فایل PDF به word
رسال شده توسط: سروش در اكتبر 03, 2010, 09:35:46 pm
من قبلاً با این مشکل مواجه شدم.
یه فایل pdf‌ بود که باید صفحه‌بندیش می‌کردم و تعداد زیادی '«' و '»' داشت. بعد از کلی انگولک کردن متوجه شدم هر وقت متن با کاراکترهای خاصی مواجه میشه، جهت متن انتخاب شده عوض میشه. مثلاً اگر داخل pdf داشته باشید:
متن اولی «متن دومی» متن سومی
بعد از کپی کردن به شکل زیر در میاد:
متن سومی »متن دومی« متن اولی

فکر کنم به خاطر روش acrobat برای تشخیص جهت کاراکترها باشه. من روش‌های خیلی زیادی رو برای حل این مشکل امتحان کردم. از converter گرفته تا تبدیل pdf به تصویر و استفاده از OCR، اما فایده‌ای نداشت. تنها کاری که تونستم بکنم این بود که از یک برنامۀ کوچیک برای تبدیل pdf‌ به html استفاده کردم. که البته متن اصلی خیلی خیلی بیشتر به هم خورد ولی لااقل جهت‌ها عوض نمی‌شدن.
عنوان: پاسخ : کپی و چسباندن یک متن فارسی از فایل PDF به word
رسال شده توسط: هادی صفی‌اقدم در اكتبر 03, 2010, 10:02:04 pm
آکروبات شما تنظیم نیست

از منوی edit گزینه‌ی preferences و سپس  را انتخاب کنید International و گزینه‌ی Default Rendering Direction را روی Right to Left قرار دهید

عنوان: پاسخ : کپی و چسباندن یک متن فارسی از فایل PDF به word
رسال شده توسط: سروش در اكتبر 04, 2010, 03:11:23 pm
قبلاً با آکروبات ۸ همین رو امتحان کرده بودم و درست نشده بود. حالا با ۹ هم امتحان کردم، بازم فایده‌ای نداره.
عنوان: پاسخ : کپی و چسباندن یک متن فارسی از فایل PDF به word
رسال شده توسط: هادی صفی‌اقدم در اكتبر 04, 2010, 06:30:23 pm
قبلاً با آکروبات ۸ همین رو امتحان کرده بودم و درست نشده بود. حالا با ۹ هم امتحان کردم، بازم فایده‌ای نداره.
من با آکروبات ۸ و ۹ تست کردم و جواب گرفتم. نمونه فایل خودم را هم ضمیمه کرده ام و همه سطرها را درست تبدیل کرده است.
عنوان: پاسخ : کپی و چسباندن یک متن فارسی از فایل PDF به word
رسال شده توسط: سروش در اكتبر 04, 2010, 09:18:02 pm
با فایل من جواب نمیده. البته این فایل قدیمیه و با آکروبات ۶ ساخته شده. توی لینوکس یک pdf درست کردم و با آکروبات ۸ ویندوز تست کردم مشکلی نداشت. فکر کنم برای نسخه‌های قدیمی pdf‌ کار نمی‌کنه.

برای مثال متن توی عکس پیوست شده رو کپی کردم و به این شکل در اومده:

ایران- کنترا - » بوش افرادی را از بخش های مشکوک حزب جمهور یخواهان سال های 80 انتخاب کرده است، افرادی که در
بود که در ماه مارس بدون جنجال و تأیید شفاهی « ریچارد ارمیتاج » سهیم بودند. اولین انتصابش معاون وزیر امورخارجه « گیت
در سا لهای حکومت ریگان در مقام مشاور در بخش مسایل امنیتی بین المللی در وزارت امور خارجه « ارمیتاج » سنا صورت گرفت.