استخراج النص من ملفات PDF والصورة

هل لديك مستند PDF(PDF document) ترغب في استخراج كل النص منه؟ ماذا عن ملفات الصور للمستند الممسوح ضوئيًا الذي تريد تحويله إلى نص قابل للتحرير؟ هذه بعض المشكلات الأكثر شيوعًا التي رأيتها في مكان العمل عند التعامل مع الملفات.

في هذه المقالة ، سأتحدث عن عدة طرق مختلفة يمكنك اتباعها لمحاولة استخراج نص من ملف PDF أو من صورة. ستختلف نتائج الاستخراج وفقًا لنوع وجودة(type and quality) النص في ملف PDF أو الصورة(PDF or image) . أيضًا ، ستختلف نتائجك اعتمادًا على الأداة التي تستخدمها ، لذلك من الأفضل تجربة أكبر عدد ممكن من الخيارات أدناه للحصول على أفضل النتائج.

استخراج النص من الصورة أو PDF

إن أبسط وأسرع طريقة للبدء هي تجربة خدمة استخراج (extractor service)نصوص PDF(PDF text) عبر الإنترنت . هذه عادةً مجانية ويمكن أن تمنحك بالضبط ما تبحث عنه دون الحاجة إلى تثبيت أي شيء على جهاز الكمبيوتر الخاص بك. فيما يلي نوعان استخدمتهما بنتائج جيدة جدًا إلى ممتازة:

استخراج PDF

extractpdf

ExtractPDF هي أداة مجانية لانتزاع الصور والنصوص والخطوط(text and fonts) من ملف PDF(PDF file) . القيد الوحيد هو أن الحجم الأقصى(max size) لملف PDF(PDF file) هو 10 ميجا بايت. هذا صغير بعض الشيء. لذلك إذا كان لديك ملف أكبر ، فجرّب بعض الطرق الأخرى أدناه. اختر ملفك ثم انقر فوق الزر إرسال ملف(Send file) . عادةً ما تكون النتائج سريعة جدًا ويجب أن تشاهد معاينة للنص عند النقر فوق علامة التبويب "نص"(Text tab) .

تنزيل النص

إنها أيضًا ميزة إضافية لطيفة وهي أنها تستخرج الصور من ملف PDF(PDF file) أيضًا ، فقط في حالة احتياجك إليها! بشكل عام ، تعمل الأداة عبر الإنترنت بشكل رائع ، لكنني واجهت بعض مستندات PDF(PDF docs) التي تعطيني إخراجًا مضحكًا. يتم استخراج النص بشكل جيد ، ولكن لسبب ما سيكون هناك فاصل أسطر(line break) بعد كل كلمة! ليست مشكلة كبيرة لملف PDF(PDF file) قصير ، ولكنها بالتأكيد مشكلة بالنسبة للملفات التي تحتوي على الكثير من النصوص. إذا حدث ذلك لك ، فجرب الأداة التالية.

التعرف الضوئي على الحروف عبر الإنترنت

(Online OCR)عادةً ما يعمل التعرف الضوئي على الحروف عبر الإنترنت على المستندات التي لم يتم تحويلها بشكل صحيح باستخدام ExtractPDF ، لذلك من الجيد تجربة كلتا الخدمتين لمعرفة أيهما يمنحك مخرجات أفضل. يحتوي OCR عبر الإنترنت(Online OCR) أيضًا على بعض الميزات الرائعة التي يمكن أن تكون مفيدة لأي شخص لديه ملف PDF(PDF file) كبير يحتاج فقط إلى تحويل النص في بضع صفحات بدلاً من المستند بأكمله.

أول شيء تريد القيام به هو المضي قدمًا وإنشاء حساب مجاني. إنه أمر مزعج بعض الشيء ، ولكن إذا لم تقم بإنشاء حساب مجاني ، فسيتم تحويل ملف PDF(PDF) الخاص بك جزئيًا فقط بدلاً من المستند بأكمله. أيضًا ، بدلاً من أن تكون قادرًا على تحميل مستند بحجم 5 ميجا بايت(MB document) فقط ، يمكنك تحميل ما يصل إلى 100 ميجا بايت لكل ملف باستخدام حساب.

OCR عبر الإنترنت

أولاً ، اختر لغة ثم اختر نوع تنسيقات الإخراج التي تريدها للملف المحول. لديك خياران ويمكنك اختيار أكثر من خيار إذا أردت. ضمن مستند Multipage(Multipage document) ، يمكنك تحديد أرقام الصفحات(Page numbers) ثم اختيار الصفحات التي تريد تحويلها فقط. ثم حدد الملف وانقر فوق (file and click) تحويل(Convert) !

مستندات OCR عبر الإنترنت

بعد التحويل ، سيتم نقلك إلى قسم المستندات(Documents) (إذا قمت بتسجيل الدخول) حيث يمكنك معرفة عدد الصفحات المجانية المتوفرة لديك والروابط لتنزيل الملفات المحولة. يبدو أن لديك 25 صفحة فقط مجانًا في اليوم ، لذلك إذا كنت بحاجة إلى أكثر من ذلك ، فسيتعين عليك إما الانتظار قليلاً أو شراء المزيد من الصفحات.

قام OCR عبر الإنترنت(Online OCR) بعمل ممتاز في تحويل ملفات PDF(PDF) الخاصة بي لأنه كان قادرًا على الحفاظ على التخطيط الفعلي للنص. في الاختبار الذي أجريته ، أخذت مستند Word(Word doc) يستخدم الرموز النقطية وأحجام خطوط مختلفة وما إلى ذلك وقمت بتحويله إلى ملف PDF . ثم استخدمت Online OCR لتحويله مرة أخرى إلى تنسيق Word(Word format) وكان حوالي 95٪ مماثلاً للنسخة الأصلية. هذا مثير للإعجاب بالنسبة لي.

بالإضافة إلى ذلك ، إذا كنت تبحث عن تحويل صورة إلى نص ، فيمكن لـ Online OCR القيام بذلك بنفس سهولة استخراج النص من ملفات PDF .

التعرف الضوئي على الحروف على الإنترنت مجانًا

منذ أن تحدثنا عن صورة إلى نص OCR ، اسمحوا لي أن أذكر موقعًا جيدًا آخر يعمل جيدًا على الصور. كان OCR المجاني عبر الإنترنت(Free Online OCR) جيدًا جدًا ودقيقًا جدًا عند استخراج نص من صور الاختبار الخاصة بي. لقد التقطت صورتين من iPhone الخاص بي لصفحات من الكتب والنشرات وما إلى ذلك ، وفوجئت بمدى قدرتها على تحويل النص.

OCR على الإنترنت مجانًا

اختر ملفك ثم انقر فوق الزر تحميل(Upload button) . في الشاشة التالية ، هناك خياران ومعاينة للصورة. يمكنك اقتصاصها إذا كنت لا تريد التعرف الضوئي على الحروف كل شيء. ثم انقر فوق زر OCR(OCR button) وسيظهر النص المحول أسفل معاينة الصورة(image preview) . كما أنه لا يحتوي على أي قيود ، وهو أمر رائع حقًا.

بالإضافة إلى الخدمات عبر الإنترنت ، هناك محوّلان مجانيان لملفات PDF أريد ذكرهما في حال كنت بحاجة إلى برنامج يعمل محليًا على جهاز الكمبيوتر الخاص بك لإجراء التحويلات. مع الخدمات عبر الإنترنت ، ستحتاج دائمًا إلى اتصال بالإنترنت(Internet connection) وقد لا يكون ذلك ممكنًا للجميع. ومع ذلك ، لاحظت أن جودة التحويلات من البرامج المجانية كانت أسوأ بكثير من تلك الخاصة بالمواقع الإلكترونية.

مستخرج نص A-PDF

برنامج A-PDF Text Extractor(A-PDF Text Extractor) هو برنامج مجاني يقوم بعمل جيد إلى حد ما لاستخراج النص من ملفات PDF(PDF file) . بمجرد(Once) تنزيله وتثبيته ، انقر فوق الزر فتح(Open button) لاختيار ملف PDF(PDF file) الخاص بك . ثم انقر فوق استخراج النص(Extract text) لبدء العملية.

مستخرج apdf

سيطلب منك موقعًا لتخزين ملف الإخراج النصي(text output file) ثم يبدأ في الاستخراج. يمكنك أيضًا النقر فوق زر الخيار(Option) ، والذي يتيح لك اختيار صفحات معينة فقط لاستخراجها ونوع الاستخراج(extraction type) . الخيار الثاني مثير للاهتمام لأنه يستخرج النص في تخطيطات مختلفة ويستحق تجربة الثلاثة لمعرفة أي منها يمنحك أفضل إخراج.

PDF2Text Pilot

PDF2Text Pilot  يقوم بعمل جيد لاستخراج النص. ليس لديها أي خيارات. ما عليك سوى إضافة ملفات أو مجلدات وتحويلها وتأمل(convert and hope) في الأفضل. لقد نجحت بشكل جيد في بعض ملفات PDF(PDFs) ، ولكن بالنسبة لغالبية هذه الملفات ، كانت هناك العديد من المشكلات.

pdf2text

ما عليك سوى النقر فوق Add Files ثم النقر فوق Convert . بمجرد اكتمال التحويل ، انقر فوق " تصفح(Browse) " لفتح الملف. ستختلف المسافة المقطوعة باستخدام هذا البرنامج لذا لا تتوقع الكثير.

أيضًا ، من الجدير بالذكر أنه إذا كنت تعمل في بيئة شركة أو يمكنك الحصول على نسخة من Adobe Acrobat من العمل ، فيمكنك حقًا الحصول على نتائج أفضل بكثير. من الواضح أن Acrobat(Acrobat) ليس مجانيًا ، لكن لديه خيارات لتحويل PDF إلى تنسيق Word و Excel و HTML(Excel and HTML format) . كما أنه يقوم بأفضل وظيفة للحفاظ على بنية المستند الأصلي وتحويل النص المعقد.



About the author

أنا فني كمبيوتر عملت مع Android وبرامج المكتب لسنوات عديدة. لقد قمت أيضًا بتعليم الأشخاص كيفية استخدام أجهزة Mac على مدار السنوات الخمس الماضية أو نحو ذلك. إذا كنت تبحث عن شخص يعرف كيفية إصلاح الأشياء على جهاز الكمبيوتر الخاص بك ، فربما يمكنني مساعدتك!



Related posts