ToolMill.io

HTML to Plain Text Converter

Convert HTML to plain text when cleaning email templates, scraped snippets, CMS exports, support content, or copied web pages. إنه يساعدك على إزالة العلامة بسرعة بينما تحافظ على النص القابل للقراءة للملاحظات أو الوثائق أو العجلات أو تجهيزات المجرى ToolMill does the conversion in-browser, which is useful when the source HTML contains private or client-sensitive content.

النص

جرب

أمثلة

نظام HTML الأساسي للنص
الناتج
<h1>Hello</h1><p>World</p>
الناتج
Hello
World
صيغت HTML إلى النص العادي
الناتج
<div><strong>Bold</strong> and <em>italic</em></div>
الناتج
Bold and italic

How HTML to Plain Text Conversion Works

وتتجاوز هذه الأداة نظام HTML، وتستخرج محتوى النص القابل للقراءة، وتزيل العلامة، وتعيد نسخة بسيطة من النص. ومن المفيد عندما تحتاج إلى الكلمات من قنبل دون حمل البطاقات، أو الأساليب الداخلية، أو علامة العرض في الملاحظات، أو العجلات، أو النظم الأخرى.

ما يزيل وما يبقى

ويجري تجريد الخنازير والخصائص والتعليمات الشكلية، بينما يظل النص قابلا للقراءة. الهدف ليس الحفاظ على التصميم بالضبط وبدلاً من ذلك، يحتفظ النص نفسه ويسقط هيكل HTML الذي يتحكم أساساً في العرض في مصفف أو وكيل بريد إلكتروني.

عند استخدام جهاز حاسب آلي للنص

وتشمل حالات الاستخدام النموذجي تنظيف نماذج البريد الإلكتروني المنسخة، واستخلاص صيغة من محتوى نظام الرصد المركزي، وإزالة العلامات من الدمى المكشطة، وإعداد محتوى على شبكة الإنترنت للملاحظات ذات المحتوى البسيط أو فهرسة البحث. كما أنها طريقة سريعة لمعرفة ما تبقى إذا أزيلت طبقة التكوين تماما.

مثال: الروابط والعناوين والفقرات

ويصبح العنوان أو العبارة المرتبطة به عادة نصاً عادياً قابلاً للقراءة بدلاً من أن يكون حجراً نمطياً مع سمات قابلة للنقر. وهذا يجعل النتيجة أسهل بالنسبة للرعاة في الوجهات النصية فقط، ولكنها تعني أيضا التسلسل الهرمي البصري وربط البيانات الوصفية لم تعد تنجو بنفس الشكل.

Example: Lists, Line Breaks, and Extra Spacing

وقد تسقط البنود المدرجة في القائمة وكسر الخط أكثر من تحويل محرر يدويا. هذا أمر طبيعي لاستخراج السهول ذات الوزن الخفيف إذا كان المباعدة بين المسافات، استخدم الناتج كنقطة انطلاق ثم رتب النص يدويا للمقصد الذي تهتم به.

حالات الدمج المشتركة في تنظيف HTML

ويمكن أن تؤثر جميع الكيانات التي تعمل بنظام HTML، والمساحات غير المحطمة، والعلامات العنيفة، والتعليقات، والعلامات المضللة المضللة، على النتيجة النهائية للمنحرفين. وعندما يكون المصدر فوضوياً، يكون التوقع الأكثر أماناً هو الاستخراج القابل للقراءة بدلاً من الاستجمام الكامل للهيكل البصري الأصلي.

حدود النص الفاصل

وهذه ليست أداة تصديرية مصممة على الشكل. ويمكن تخفيض أو تضييع الجداول، والتصميم الدقيق، ومعنى خدمات الدعم المركزية، وبعض هيكل الوثائق. بالنسبة للعديد من مهام التنظيف المقبولة، ولكن من الجدير معرفة ذلك قبل أن تعتمد على ناتج النشر أو المحفوظات.

Specialvacy Notes for Sensitive HTML Content

قبل أن تعتمد على النص المستخرج للنشر أو التحليل

وقبل إعادة استخدام الناتج في نظام آخر، التحقق مما إذا كانت العناوين والوصلات والجداول والمحتوى الخفي أو المتكرر قد عولجت بالطريقة التي يتوقعها تدفق العمل. والتحول المحلي السريع مفيد للتنظيف والتفتيش، ولكن مهام النشر والتحليل الهامة لا تزال تستفيد من استعراض يدوي نهائي.

ما هو HTML-to-Text

HTML contains structure that plain text cannot preserve exactly. وقد تُسجَّل أو تُبسَّط في الناتج القوائم والجداول والعناصر المستنيرة والطباعة وبعض التميزات الرملية. والنتيجة مفيدة للاستعراض وإعادة الاستخدام، ولكن لا ينبغي معاملتها كبديل مثالي للعلامة الأصلية في كل تدفق للعمل.

How to Interpret Text Extracted from HTML

والنص المستخرج هو تقريب يمكن قراءته للمحتوى الممثّل في المصدر HTML، وليس مرآة مثالية لكيفية قيام المصفّر بصرياً بجعل كل عنصر. ويمكن أن تُبسَّط فترات انقطاع الخط، والتباعد، والمحتوى الخفي، ومناولة الرابط، والصناعات الهيكلية أثناء التحويل، بحيث تُقرأ النتيجة على أنها نص نظيف بدلاً من أن تكون ناتجاً مخلصاً.

إذا كنت تنظف رسائل العملاء أو النماذج الداخلية أو أجهزة الصراف الآلي المنسخة، إبقاء التحويل داخل المصفوف أكثر راحة في كثير من الأحيان هذه الصفحة مصممة لتدفق العمل المحلي السريع

الأدوات ذات الصلة