ToolMill.io

إزالة الخطين المزدوجين

إزالة الخطوط المزدوجة مع الحفاظ على أول حدوث لكل قيمة. مستعملة لتنظيف قوائم البريد الإلكتروني، ومنتجات الأخشاب، وصادرات الكلمات الرئيسية، ودماغات CSV، وأعمدة بيانية مستنسخة، ومدخلات سريعة قبل أن ترعى تلك القوائم في أماكن أخرى. (تولميل) يعمل بالكامل في جهازك، لذا النص الحساس لا يجب أن يترك جهازك.

النص

جرب

أمثلة

إزالة الخطوط المتكررة
الناتج
apple
banana
apple
orange
banana
الناتج
apple
banana
orange
Ignore case and extra spaces
الناتج
 Alpha
alpha
ALPHA  
Beta
 beta
الناتج
Alpha
Beta

حالات الاستخدام المشترك لإلغاء الخط المزدوج

وخطوط التدوير مفيدة عند تنظيف قوائم البريد الإلكتروني، والاسم المصدّر للمستعملين، ومجموعات الكلمات الرئيسية، والأعمدة المصنوعة من صحيفة البيانات، وشظايا الأخشاب، والنص الخام المسلّم من الدردشة أو الوثائق. إنه يعطيك نقطة بداية أسرع قبل فرز أو مقارنة النسخ أو استيراد البيانات إلى نظام آخر

ما الذي يحسب كخط مزدوج؟

هذه الأداة تقارن خطوط كاملة تماماً كما تظهر بعد انقسامها على خط الاستراحة وإذا كان هناك خطان يختلفان عن الرسملة، أو المباعدة، أو التصويب، أو السلاسل الخفية، فإنهما قد لا يزالان يعتبران قيما مختلفة. هذا يهم عندما تبدو البيانات المرعية مشابهة للعين ولكنها ليست متطابقة حقاً

كيف يتم حفظ نظام الخط

والتوقعات المعتادة على أداة تصفية هو إبقاء الحدث الأول لكل خط فريد وتكرارات لاحقة. وهذا يعني أن الناتج يمكن أن يظل قابلا للقراءة ومألوفا بدلا من اللجوء تلقائيا. إذا كنت تريد أيضاً الترتيب الأبجدي، فمن الأفضل عادة أن يزيل أولاً ويصنف بعد ذلك كخطوة منفصلة.

أمثلة على المدخلات الحقيقية

ومن الأمثلة الواقعية على ذلك قائمة بالأسماء المضيفة أو العلامات أو عناوين البريد الإلكتروني التي تظهر فيها نفس القيمة مرات عديدة في أجزاء مختلفة من القائمة. وهناك أيضاً عمود نشر منسخ بمنتجات أو هويات متكررة. تَحَدُّم تلك الصفوفِ يَجْعلُ المراجعةَ، البحث، وفحص الواردات أسهل بكثير.

Preparing text before Deduplication

إذا كان مصدرك يحتوي على مساحات غير متناسقة أو ممرات، قد ترغب في تطبيعه أولا. إن إزالة الفضاء الأبيض الإضافي أو تحويل القضية قبل إعادة الهيكلة يمكن أن يقلل من الحوادث القريبة من الإدمان التي لا تنجو إلا لأنها تهجأ بطريقة مختلفة قليلا.

Limits and Edge Cases

هذه الصفحة لا تعد تطابقاً غامضاً، أو إصلاحاً للتيبو، أو الدمج الطبيعي. ويمكن أن تظل القيم التي تبدو معادلة لشخص ما منفصلة إذا كانت تحتوي على حالات مختلفة من المباعدة بين المسافات أو التصويب أو الحرف. هذا عادة هو السلوك الصحيح عندما تحتاج إلى تنظيف مصمم على خطوط قابلة للتنبؤ

الخصوصية والتجهيز المحلي

قبل أن تتراجع عن النص

قبل استخدام الناتج في أداة أخرى أو تحميله في مكان آخر، يقرر ما إذا كان الفضاء الأبيض، والرسملة، والنظام الأصلي يحمل معنى في بياناتكم. وإذا فعلوا ذلك، فإن تصاريح دخول سريعة تساعد على الاستعراض، ولكن لا ينبغي أن تحل محل فحص يدوي نهائي.

ما هو المخرج المدّعى لا يضمن

إن إزالة الخطوط المتكررة لا تصادق على التهجئة، أو تدمج بالقرب من الشطرنج، أو تقرر أي البديل هو الصحيح الذي ينبغي الاحتفاظ به. إنّها خطوة للتنظيف، وليس إعادة نظر ساكنة. وإذا كانت خطوط مماثلة تختلف بحرف واحد أو بحيز أبيض إضافي، فإن النتيجة قد تظل بحاجة إلى تفتيش يدوي.

كيف تفسر ما يُعتبر مكرراً

ويتوقف التحلل على قواعد المقارنة الدقيقة المستخدمة على نص المدخلات. ويمكن أن تتغير الاختلافات في أماكن التغليف، أو الأماكن القيادية أو المتتابعة، أو الشرائط المخبأة، أو أسلوب إنهاء الخط، سواء عولجت خطين على نفس المنوال. استعراض النص الأصلي بعناية إذا لم يطابق الناتج توقعاتك.

تَحْدثُ التدويرَ في منظفِكَ لذا قوائمِ مَعْبرةِ يَبْقى على جهازِكَ أثناء التنظيفِ الروتينيِ. وهذا مفيد عندما يتضمن النص صادرات العملاء، أو محددات الهوية الداخلية، أو مشاريع بيانات العمل التي لا ترغب في إرسالها إلى طرف ثالث.

الأدوات ذات الصلة