ToolMill.io

डुप्लिकेट लाइन निकालें

प्रत्येक मूल्य की पहली घटना रखते हुए डुप्लिकेट लाइनों को हटा दें। ईमेल सूचियों, लॉग आउटपुट, कीवर्ड निर्यात, CSV स्निपेट्स, कॉपी किए गए स्प्रेडशीट कॉलम की सफाई के लिए उपयोगी है, और इससे पहले कि आप उन्हें कहीं और पेस्ट करें। टूलमिल पूरी तरह से आपके ब्राउज़र में चलता है, इसलिए संवेदनशील टेक्स्ट को कभी भी अपने डिवाइस को छोड़ने की जरूरत नहीं है।

पाठ

इसे आज़माएं

उदाहरण

बार-बार लाइनों को हटा दें
इनपुट
apple
banana
apple
orange
banana
उत्पादन
apple
banana
orange
इग्नोर केस और अतिरिक्त स्थान
इनपुट
 Alpha
alpha
ALPHA  
Beta
 beta
उत्पादन
Alpha
Beta

डुप्लिकेट लाइन्स को हटाने के लिए आम उपयोग के मामले

Deduping लाइनों जब ईमेल सूची, निर्यात उपयोगकर्ता नाम, कीवर्ड सेट, कॉपी स्प्रेडशीट कॉलम, लॉग टुकड़े, और मोटे पाठ चैट या दस्तावेजों से चिपकाया सफाई उपयोगी है। यह आपको किसी अन्य सिस्टम में सॉर्ट करने, संस्करणों की तुलना करने या डेटा आयात करने से पहले एक त्वरित प्रारंभिक बिंदु देता है।

एक डुप्लिकेट लाइन के रूप में क्या मायने रखता है?

यह उपकरण पूरी लाइनों की तुलना करता है क्योंकि वे लाइन ब्रेक पर विभाजन के बाद दिखाई देते हैं। यदि दो लाइनें पूंजीकरण, रिक्ति, punctuation, या छिपे हुए टैब से भिन्न होती हैं, तो वे अभी भी अलग-अलग मानों की गिनती कर सकते हैं। जब पेस्ट डेटा आंख के समान दिखता है तो यह वास्तव में समान नहीं है।

कैसे लाइन ऑर्डर संरक्षित है

एक उपकरण पर सामान्य उम्मीद है कि प्रत्येक अद्वितीय लाइन की पहली घटना को बनाए रखना और बाद में दोहराना। इसका मतलब है कि आउटपुट स्वचालित रूप से सहारा लेने के बजाय पठनीय और परिचित रह सकता है। यदि आप वर्णमाला क्रम भी चाहते हैं, तो यह आमतौर पर एक अलग कदम के रूप में पहले डिडुप और बाद में क्रमबद्ध करने के लिए बेहतर होता है।

इससे पहले और बाद में रियल इनपुट के लिए उदाहरण

एक यथार्थवादी उदाहरण मेजबान नाम, टैग या ईमेल पते की एक पेस्ट सूची है जहां सूची के विभिन्न हिस्सों में समान मूल्य कई बार दिखाई देता है। एक अन्य दोहराया उत्पादों या आईडी के साथ एक कॉपी स्प्रेडशीट कॉलम है। उन पंक्तियों को देखते हुए समीक्षा, खोज और आयात की जांच बहुत आसान हो जाती है।

Deduplication से पहले पाठ तैयार करना

यदि आपके स्रोत में असंगत आवरण या ट्रेलिंग स्पेस हैं, तो आप इसे पहले सामान्य बनाना चाहते हैं। अतिरिक्त व्हाइटस्पेस को हटाने या डिडपिंग से पहले मामले को परिवर्तित करने से आकस्मिक निकट-डुप्लिकेट को कम किया जा सकता है जो केवल तभी जीवित रह सकता है क्योंकि उन्हें थोड़ा अलग तरीके से वर्तनी होती है।

सीमाएँ और एज मामले

यह पृष्ठ फजी मिलान, टाइपो मरम्मत, या सेमनेटिक विलय का वादा नहीं करता है। मान जो किसी व्यक्ति के बराबर दिखते हैं, अलग रह सकते हैं यदि वे अलग-अलग रिक्ति, punctuation, या पत्र मामले होते हैं। यह आमतौर पर सही व्यवहार है जब आपको पूर्वानुमान योग्य, लाइन-आधारित सफाई की आवश्यकता होती है।

गोपनीयता और स्थानीय प्रसंस्करण

इससे पहले कि आप Rely on Deduped Text

किसी अन्य उपकरण में आउटपुट का उपयोग करने से पहले या इसे अन्य जगहों पर अपलोड करने से पहले निर्णय लें कि क्या व्हाइटस्पेस, पूंजीकरण और मूल ऑर्डर आपके डेटा में अर्थ ले रहा है। यदि वे करते हैं, तो समीक्षा के लिए एक त्वरित डीड्यूप पास सहायक है लेकिन अंतिम मैनुअल चेक को प्रतिस्थापित नहीं करना चाहिए।

क्या Deduped आउटपुट की गारंटी नहीं है

बार-बार लाइनों को हटाने से वर्तनी को मान्य नहीं किया जाता है, निकट-मार्चों को मर्ज किया जाता है, या यह तय किया जाता है कि किस संस्करण को रखने का अधिकार है। यह एक साफ-सफाई कदम है, एक अर्थपूर्ण समीक्षा नहीं है। यदि समान रेखाएं एक चरित्र या अतिरिक्त व्हाइटस्पेस से भिन्न होती हैं, तो परिणाम को अभी भी मैनुअल निरीक्षण की आवश्यकता हो सकती है।

कैसे व्याख्या करने के लिए क्या एक Duplicate के रूप में गिनती

Deduplication इनपुट टेक्स्ट पर उपयोग किए जाने वाले सटीक तुलना नियमों पर निर्भर करता है। आवरण, अग्रणी या ट्रेलिंग स्पेस, छिपे हुए टैब या लाइन-एंड शैली में अंतर बदल सकता है कि क्या दो लाइनों को उसी के रूप में इलाज किया जाता है। यदि उत्पादन आपकी उम्मीद से मेल नहीं खाता है तो मूल पाठ को ध्यान से समीक्षा करें।

डिडुप्लिकेशन आपके ब्राउज़र में होता है इसलिए पेस्ट की सूची नियमित सफाई के दौरान आपके डिवाइस पर रहती है। यह तब उपयोगी होता है जब पाठ में ग्राहक निर्यात, आंतरिक पहचानकर्ता या मसौदा कार्य डेटा होता है जिसे आप तृतीय-पक्ष सेवा में नहीं भेजना चाहते हैं।

संबंधित उपकरण