حذف اسناد تکراری در مقیاس بالا: از تطابق دقیق تا اسنادِ «تقریباً» مشابه
حذف دادههای تکراری یا همون Deduplication تا وقتی که پای دادههای واقعی وسط نیومده، خیلی ساده به نظر میرسه. اگه فقط چند هزار تا متن کوتاه داشته باشید، تقریباً هر روشی جواب میده. اما وقتی صحبت از میلیونها سند طولانی، زبانهای مختلف، دادههای کثیف و نیاز به پیدا کردن اسنادی میشه که «خیلی شبیه هم…
