حذف اسناد تکراری

حذف اسناد تکراری در مقیاس بالا: از تطابق دقیق تا اسنادِ «تقریباً» مشابه

حذف داده‌های تکراری یا همون Deduplication تا وقتی که پای داده‌های واقعی وسط نیومده، خیلی ساده به نظر می‌رسه. اگه فقط چند هزار تا متن کوتاه داشته باشید، تقریباً هر روشی جواب میده. اما وقتی صحبت از میلیون‌ها سند طولانی، زبان‌های مختلف، داده‌های کثیف و نیاز به پیدا کردن اسنادی میشه که «خیلی شبیه هم…

data pipeline

ساخت دیتا پایپ‌لاین مقیاس‌پذیر

از اسکریپت‌های پایتون و cron job گرفته تا سرویس‌های داکری ETL و Apache Airflow – گزارشی از مسیر من در ساخت دیتا پایپ لاین‌های مقیاس‌پذیر برای پروژه‌های تجاری. مناسب برای استفاده مهندسان داده