بایگانی‌های data engineering

حذف اسناد تکراری در مقیاس بالا: از تطابق دقیق تا اسنادِ «تقریباً» مشابه

توسطShayan Sadeghi 2025-12-202025-12-20

حذف داده‌های تکراری یا همون Deduplication تا وقتی که پای داده‌های واقعی وسط نیومده، خیلی ساده به نظر می‌رسه. اگه فقط چند هزار تا متن کوتاه داشته باشید، تقریباً هر روشی جواب میده. اما وقتی صحبت از میلیون‌ها سند طولانی، زبان‌های مختلف، داده‌های کثیف و نیاز به پیدا کردن اسنادی میشه که «خیلی شبیه هم…

مهندسی داده

ساخت دیتا پایپ‌لاین مقیاس‌پذیر

توسطShayan Sadeghi 2025-03-222025-03-22

از اسکریپت‌های پایتون و cron job گرفته تا سرویس‌های داکری ETL و Apache Airflow – گزارشی از مسیر من در ساخت دیتا پایپ لاین‌های مقیاس‌پذیر برای پروژه‌های تجاری. مناسب برای استفاده مهندسان داده