از اسکریپتهای ساده تا پایپلاینهای پیشرفته: مسیر من به عنوان مهندس داده
سفر من در حوزه مهندسی داده با اسکریپتهای ساده پایتون برای یک آژانس مسافرتی آغاز شد و در حال حاضر مشغول طراحی معماری پروژههای بزرگ دیتایی هستم. در این پست، تجربیاتم در این مسیر رو شرح میدم و میبینیم که چطور پایپلاینهای داده با رشد نیازهای کسبوکار تکامل پیدا میکنند.
برای مطالعه درباره ابزارهای ضروری مهندسی داده، پست قبلی رو بررسی کنید: ابزارهای ضروری برای مهندسی داده
مرحله ۱: شروع ساده – اسکریپتهای پایتون و کرون جابها
زمانی که برای اولین بار روی پایپلاینهای داده کار کردم، نیازها بسیار ساده بودند. وظیفه داشتم یک فرآیند کوچک جمعآوری داده را برای یک آژانس مسافرتی خودکار کنم. برای این کار لازم بود دادههای بلیتهای فروختهشده را از یک API دریافت کرده و در یک پایگاه داده رابطهای برای گزارشگیری و داشبوردهای هوش تجاری ذخیره کنم.
راهحل ساده بود. من یک اسکریپت پایتون نوشتم که:
- دادهها با استفاده از requests پایتون از API دریافت میشد.
- به کمک کتابخانه pandas عملیات پاکسازی و تبدیل روی دادهها انجام میشد.
- دادههای ساختاریافته در پایگاه داده PostgreSQL ذخیره میشدند.
- از کرون جابها برای زمانبندی اجرای اسکریپت هر چند ساعت یکبار استفاده میشد.
در ابتدا، مقیاس مسئله را ارزیابی کردم. به دلیل سادگی و مقیاس کوچک، تصمیم گرفتم از کرون جاب استفاده کنم که یکی از ابزارهای کاربردی لینوکس هست. این ابزار ساده به شما اجازه میده دستورات را در زمانهای مشخص اجرا کنید، بدون توجه به اینکه زبان آن پایتون، Bash یا هر برنامه دیگری باشد. برای این کار، فقط کافی است فایل متنی تنظیمات crontab را ویرایش کنید و تنظیم کنید که چه چیزی در چه زمانی اجرا شود. تصویر زیر نمونهای از یک کرون جاب را نشان میدهد که در اولین روز هر ماه در ساعت ۳ بامداد اجرا میشود، زمانی که بهروزرسانی انبار دادهها حداقل تأثیر را بر تجربه کاربران دارد. این ابزار ساده است، اما میتوانید از سایتهایی مانند crontab.guru برای ایجاد و تفسیر زمانبندیهای خود استفاده کنید.

مرحله ۲: ETL ماژولار + داکر
پایپلاین بعدی که ساختم برای یک کافیشاپ زنجیرهای بود که داشبورد تجاری برای تجمیع دادههای فروش و مشتریان نیاز داشت. این پروژه چالشهایی داشت؛ برای مثال، کارفرما میخواست یک نسخه پشتیبان از دادههای خام رو هم داشته باشه. بنابراین، تصمیم گرفتیم یک فرآیند ELTL (Extract, Load, Transform, Load) بهجای ETL سنتی طراحی کنیم.
در این پروژه، پردازشهای زیادی روی دادههای حجیم انجام میشد، از جمله محاسبه RFM برای هر مشتری (حدود ۸۰۰۰ مشتری) و تحلیل فروش مشترک محصولان -cross sell- (جدولی با ابعاد ۱۰۰۰×۱۰۰۰). ازآنجاکه این پروژه از پروژه قبلی بزرگتر بود، تصمیم گرفتیم هر مرحله (استخراج، تبدیل و بارگذاری) را به عنوان یک پروژه و سرویس جداگانه نگاه کنیم و همه را داکری کنیم. این کار باعث شد که پروژهها قابل نگهداریتر شوند. اگر دادهها بهروزرسانی نمیشدند، میتوانستیم بهراحتی لاگهای داکر را بررسی کنیم و مشکلات را پیدا کنیم. به عنوان مثال در صورت بروز مشکل در مرحله بارگذاری، مراحل استخراج و تبدیل همچنان بدون وقفه ادامه پیدا کنند.
مرحله ۳: استفاده از Apache Airflow و Avro برای پایپلاین مقیاسپذیر
پیچیدهترین پایپلاینی که ساختم، مربوط به یک پروژه داده با مقیاس بالا بود که در آن باید حدود ۱۳ ترابایت داده پردازش میکردیم و هر هفته ۵ گیگابایت به آن اضافه میشد.
چالشهای این پروژه متفاوت بودند. اگرچه هنوز میتوانستم از پروژههای داکریشده برای هر مرحله استخراج، تبدیل و بارگذاری استفاده کنم، اما برخی تفاوتها باعث شد تصمیم بگیرم از Apache Airflow استفاده کنم:
- وابستگیهای پیچیده بین تسکها
- مانیتورینگ و رفع سریعتر خطا
- پروژهای در مقیاس بزرگ که نیاز به تغییرات مداوم داشت (اغلب شامل اضافه کردن قسمتهای جدید)
برای ارکستراسیون فرآیندها از Apache Airflow و برای سریالسازی دادههای بزرگ از Avro استفاده کردم. این کار باعث شد از قابلیتهای بازیابی خودکار و هشدارهای خطا بهرهمند شوم و همچنین یکپارچگی اسکیما را حفظ کنم.
با دادههای حجیم، بهینهسازی اهمیت زیادی پیدا میکند. ما مجبور شدیم تخصیص منابع، کشینگ و اجرای موازی را بهینه کنیم تا زمان پردازش در حد معقول باقی بماند.
نکات کلیدی: آنچه که از پایپلاینهای مقیاسپذیر آموختم
با نگاهی به گذشته، اینها برخی از مهمترین درسهایی هستند که در طول مسیر یاد گرفتم:
- ساده شروع کنید اما برای رشد برنامه داشته باشید – کرون جاب ممکن است برای یک فرآیند کوچک مناسب باشد، اما اگر قصد افزایش مقایس پروژه رو دارید، بهتر است از ابتدا ماژولار طراحی کنید.
- از کانتینرسازی استفاده کنید – داکر، استقرار و مقیاسگذاری را بسیار آسانتر میکند.
- از ابزارهای ارکستراسیون در صورت نیاز استفاده کنید – ابزارهایی مانند Airflow به مدیریت پیچیدگی و تضمین قابلیت اطمینان کمک میکنند ولی شاید برای هر پروژهای مناسب نباشند.
- برای دادههای حجیم بهینهسازی کنید – ابزارهایی مانند Avro، Parquet و Spark میتوانند در پردازش مجموعه دادههای بزرگ تفاوت زیادی ایجاد کنند.
- به مانیتورینگ توجه کنید – لاگها، داشبوردها و سیستمهای هشدار به اجرای بدون نقص پایپلاینهای داده کمک میکنند.
نتیجهگیری
پایپلاینهای داده همراه با رشد کسبوکار تکامل پیدا میکنند. چیزی که بهعنوان یک اسکریپت ساده شروع میشود، میتواند به یک راهکار سازمانی پیچیده با نیاز به ارکستراسیون و مقیاسپذیری تبدیل شود. با ساختاردهی مناسب پایپلاینها و استفاده از ابزارهای مناسب، میتوانید اطمینان حاصل کنید که فرآیندهای دادهای شما بهصورت کارآمد توسعه پیدا میکنند.
اگر شما هم اولین پایپلاین داده خود را ساختهاید یا در حال مقیاسگذاری آن هستید، خوشحال میشوم تجربیات شما را در نظرات بخوانم!