از چالش‌های مهندسی داده: Batch یا Stream?

از چالش‌های مهندسی داده: Batch یا Stream?

یه جایی تو مسیر هر data engineer‌ی هست که هیجان ساختن pipelineها یه‌دفعه با یه سؤال سخت و ساکت روبه‌رو می‌شه: این باید batch باشه یا real-time؟ ظاهراً سؤال فنیه، ولی در واقع یه سؤال فلسفیه. پشتش یه دغدغه‌ی عمیق‌تره:داریم چی رو بهینه می‌کنیم؟ تازگی، سادگی، یا پایداری؟چون نمی‌تونی هر سه رو با هم داشته…

الستیک سرچ – بخش دوم: انواع کوئری‌های کاربردی
|

الستیک سرچ – بخش دوم: انواع کوئری‌های کاربردی

در بخش اول این سری درباره پایه‌های کوئری‌نویسی در Elasticsearch صحبت کردم: مدل ذهنی، چرا mapping بهترین دوست شماست و اینکه چه موقع باید از فیلتر استفاده کرد و چه موقع از match. حالا وقتشه وارد جزئیات بشیم و سراغ انواع کوئری‌های کاربردی بریم که توی پروژه‌های واقعی بیشترین استفاده رو دارند. اگر بخش اول…

انجام پردازش دسته‌ای در apache airflow
|

پردازش دسته‌ای در Apache Airflow – تجربه‌ای در عصر کلان داده

حتما تا حالا اسم پردازش دسته‌ای یا batch processing به گوشتون خورده. تو این پست قرار هست در مورد این موضوع و استفاده از اون در Apache Airflow صحبت کنیم.این روزها با این حجم سرسام‌آور داده که هر لحظه هم بیشتر میشه، یکی از مهم‌ترین مهارت‌ها اینه که بلد باشیم چطور این کوه داده رو به…

انبار داده تمیز شده

چطور یک Data Warehouse شلوغ و به‌هم‌ریخته را مرتب کنیم؟

یکی از مشکلات رایجی که در بسیاری از سازمان‌ها و تیم‌های داده دیده می‌شود، بهم‌ریختگی و عدم انسجام در Data Warehouse است. این مشکل معمولاً به مرور زمان و بر اثر رشد سریع تیم‌ها، تغییر نیازهای تحلیلی، ورود اعضای جدید بدون مستندسازی دقیق، و افزایش پروژه‌های موقتی به‌وجود می‌آید. نتیجه‌اش؟ یک انبار داده با ساختاری…

استراتژی پشتیبان‌گیری برای حفاظت از داده‌ها

از بحران تا پایداری: پشتیبان‌گیری و محافظت از داده‌ها در زمان صلح

چند هفته پیش ، در هیاهوی جنگ و بحران، با شما از اهمیت پشتیبان‌گیری (Backup) گفتم . از pg_dump و mysqldump تا mongoexport و rsync؛ از اینکه چگونه در شرایط بحرانی می‌توان جلوی از دست رفتن اطلاعات رو گرفت حالا که فضا کمی آرام‌تر شده، وقتشه که نگاه دوباره‌ای به این موضوع داشته باشیم ….

مدل سازی دیتا

اصول کلیدی مدل‌سازی داده: نقشه‌ای برای موفقیت در دنیای Big Data

داده‌ها شریان حیاتی سازمان‌ها هستند. اما در مسیر شغلیم، بارها با این واقعیت روبرو شدم که داشتن داده به تنهایی کافی نیست. چیزی که اهمیت داره، نحوه‌ی سازماندهی و استفاده‌ی موثر از این داده‌هاست. اینجاست که هنر و علم مدل‌سازی داده وارد میشه. مدل‌سازی داده نه تنها یک فرآیند فنی، بلکه یک تفکر عمیق برای…

کسب و کار مدرن

چگونه سوالات بهتری در کسب‌وکار بپرسیم؟

در دنیای امروز که داده‌ها به قلب تپنده‌ی تصمیم‌گیری‌های هوشمند تبدیل شده‌اند، یک سوال درست می‌تواند مسیر یک سازمان را متحول کند. اگر شما در جایگاه مدیر یا صاحب کسب‌وکار هستید، احتمالاً هر روز با انبوهی از داده‌ها مواجه‌اید. اما سوال اینجاست: آیا مشکل در کمبود داده‌هاست، یا در پرسیدن سوالات اشتباه؟ تجربه‌ای که داده‌ها…

apache airflow webUI

Apache Airflow: یه ارکستر منظم برای پشت‌صحنه استارتاپ شما!

احتمالا شما هم مثل خیلی از ماها تو این دنیای پر از هیجان استارتاپ، با یه عالمه کار ریز و درشت دست و پنجه نرم می‌کنید. از جمع‌آوری داده‌های مشتری‌ها گرفته تا به‌روزرسانی وب‌سایت و ارسال ایمیل‌های خبرنامه، یه عالمه کار هست که باید سر وقت و درست انجام بشه تا چرخ استارتاپتون خوب بچرخه….

data pipeline

ساخت دیتا پایپ‌لاین مقیاس‌پذیر

از اسکریپت‌های پایتون و cron job گرفته تا سرویس‌های داکری ETL و Apache Airflow – گزارشی از مسیر من در ساخت دیتا پایپ لاین‌های مقیاس‌پذیر برای پروژه‌های تجاری. مناسب برای استفاده مهندسان داده

ابزارهای مهندسی داده
|

مهارت‌هایی که هر مهندس داده باید بلد باشه

چه تازه وارد دنیای مهندسی داده شده باشید چه از افراد با تجربه این حوزه باشید، می‌دانید که قضیه فقط جابه‌جایی داده از نقطه «الف» به «ب» نیست. بلکه طراحی سیستم‌های کارآمد، بهینه‌سازی عملکرد و اطمینان از دسترسی داده‌ها برای کسانی است که به آن‌ها نیاز دارند. با تبدیل شدن داده‌ها به بخش اصلی تصمیم‌گیری…