الستیک سرچ – بخش اول: کوئری‌ها و فیلترها
|

الستیک سرچ – بخش اول: کوئری‌ها و فیلترها

وقتی برای اولین بار با الستیک‌سرچ (Elasticsearch) آشنا شدم، با خودم گفتم: «خب، اینم یه پایگاه داده‌ی دیگه… درسته؟» اما اشتباه می‌کردم. الستیک‌سرچ واقعاً فرق داره. یه جورایی حس ترکیبی از یک موتور جست‌وجو و یه پایگاه داده رو میده. راستش رو بخواین خودمم هنوز خیلی باهاش راحت نیستم 🙂 اما تو این پست که…

کتابخونه‌های موردعلاقه‌ من برای بررسی سریع داده

کتابخونه‌های موردعلاقه‌ من برای بررسی سریع داده

راستشو بخواین، وقتی یه دیتاست تازه میاد جلوی چشمم، دنبال تشریفات و کارای اضافه نیستم. دنبال وضوحم. اون یک ساعت اول، خیلی مهم‌تر از چیزیه که اکثر آدما فکر می‌کنن. باید خیلی سریع بفهمم زمین بازی چه شکلیه—کجا کثیف و به‌هم‌ریخته‌ست، کجا چیزای جالب داره، و اصلاً ارزش کندوکاو بیشتر داره یا نه. یه بار…

انجام پردازش دسته‌ای در apache airflow
|

پردازش دسته‌ای در Apache Airflow – تجربه‌ای در عصر کلان داده

حتما تا حالا اسم پردازش دسته‌ای یا batch processing به گوشتون خورده. تو این پست قرار هست در مورد این موضوع و استفاده از اون در Apache Airflow صحبت کنیم.این روزها با این حجم سرسام‌آور داده که هر لحظه هم بیشتر میشه، یکی از مهم‌ترین مهارت‌ها اینه که بلد باشیم چطور این کوه داده رو به…

چقدر حافظه GPU نیاز داریم؟

چقدر حافظه GPU نیاز داریم؟

هنگامی که با دنیای وسیع مدل‌های یادگیری ماشین، به‌ویژه مدل‌های زبانی بزرگ (LLM) مانند LLaMA، سروکار دارید، یکی از پرسش‌های اساسی که همواره مطرح می‌شود این است: چه مقدار حافظه گرافیکی (VRAM) برای کار من لازم است؟ درک دقیق این نیاز، نه تنها به شما در انتخاب سخت‌افزار مناسب کمک می‌کند، بلکه در بهینه‌سازی مدل،…

انبار داده تمیز شده

چطور یک Data Warehouse شلوغ و به‌هم‌ریخته را مرتب کنیم؟

یکی از مشکلات رایجی که در بسیاری از سازمان‌ها و تیم‌های داده دیده می‌شود، بهم‌ریختگی و عدم انسجام در Data Warehouse است. این مشکل معمولاً به مرور زمان و بر اثر رشد سریع تیم‌ها، تغییر نیازهای تحلیلی، ورود اعضای جدید بدون مستندسازی دقیق، و افزایش پروژه‌های موقتی به‌وجود می‌آید. نتیجه‌اش؟ یک انبار داده با ساختاری…

استراتژی پشتیبان‌گیری برای حفاظت از داده‌ها

از بحران تا پایداری: پشتیبان‌گیری و محافظت از داده‌ها در زمان صلح

چند هفته پیش ، در هیاهوی جنگ و بحران، با شما از اهمیت پشتیبان‌گیری (Backup) گفتم . از pg_dump و mysqldump تا mongoexport و rsync؛ از اینکه چگونه در شرایط بحرانی می‌توان جلوی از دست رفتن اطلاعات رو گرفت حالا که فضا کمی آرام‌تر شده، وقتشه که نگاه دوباره‌ای به این موضوع داشته باشیم ….

مهندسی داده در زمان جنگ

راهنمای پشتیبان‌گیری

واقعیتش این روزها که صدای انفجارهای پی‌در‌پی از گوشه گوشه کشور شنیده می‌شه، حال خوشی ندارم و کمتر از هر زمان دیگه‌ای دست و دلم به نوشتن پست جدید میره. ولی با توجه به شرایط بدی که پیش اومده و لزوم تهییه نسخه‌های پشتیبان از دیتای موجود روی سرورها و حتی نگهداریشون به صورت لوکال…

مدل سازی دیتا

اصول کلیدی مدل‌سازی داده: نقشه‌ای برای موفقیت در دنیای Big Data

داده‌ها شریان حیاتی سازمان‌ها هستند. اما در مسیر شغلیم، بارها با این واقعیت روبرو شدم که داشتن داده به تنهایی کافی نیست. چیزی که اهمیت داره، نحوه‌ی سازماندهی و استفاده‌ی موثر از این داده‌هاست. اینجاست که هنر و علم مدل‌سازی داده وارد میشه. مدل‌سازی داده نه تنها یک فرآیند فنی، بلکه یک تفکر عمیق برای…

در حاشیه‌ی حاشیه نمایشگاه کتاب

در حاشیه‌ی حاشیه نمایشگاه کتاب

چند روز پیش در نمایشگاه بین‌المللی کتاب تهران، اتفاقی افتاد که من رو به فکر فرو برد. قصد نداشتم این افکار نسبتا پریشان رو منتشر کنم ولی انتشار عکسی از من «در حاشیه»، در حالی که اصلا متوجه ثبت این لحظه نبودم خاطره اون روز رو زنده کرد. همین شوق نوشتن و اشتراک گذاری افکارم…

کسب و کار مدرن

چگونه سوالات بهتری در کسب‌وکار بپرسیم؟

در دنیای امروز که داده‌ها به قلب تپنده‌ی تصمیم‌گیری‌های هوشمند تبدیل شده‌اند، یک سوال درست می‌تواند مسیر یک سازمان را متحول کند. اگر شما در جایگاه مدیر یا صاحب کسب‌وکار هستید، احتمالاً هر روز با انبوهی از داده‌ها مواجه‌اید. اما سوال اینجاست: آیا مشکل در کمبود داده‌هاست، یا در پرسیدن سوالات اشتباه؟ تجربه‌ای که داده‌ها…