در قالب سند متن‌های آبی باید حذف و جایگزین شوند. 

مشخصات سند

  • عنوان  سند: (عنوان سرویس/سیستم مورد توافق)
  • نسخه سند: ( مثلاً 1.0)تاریخ آخرین بازبینی: ( تاریخ)
  • ارائه‌دهنده خدمت: ( نام شرکت/واحد ارائه‌دهنده) نماینده/نقطه تماس: ( نام و سمت، اطلاعات تماس)
  • خدمت گیرنده: (نام سازمان مشتری) نماینده/نقطه تماس: ( نام و سمت، اطلاعات تماس)
  • تاریخ شروع اعتبار: ( تاریخ موثر اجرای SLA)تاریخ پایان: ( تاریخ پایان در صورت قرارداد مدت‌دار) - دوره‌های بازنگری: ( مثلاً هر 6 ماه)
  • مشخصات قرارداد: (شماره و تاریخ قرارداد)

تاریخچه تغییرات

تاریخچه تغییرات سند «توافق‌نامه سطح خدمت» در جدول زیر قابل مشاهده است. این سند در فواصل زمانی مشخص مورد بازبینی قرار می‌گیرد.

نسخهتاریخویرایش‌کنندهتوضیح تغییرتایید کنندگان















تاریخ تعیین‌شده برای بازبینی بعدی: (تاریخ بعدی)

مقدمه

این سند، یک توافق‌نامه سطح سرویس بین [سرویس‌دهنده] و [سرویس‌گیرنده] به منظور توافق دوطرفه بر روی سطح خدمات مورد نیاز جهت پشتیبانی، نگه‌داری و پایداری سرویس [نام سرویس] است.

واژه‌نامه

اصطلاحات فنی یا اختصارات مورد استفاده در سراسر سند  در جدول واژه‌نامه تعریف می‌شود.

واژهتوضیح
واژگانی مانند SLA، SLO، OLA، MTTR و ...


توصیف سرویس

در این بخش، به صورت خلاصه سرویس مورد نظر توصیف می‌شود و به طور کلی به کارکردها، مخاطبان، اهداف و خروجی‌های سرویس اشاره می‌گردد. 

تعاریف پایه

طبقه‌بندی کارکردهای سیستم

در این بخش، کارکردهای سیستم برای کنشگران مختلف از جهت اهمیت در سرویس‌دهی طبقه‌بندی می‌شوند. این طبقه‌بندی مبنای تعیین سطح حساسیت سرویس و تعیین جرائم خواهد بود.

به عنوان مثال در یک سامانه «فروشگاه آنلاین» می‌توانیم کارکردهای سیستم را از جهت اهمیت در سرویس‌دهی به شکل زیر طبقه‌بندی کنیم.

عنوان طبقه‌بندی کارکرد سیستمتوضیح
اولویت یک
  1. کارکردهای مرتبط با ثبت‌نام و ورود مشتریان
  2. کارکردهای مرتبط با فرایند خرید همچون مرور و جستجوی کالا،‌ مدیریت سبد خرید، پرداخت توسط مشتریان
  3. کارکردهای مرتبط با فرایند تایید و تحویل کالا توسط کارشناسان فروش
اولویت دو
  1. کارکردهای مرتبط با ویرایش پروفایل توسط مشتریان
  2. کارکردهای مرتبط با مدیریت موجودی کالا توسط کارشناسان
  3. مقایسه ویژگی‌های دو یا چند کالا توسط مشتریان
اولویت سه
  1. ثبت‌نام و مدیریت دسترسی کاربران سازمانی توسط راهبر
  2. مدیریت اطلاعات پایه توسط راهبر
اولویت چهار
  1. گزارشات مدیریتی و تحلیلی توسط مدیران و تیم تحلیل

بازه‌های زمانی

در این بخش، روزها و ساعت‌های روز در چند بازه زمانی تعریف می‌شوند. روزهای خاصی از سال (مثل ایام نوروز) یا روزهای خاصی از هفته به دلیل حساسیت متفاوت در دسته جداگانه‌ای قرار می‌گیرند. به همین ترتیب، ساعت‌های مختلف ایام مختلف سال از جهت حساسیت قابل تفکیک هستند. در جدول زیر بازه‌های زمانی تعریف شده تا در بخش‌های دیگر مورد ارجاع قرار گیرند. در جدول زیر، تایم‌زون ایران و تقویم هجری شمسی ملاک است.

به عنوان مثال، در یک سامانه «فروشگاه آنلاین» می‌توانیم زمان‌های فعالیت سیستم را از جهت اهمیت در سرویس‌دهی به شکل زیر طبقه‌بندی کنیم. 

عنوان پنجره زمانیتوضیح
روز
از ساعت ۲۴ یک روز تا ساعت ۲۴ روز بعد
هفته
از ساعت ۰۰:۰۰ روز شنبه تا قبل از ساعت ۰۰:۰۰ شنبه بعد
ماه
از ساعت ۰۰:۰۰۰ روز اول ماه تا قبل از ساعت ۰۰:۰۰ روز اول ماه بعد
همه زمان‌هاکل ساعات همه روزهای سال
ساعت‌های اداریساعت ۸ تا ۱۶ روزهای شنبه تا چهارشنبه
زمان اصلی فروشساعت ۸ تا ۲۳ همه روزهای سال
ساعت‌های پیکساعت ۱۶ تا ۲۲ همه روزهای سال
ساعت ۸ تا ۲۴ نیمه اسفند ماه تا تحویل سال جدید
ساعت‌های کم‌باری
ساعت ۱ تا ۵ هر روز

طبقه‌بندی ایرادات

به دلیل وجود انواع ایرادات در عملکرد سیستم یا از جمله قطع شدن سرویس، خراب شدن اجزای سیستم، وجود حفره‌های امنیتی یا باگهای نرم‌افزاری یا کندی و امثال آن‌ها، کارهایی به سرویس‌دهنده ارجاع داده می‌شود. کارهای ارجاعی از جهت اهمیت در چند دسته طبقه‌بندی می‌شوند.

سطح ایرادتوضیح
حیاتیباید بلافاصله و خارج از برنامه انجام شوند.
فوریباید با قید فوریت در برنامه قرار گیرند.
متوسطانجام آن‌ها لازم است ولی فوریت ندارد.
کم‌اهمیت امکان به تعویق انداختن آن‌ها و حتی انجام ندادن آن‌ها وجود دارد.

طبقه‌بندی باگ‌های نرم‌افزاری

وجود باگ به این معنی است که رفتار سیستم با حالت مطلوب آن (specification) تطابق ندارد. در این بخش، باگ‌های سامانه از جهت میزان تاثیرگذاری بر کارکرد طبقه‌بندی می‌گردد.

در جدول زیر نمونه‌ای از این طبقه‌بندی قابل رویت است.

عنوان طبقه‌بندی باگتوضیحطبقه‌بندی ایراد مربوطه
متوقف‌کننده

یک یا چند کارکرد سیستم به طور کامل خراب شده و راه جایگزینی برای انجام آن‌ها وجود ندارد.

چنانچه میانگین زمان پاسخگویی به یک سرویس بیش از ۶۰ ثانیه باشد، باگی در این سطح محسوب می‌شود.

باگ‌های این دسته اگر مربوط به «کارکردهای اولویت یک» باشند ایرادی «حیاتی» و در غیر این صورت «مهم» محسوب می‌شوند.

کند کننده

استفاده از یک یا چند کارکرد سیستم را مختل می‌کند ولی راه‌های دیگری برای استفاده از آن کارکردها وجود دارد.

مثلا امکان ایجاد کاربران جدید با فرم خراب شده ولی امکان ایمپورت اطلاعات کاربران از فایل اکسل کار می‌کند.

چنانچه میانگین زمان پاسخگویی به یک سرویس بین ۳۰ تا ۶۰ ثانیه باشد، باگی در این سطح محسوب می‌شود.

باگ‌های این دسته اگر مربوط به «کارکردهای اولویت یک» باشند ایرادی «مهم» و در غیر اینصورت «متوسط» محسوب می‌شوند.

ناراحت‌کننده

راحتی استفاده از سیستم را تحت تاثیر قرار می‌دهد.

مثلا یک کلید کوتاه (short key) از کار افتاده است ولی با ماوس می‌توان روی دکمه کلیک کرد. یا موقع تایپ کردن بخشی از یک کلمه ادامه آن پیشنهاد داده نمی‌شود.

چنانچه میانگین زمان پاسخگویی به یک سرویس بین ۵ تا ۳۰ ثانیه باشد، باگی در این سطح محسوب می‌شود.

باگ‌های این دسته اگر مربوط به «کارکردهای اولویت یک» باشند ایرادی «متوسط» و در غیر این صورت «کم‌اهمیت» محسوب می‌شوند.

طبقه‌بندی آسیب‌های امنیتی

به طرق مختلف ممکن است آسیب‌پذیری‌هایی از جهت امنیت در سیستم کشف شود. درجه اهمیت و ضریب اثر این آسیب‌پذیری‌ها متفاوت است. در جدول زیر، آسیب‌پذیری‌های امنیتی طبقه‌بندی شده‌اند. این طبقه‌بندی طبق (استاندارد X) صورت گرفته است.

در جدول زیر نمونه‌ای از این طبقه‌بندی قابل رویت است. 

اهمیت آسیب‌پذیریطبقه‌بندی ایراد مربوطه
خیلی بالا
آسیب‌پذیری‌های این رده «حیاتی» محسوب می‌شوند.
بالاآسیب‌پذیری‌های این رده «مهم» محسوب می‌شوند.
متوسطآسیب‌پذیری‌های این رده «متوسط» محسوب می‌شوند.
پایینآسیب‌پذیری‌های این رده «کم‌اهمیت» محسوب می‌شوند.

طبقه‌بندی خرابی‌ها

سیستم باید دائما در دسترس کاربران و کنشگران مختلف باشد. در عین حال ممکن است خرابی‌هایی در اجزای سخت‌افزاری یا اجزای نرم‌افزاری موجب مختل شدن سرویس‌دهی به صورت کلی یا جزئی شده یا احتمال بروز اختلال را افزایش دهند. در جدول زیر این خرابی‌ها طبقه‌بندی شده‌اند.

در جدول زیر نمونه‌ای از این طبقه‌بندی قابل رویت است. 

عنوان اختلال دسترس‌پذیریتوضیحطبقه‌بندی ایراد مربوطه
توقف سرویس اصلیسرویس‌دهی به طور کلی یا جزيی قطع می‌شود و کاربران امکان استفاده از آن را ندارند.خرابی‌های این رده، اگر مربوط به «کارکردهای اولویت یک و دو» باشند، ایرادی «حیاتی» و در غیر این صورت «مهم» محسوب می‌شوند.
خرابی افزونگی‌هاسرویس‌دهی ادامه دارد ولی به دلیل خرابی افزونگی‌ها (مثلا یک نود از یک کلاستر سه نودی)، احتمال اختلال در سرویس‌دهی بالا رفته است.خرابی‌های این رده، ایرادی «مهم» محسوب می‌شوند.
خرابی سرویس‌های پشتیبانخرابی در اجزای اصلی که در سرویس‌دهی به کاربران نقش مستقیم دارند اتفاق نیفتاده است بلکه در اجزایی مانند سرویس مانیتورینگ یا امکانات مدیریتی سرورها رخ داده است.خرابی‌های این رده، ایرادی «مهم» محسوب می‌شوند.

واحد جریمه

در صورت نقض تعهد توسط سرویس‌دهنده جرایمی به وی تعلق می‌گیرد. این جریمه بسته به میزان نقض تعهد و تبعات آن متفاوت خواهد بود. جریمه در بخش‌های مختلف به صورت ضریبی از «واحد جریمه» بیان می‌گردد. یک «واحد جریمه» برابر هزینه پشتیبانی یک روز (کل هزینه پشتیبانی تقسیم بر تعداد روز دوره پشتیبانی) ضرب در یک است. 

سطح سرویس مطلوب

شاخص‌های سنجش کیفیت سرویس

کیفیت سرویس بر اساس شاخص‌های زیر (Service Level Indicator) سنجیده می‌شود.

شاخصتوضیححد آستانهتناوب اندازه‌گیریجریمه
صدک ۹۹ «زمان پاسخگویی» به درخواستها ۹۹ درصد از درخواست‌ها در زمانی کمتر از مقدار این شاخص پاسخ داده شده‌اند. (percentile 99 یا p99) 

 کمتر از ۲ ثانیه

یک روز

به ازای هر ثانیه بیشتر، یک واحد جریمه تعلق می‌گیرد.

«نرخ پاسخ صحیح» به درخواستهانسبت درخواست‌هایی که کد وضعیت پاسخ به آن‌ها از سری ۵۰۰ یا تایم‌اوت نیست به کل درخواست‌ها 

 ۹۹.۵ درصد

یک روز

به ازای هر ۵ درصد انحراف از هدف در هر روز یک واحد جریمه تعلق می‌گیرد. 

زمان رفع ایرادات حیاتی
 کمتر از ۲ روزهر موردبه ازای هر روز کاری تاخیر در انجام هر ایراد پنج واحد جریمه تعلق می‌گیرد. 
زمان رفع ایرادات فوری
 کمتر از ۵ روزهر موردبه ازای هر روز کاری تاخیر در انجام هر ایراد سه واحد جریمه تعلق می‌گیرد. 
زمان رفع ایرادات متوسطزمان رفع ایرادات متوسط با توافق کارفرما مشخص می‌شود. زمان اعلام شده توسط مجری نباید بیش از ۲۰ روز کاری باشد. مگر با رضایت کارفرما زمان مورد توافق با کارفرماهر موردبه ازای هر روز کاری تاخیر در انجام هر ایراد یک واحد جریمه تعلق می‌گیرد. 
زمان رفع ایرادات کم‌اهمیتزمان رفع ایرادات متوسط با توافق کارفرما مشخص می‌شود. زمان اعلام شده توسط مجری نباید بیش از ۳۰ روز کاری باشد. مگر با رضایت کارفرما زمان مورد توافق با کارفرماهر موردبه ازای هر روز کاری تاخیر در انجام هر ایراد یک واحد جریمه تعلق می‌گیرد. 

نحوه اندازی‌گیری شاخص‌ها

شاخصها‌ی سنجش کیفیت سرویس (SLI) با ابزارها و روشهای مندرج در جدول زیر اندازه‌گیری می‌شوند. 

در جدول زیر نمونه‌ای از نحوه اندازه‌گیری SLIها آورده شده است. قاعدتاً ابزارهای اندازه‌گیری باید خارج از کنترل ارائه دهنده سرویس باشند. مثلاً مشتری از لاگ WAF خود برای اندازه‌گیری زمان پاسخگویی استفاده کند یا زمان کارهای ارجاع شده را در جیرای خود ببیند. 

نوع شاخصملاک اندازه‌گیری
زمان انجام کارهای ارجاع شدهزمان ثبت شده در جیرای پروژه نزد کارفرما. زمان‌هایی که کار معطل سرویس‌دهنده نیست در نظر گرفته نمی‌شود. 
زمان پاسخگویی
زمان پاسخگویی طبق لاگ WAF که در ELK پروژه نگهداری می‌شود.
نرخ پاسخ صحیح
مقدار http status ثبت‌شده در لاگ WAF ملاک است. آمار از لاگ‌های ذخیره‌شده در ELK پروژه استخراج می‌گردد.
زمان خرابیزمان خرابی اجزای نرم‌افزاری از زمان ارسال اولین هشدار توسط Zabbix مرکز داده کارفرما به مسئول سرویس محاسبه می‌گردد.

پشتیبانی برنامه‌ریزی شده

مسئولین سرویس می‌توانند با اطلاع‌رسانی قبلی و پس از دریافت تایید از نماینده سرویس‌گیرنده در چارچوب جدول زیر، برای انجام امور پشتیبانی، اختلالاتی را در سرویس ایجاد نمایند. 

جدول زیر نمونه‌ای از برنامه‌ریزی پنجره‌های پشتیبانی را نمایش می‌دهد.

طبقه‌بندی کارکرد متاثر از عملیات پشتیبانیسقف مجازبازه زمانی قابل برنامه‌ریزی
اولویت یک

حداکثر ۲ ساعت در روز

حداکثر ۶ ساعت در ماه

ساعت‌های کم‌باری
اولویت دوحداکثر ۴ ساعت در روز
حداکثر ۱۰ ساعت در ماه
غیر از «ساعت‌های پیک»
اولویت ۳ و ۴

حداکثر ۶۰ ساعت در ماه

همه زمان‌ها
  1. برنامه‌ریزی عملیات پشتیبانی با اطلاع و تایید نماینده سرویس‌گیرنده صورت می‌گیرد.  
  2. در بازه عملیات پشتیبانی هیچ یک از شاخص‌های کیفیت سرویس (SLI‌ها) اندازه‌گیری نمی‌شود.
  3. در صورتی که سقف مجاز عملیات پشتیبانی پر شده باشد،‌ برنامه پشتیبانی به بازه‌های زمانی بعدی موکول می‌گردد، مگر آنکه انجام آن‌ها ضروری تشخیص داده شود. 
  4. در صورتی که عملیات پشتیبانی کارکردهای متنوعی را متاثر کند، اولویت بالاتر ملاک برنامه‌ریزی خواهد بود.

محدوده مسئولیت‌ها

در این بخش، محدوده مسئولیت‌های ارائه‌کننده و دریافت‌کننده سرویس با ذکر محدودیت‌ها، پیش‌نیازها و استثناء‌ها تببین می‌گردد. 

مسئولیت‌های سرویس‌دهنده

  • سرویس‌دهنده موظف است تغییراتی که ممکن است اختلالی در سرویس‌دهی ایجاد کنند را بدون اطلاع و اجازه سرویس‌گیرنده اعمال نکند.
  • سرویس‌دهنده موظف است نیازهای سخت‌افزاری خود را با توضیح مکفی و ذکر فوریت، حداقل یک ماه قبل از بحرانی شدن وضعیت به اطلاع سرویس‌گیرنده برساند.
  • سرویس‌دهنده موظف است مقیاس قابل تحمل با سخت‌افزارهای موجود را به اطلاع سرویس‌گیرنده برساند.
  • سرویس‌دهنده موظف است از همه داده‌های سرویس بکاپ تهیه نموده و در تجهیزات ذخیره‌سازی مربوط به بکاپ قرار دهد.
  • سرویس‌دهنده موظف است پیش‌نیازهای پایداری هر یک از اجزای سیستم و همچنین تبعات خرابی آن را در قالب یک مستند شفاف نماید تا سرویس‌گیرنده در صورت صلاحدید اقدام به درخواست پایداری بیشتر و تامین منابع و پیش‌نیازهای آن نماید.
    • مثال: سرویس پایگاه‌داده elasticsearch، شرط پایداری: حداقل دو سرور از سه نود کلاستر سالم باشد،‌ تبعات خرابی: خریداران امکان جستجو روی محصولات را نخواهند داشت. ممکن است بخشی از داده از دست برود و در این صورت باید مجددا reindex شود.
  • سرویس‌دهنده موظف است چیدمان اجزای نرم‌افزاری را روی تجهیزات سخت‌افزاری به گونه‌ای مدیریت کند که خراب شدن هیچ سرور واحدی کارکردهای اصلی سیستم را متوقف نکند. در صورت توقف سرویس با خراب شدن یک سرور با وجود تامین منابع، مسئولیت به عهده سرویس‌دهنده است.
  • در صورت نیاز، سرویس‌دهنده باید سرویس را حداکثر ظرف سه روز کاری از صفر به طور کامل روی یک مرکز داده جدید نصب نماید. بدیهی است چنانچه نصب مجدد ریشه در خرابی‌های ناشی از نقض تعهدات سرویس‌دهنده نداشته باشد، خدمات وی مشمول هزینه مجزا خواهد بود.

سلب مسئولیت از سرویس‌دهنده

  • در صورتی که پیش‌نیازهای پایداری یک سرویس نقض گردد و سرویس‌دهنده قبلا پیش‌نیازها را به صورت شفاف اعلام کرده باشد، مسئولیت قطع سرویس به عهده وی نمی‌باشد.
  • در صورتی که باری بیش از مقیاس اعلام‌شده توسط سرویس‌دهنده به سیستم تحمیل شود، مسئولیت کیفیت سرویس به عهده سرویس‌دهنده نمی‌باشد.
  • سرویس‌دهنده نسبت به تجهیزات شبکه، سرورها و تجهیزات سخت‌افزاری، سیستم‌عامل و زیرساخت ابری مسئولیتی ندارد.
  • سرویس‌دهنده نسبت به نگهداری بکاپ‌ها تعهدی ندارد و صرفا موظف است فایل‌های بکاپ را در فضای ذخیره‌سازی مشخص‌شده از سوی سرویس‌گیرنده قرار دهد.
  • سرویس‌دهنده نسبت به قطع شدن سرویس‌های بالادستی که پیش‌نیاز کارکرد صحیح سیستم هستند (مثل سرویس‌های پیامک و ایمیل) مسئولیتی ندارد.

مسئولیت‌های سرویس‌گیرنده

  • سرویس‌گیرنده موظف است تجهیزات و پیش‌نیازهای سرویس‌دهی را تامین نماید.

سلب مسئولیت از سرویس‌گیرنده

  • سرویس‌گیرنده نسبت به ارتقای منابع سرورها تعهدی ندارد مگر آنکه حداقل از یک ماه به وی اطلاع داده شده باشد. 
  • No labels