Business IntelligenceMachine learning

متدولوژی استقرار CRISP-DMدر سیستم های یادگیری ماشین

مدیریت پروژه ها در سیستم های یادگیری ماشین

مقدمه

استقرار سیستم های یادگیری ماشین نیز همانند استقرار هر سیستمی لازم به یک روش استقرار جهت پیشبرد پروژ و مدیریت آن دارد ،یکی از معروف ترین  متدولوژی ها جهت استقرار سیستم های یادگیری ماشین متدولوژی کریسپ دی ام (CRISP-DM) می باشد.از این به بعد جهت سادگی  به جای فارسی از همان واژه متدولوژی CRISP-DM استفاده خواهیم کرد این واژه مخفف  Cross Industry Standard Process for Data Miningاست .

برای آشنایی با یادگیری ماشین و جایگاه آن در هوش تجاری اینجا کلیک کنید

تاریخچه:

CRISP-DM در سال ۱۹۹۶ به تصویب رسید و در سال ۱۹۹۷، اتحادیه اروپا آن ​​را به عنوان یک پروژه تحت برنامه ابتکاری ESPRIT آغاز کرد. این پروژه توسط پنج شرکت SPSS, Teradata, Daimler AG, NCR Corporation و OHRAو یک شرکت بیمه رهبری گردید.

این کنسرسیوم اصلی تجربیات مختلفی را برای پروژه به ارمغان آورد، ISL، بعداً به SPSS وارد و ادغام شد. غول کامپیوتری NCR Corporation انبار داده Teradata و نرم‌افزار داده کاوی خود را تولید کرد.

اولین نسخه این روش در چهارمین گردهمایی CRISP-DM SIG در بروکسل در مارس ۱۹۹۹ ارائه شد و در همان سال به عنوان یک راهنمای گام به گام داده کاوی منتشر شد.

گام های متدولوژی CRISP-DM

این متدولوژی دارای شش مرحله اصلی است. این شش مرحله از درک کسب و کار شروع می شود و در نهایت به استقرار راهکار  ختم می شود.  درست است که این مراحل به یک توالی و ترتیب مشخص اجرا می شوند اما توجه به این نکته مهم است که در اکثر  مراحل فرایندها به صورت رفت و برگشتی دنبال می شوند.

برای درک بهتر مراحل موضوع را درقالب یک مثال عملی عنوان کرده و در هر مرحله توضیحات خود را به آن مرتبط می کنیم ، فرض کنید  مدیر عامل یک شرکت جهت توسعه فعالیت ها و بازار کار خود  قصد دارد فعالیت های شرکت را توسعه دهد .بر اساس مشاوره های دریافت شده به این نتیجه رسیده که جهت توسعه فعالیت ها و گسترش بازار کار نیاز به تبلیغات داشته و باید به طرق مختلفی در این زمینه هزینه هایی را انجام دهد.بعد از مدتی  که فعالیت تبلیغات شرکت انجام میگیرد مدیر عامل به این فکر می افتد که آیا هزینه های تقبل شده تاثیری در کسب کار او داشته است یا خیر؟

گام اول : فهم کسب و کار   Business Understanding

گام اول در متدولوژی CRISP-DM فهم کسب کار است ،این مرحله رو ی اهداف و الزامات پروژه متمرکز می شود و در این مرحله سعی بر این است که مساله اصلی مشتری یا کار فرما شناسایی گردد .

طبق مثال عنوان شده مساله اصلی مشتری کشف ارتباط بین هزینه انجام شده با توسعه کسب کار شرکت است، خب قبل از هر چیز باید  باید مفاهیم کاملا روشن و شفاف گردد، مساله اول این است که از هزینه های انجام شده  فقط هزینه مربوط به تبلیغات باید مد نظر قرار گیرد.

موضوع مهم دوم مشخص شدن منظور مشتری از توسعه کسب و کار مثلا ممکن است منظور از توسعه کسب و کار افزایش فروش باشد.بنابراین مساله مشتری تبدیل به یافتن ارتباط بین هزینه تبلیغات و میزان فروش شرکت خواهد شد.

نکته دیگری که در این مرحله نیاز روشن شدن دارد این است که آیا مساله مشتری ارتباطی با سیستم یادگیری ماشین دارد یا خیر و آیا با پیاده سازی یک سیتم یادگیری ماشین میتوان موضوع مورد نظر مشتری را به نتیجه رساند یا خیر؟

گام دوم : فهم داده  Data Understanding

منظور از فهم داده مشخص کردن اینکه برای حل مساله مشتری به چه داده هایی نیاز داریم و این داده ها باید از چه منابعی جمع آوری شوند مثلا در مورد کیس مورد مثال ما نیاز به داده های مربوط به هزینه های تبلیغات و میزان فروش  به تفکیک زمان هستیم و میتوانیم این داده ها را از سیستم حسابداری شرکت جمع آوری کنیم.

گام سوم: آماده سازی داده ها Data Preparation

بعد از فهم داده وارد مرحله آماده سازی داده ها می شویم، آماده سازی داده خود بخش بسیار مهمی در این متدولوژی است که زیر بخش هایی به شرح ذیل دارد

آماده سازی داده ها در یادگیری ماشین با متدولوژی CRISP-DM

  1. تجمیع داده ها
  2. طراحی یک ساختار برای نگهداری داده ها
  3. پیش پردازش داده ها مثل از بین بردن داده های تکراری ، مقادیر خارج از محدوده استاندارد و …
  4. تجزیه و تحلیل داده
  5. تهیه گزارش هایی تحلیلی از وضعیت داده ها

با توجه به اینکه قصد داریم در ادامه به شرح کامل مرحله آماده سازی داده بپردازیم به همین توضیحات بسنده می کنیم

گام چهارم : مدل سازی Modeling

بعد از آماده سازی داده نوبت به ساخت مدل می رسد ،در این مرحله با استفاده از یکی از الگوریتم های موجود در حوزه یادگیری ماشین به مدل سازی مساله مشتری می پردازیم .تقریبا کار اصلی در پیاده سازی سیستم یادگیری ماشین همین مرحله است و در مقالات بعدی به معرفی الگوریتم ها و روش های رایج در پیاده سازی این سیستم ها خواهیم پرداخت.

در مورد مساله مورد نظر ما به عنوان نمونه ساده می توان از یک مدل رگریسون خطی ساده جهت بررسی ارتباط هزینه انجام شده برای تبلیغات و میزان فروش شرکت استفاده کرد.

گام پنجم: ارزیابی مدل Evaluation

در مر حله ارزیابی باید کیفیت و صحت مدل ایجاد شده را بررسی کنیم ، معمولا این کار با بخشی از داده ها که به عنوان داده تستی در نظر گرفته می شود انجام می گیرد ، در این مرحله مشخص می شود که آیا مدل ایجاد شده جوابگوی نیاز مشتری هست یا خیر و نیاز به اصلاح دارد؟

گام ششم: استقرار Deployment

گام آخر در متدولوژی استقرار  CRISP-DM استقرار است ،منظور از استقرار پیاده سازی نهایی برنامه طراحی شده به گونه است که مشتری بدون نیاز به طراح قادر به استفاده از آن باشد ،مثلا اگر اطلاعات جدیدی ایجاد شده مشتری بتواند بدون کمک طراح از برنامه استفاده کند به عنوان نمونه اگر فعالیتی در پروژه داریم که باید روزانه اطلاعات مورد نیاز را جمع آوری کند ،باید این فعالیت با استفاده از برنامه های مربوطه به صورت schedule درآید.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

همچنین ببینید

بستن
دکمه بازگشت به بالا
بستن
بستن