Business IntelligenceSupervised Algorithm

یادگیری باناظر Supervised Learning

مدل یادگیری باناظر در یادگیری ماشین

در مقاله قصد داریم یک از مهمترین مدل ها در یاگیری ماشین را که  یادگیری باناظر نام دارد را معرفی کنیم.
همانطور که در مقاله “ یادگیری ماشین و جایگاه آن در هوش تجاری” گفتیم که الگوریتم های یادگیری ماشین به 4 گروه به صورت زیر تقسیم می شوند.

  1. یادگیری باناظر  Supervised Learning 
  2. یادگیری بدون ناظر Unsupervised Learning
  3. یادگیری شبه باناظر Semi Supervised Learning
  4. یادگیری تقویتی  Reinforcement Learning

یادگیری باناظر  Supervised Learning 

در این مدل یادگیری باناظر داده های موجود همه دارای مشخصه متمایز کننده یا اصطلاحا برچسب می باشند .

مثلا زمانی که می خواهیم تشخیص دهیم که آیا یک مشتری از یک فروشگاه خرید می کند یا خیر؟ ،اطلاعاتی از مشتری مانند سن،میزان درآمد ،جنسیت و غیره در اختیار داریم.
در اینجا سن ، میزان درآمد یا سایر مشخصه ها همان برچسب های اطلاعات موجود هستند.

در مدل یادگیری با ناظر  داده های موجود همه دارای مشخصه متمایز کننده یا اصطلاحا برچسب می باشند
مدل با ناظر

در مدل یادگیری باناظر ویژگی ها به دور دسته تقسیم می شوند:

 دسته اول ویژگی های پیش بینی کننده یا ویژگی های مستقل نامیده می‌شوند.

و دسته دوم ویژگی های پیش بینی شونده یا وابسته نامیده می‌شوند..

 در مدل یادگیری باناظر هدف برقراری ارتباطی ،در قالب یک تابع ، بین ویژگی های مستقل و ویژگی های وابسته می باشد.
بر اساس این که به چه طریقی این رابطه برقرار شود می توان از الگوریتم های مختلف استفاده کرد.

 قبل از معرفی این الگوریتم ها لازم است بدانیم که در حالت کلی تابعی که رابطه بین ویژگی های وابسته و مستقل را مشخص می کند به دو گروه تقسیم می شود:

 گروه اول توابع هستند که برد آنها یک مجموعه پیوسته است و می تواند مقادیر متعددی را در خود جای دهد به این دسته از الگوریتم های یادگیری با ناظر اصطلاحاً رگرسیون گفته می شود.

 به عنوان مثال فرض کنید میخواهیم رابطه بین هزینه تبلیغات و فروش  یک شرکت پیدا کنیم، مشخص است که مقادیری که متغیر وابسته یا همان فروش می تواند داشته باشد محدودیتی ندارد و در یک دامنه پیوسته قابل تغییر است.

 حالت دوم در الگوریتم های یادگیری باناظر حالتی است که تابع مشخص کننده رابطه بین متغیرهای مستقل و متغیرهای وابسته دارای یک برد گسسته است .
منظور از برده گسسته این است که تابع تعیین شده می تواند مقادیر محدودی را شامل شود.

 مثلاً فرض کنید بخواهیم با استفاده از ویژگیهای سن ،جنسیت ،میزان حقوق و شهر محل سکونت  یک مشتری مشخص کنیم که آیا این مشتری از ما خرید می کند یا خیر؟.

در این حالت هر رابطه ای که بین متغیرهای وابسته و متغیرهای مستقل ایجاد کنیم ،تابعی خواهیم داشتکه برد  آن دو حالت Yes یاNo  خواهد داشت ،
به این دسته از الگوریتم های با ناظر الگوریتم های دسته بندی گفته می شود.

بنابر این می توان گفت که الگوریتم های یادگیری باناظر به دو گروه به صورت زیر تقسیم می شوند.

رگریسیون Regression

در رگریسیون برد تابع ایجاد شده بین متغیر های مستقل و وابسته ، پیوسته است

دسته بندی Calcification

در دسته بندی برد تابع ایجاد شده بین متغیر های مستقل و وابسته ، گسسته است

در هریک از دو مدل فوق بر اساس نوع مساله و نوع الگوریتم روش های مختلفی خواهیم داشت که عبارتند از:

در مدل رگریسیون Regression

الگوریتم رگرسیون خطی ساده Simple Linear Regression

 الگوریتم رگرسیون خطی چند متغیره Multiple Linear Regression

الگوریتم رگرسیون چند جمله ای  Polynomial Regression

الگوریتم ماشین های بردارهای پشتیبان Support Vector Regression (SVR)

الگوریتم رگرسیون درخت تصمیم Decision Tree Regression 

الگوریتم رگرسیون   جنگل تصادفی  Random Forest Regression

در مدل دسته بندی Calcification

الگوریتم  رگرسیون لجستیک  Logistic Regression

 الگوریتم نزدیکترین همسایه  K-Nearest Neighbors (K-NN)

 الگوریتم ماشین های بردار پشتیبان  Support Vector Machine (SVM)

الگوریتم مبتنی بر نظربه بیز  Naive Bayes

الگوریتم دسته بندی درخت تصمیم  Decision Tree Classification

الگوریتم دسته بندی جنگل تصادفی Random Forest Classification

روش کار یادگیری باناظر

 در مدل یادگیری باناظربعد از انجام عملیات آماده سازی داده ها  مجموعه داده های که در اختیار داریم را به دو دسته مجموعه آموزشی(Training Set) و مجموعه تستی(Test Set) تقسیم می کنیم .

این که بخشی  از داده ها به عنوان مجموعه آموزشی یا  مجموعه تستی در نظر گرفته شود، و یا اینکه چه درصدی از مجموعه داده ها به هر یک ازمجموعه‌های آموزشی یا تستی اختصاص یابد خود موضوعی که در آینده به آن خواهیم پرداخت.

 به طور کلی می توان می توان گفت که از مجموعه داده های موجود حدود ۸۰ درصد آن به صورت تصادفی انتخاب و در مجموعه داده های آموزشی قرار می گیرند و مابقی داده ها به عنوان  مجموعه داده های تستی در نظر گرفته می شود.

سپس الگوریتم با استفاده از داده های مجموعه آموزشی ،آموزش داده شده و مدل مورد نظر ساخته می شود ،و در نهایت از مجموعه تستی جهت ارزیابی مدل ایجاد شده استفاده خواهد شد

قطعه کد  تقسیم  مجموعه داده ها به دو گروه آموزشی و تستی در یادگیری باناظر ، را در زبان پایتون .

# Importing the libraries
import pandas as pd

# Importing the dataset
df = pd.read_csv('Position_Salaries.csv')

#Split attribute to dependent and independent 
X = df.iloc[:,1].values
y = df.iloc[:,2].values

# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,
                                                test_size=0.2, 
                                                random_state=123)

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا
بستن
بستن