Business IntelligenceUnsupervised Algorithm

یادگیری بدون ناطر Unsupervised Learning

مقدمه

یادگیری بدون ناطر یکی دیگر از مدل های یادگیری ماشین که در این مقاله به تشریح آن می پردازیم .همانطور که در مقاله ” یادگیری ماشین و جایگاه آن در هوش تجاری” گفتیم که الگوریتم های یادگیری ماشین به 4 گروه به صورت زیر تقسیم می شوند.

  1. یادگیری باناظر  Supervised Learning 
  2. یادگیری بدون ناطر Unsupervised Learning
  3. یادگیری شبه باناظر Semi Supervised Learning
  4. یادگیری تقویتی  Reinforcement Learning

یادگیری های بدون ناظر Unsupervised Learning

در یادگیری بدون ناطر هیچگونه مشخصه ای  از ابتدا برای ما مشخص نیست و معمولا بعد از اجرای مدل و پیاده سازی سیستم است که برخی از ویژگی ها مشخص می شنوند .مثلا فرض کنید بخواهیم جهت ارائه خدمات بهتر به مراجعین یک وب سایت یک بررسی رو آنها داشته باشیم بعد از انجام بررسی به این نتیجه می رسیم که مراجعین جوانتر به دنبال مطالب سرگرم کننده و تفریحی هستند در حالی که افراد بالایی 40 سال بیشتر به دنبال اخبار و پیگیری رویدادها هستند،مشاهده می کنید که ویژگی همچون سن در خروجی مدل ظاهر شده نه در ورودی!

در یادگیری بدون ناطر هیچگونه مشخصه ای  از ابتدا برای ما مشخص نیست و معمولا بعد از اجرای مدل و پیاده سازی سیستم است که برخی از ویژگی ها مشخص می شنوند

همانطور که در مقاله قبلی گفتیم در یادگیری با ناظر تمام ورودی های برچسب داشته و دقیقا مشخص است که میخواهیم بر اساس کدام یک از ویژگی ها چه چیزی را پیش بینی کنیم. اما در یادگیری بدون ناطر داده‌های مورد نظر هچگونه برچسبی نداشته و با بررسی هایی که توسط الگوریتم یاد شده روی آن انجام می گیرد ،الگوهای موجود در آن به دست می آید

برای درک بهتر موضوع به مثال زیر توجه کنید

فرض کنید ما یک وبلاگ داریم که افراد مختلفی به آن مراجعه و از آن استفاده می کنند .حال می‌خواهیم الگوی از مشخصات مراجعین وبلاگ  خود به دست آوریم ،تا از این طریق بتوانیم سرویس بهتری به مراجعین خود بدهیم.

 فرض کنید پس از انجام بررسی‌های متوجه می شویم که مراجعین به این وبلاگ را می توان به دو گروه تقسیم کرد :

گروه اول افرادی هستند که میانگین سنی آنها کمتر از ۳۰ سال است.

 گروه دوم افرادی که میانگین سنی آنها بیشتر از ۳۰ سال است.

با ادامه بررسی ها به این نتیجه می رسیم که گروه اول بیشتر در آخر هفته ها و معمولاً از ساعت ۸ الی ۱۲ شب به وبلاگ ما مراجعه کرده ،و غالباً به دنبال موضوعات فان  وسرگرمی هستند .

گروه دوم یعنی کسانی که میانگین سنی بالاتر از ۳۰ سال دارند معمولاً در روزهای ابتدایی هفته به وبلاگ مراجعه می‌کنند و ساعات مراجعه آنها بیشتر از ساعت 8 تا ۴ بعد از ظهر است ،همچنین این گروه از غالباً به دنبال اخبار و موضوعات اجتماعی هستند.

 در همین مثال ساده متوجه شدیم  که می توان بدون داشتن هیچ اطلاعاتی از متغیرهایی که در مدل یادگیری وجود دارند الگویی از رفتار بازدید کنندگان را در قالب دو گروه بدست آوریم.

مدلی که در مثال فوق انجام شد یکی از الگوریتم های معروف در حوزه یادگیری بدون ناطر است که از طراحان آن راClustering  یا خوشه بندی می نامند.

الگوریتم یادگیری بدون ناطر :

خوشه بندی    Clustering
کشف قوانین انجمنی        Association Rule Mining
تحلیل مولفه اساسی Principal Component Analysis

در  مورد هر کدام از مدل های  فوق بحث مفصلی  در آینده خواهیم داشت ، امادر این مقاله به صورت مختصر به معرفی اولین  مدل در حوزه یادگیری بدون ناظر پرداخت خواهیم پرداخت.

خوشه بندی

همانگونه که اشاره شد خوشه بندی از جمله روش هایی است که در آن هیچ گونه برچسبی  برای رکوردها در نظر گرفته نمی شود، و رکورد ها فقط بر اساس معیار شباهتی که معرفی شده است ،به مجموعه ای از خوشه ها گروه بندی خواهند شد .

بنابر این هر الگوریتم خوشه بندی ،یک الگوریتم  یادگیری بدون ناطر به حساب آید ، همانطور که میدانیم  در روش های یادگیری بدون ناطر الگوریتم مراحلی را تحت نام های آموزش و ارزیابی ندارد،و در پایان عملیات خوشه بندی همان خوشه های ایجاد شده به عنوان خروجی ارائه می شود.

خوشه به مجموعه ای از داده ها گفته می شود که به هم شباهت داشته باشند ،خوشه بندی را می توان عنوان مهمترین روش در یادگیری بدون ناطر در نظر گرفت .

 در خوشه بندی سعی بر آن است داده ها به خوشه های تقسیم شوند ،که شباهت بین داده های درون هر خوشه ماکزیمم و شباهت بین داده ها در خوشه های متفاوت مینیمم شود.

برخی از کاربرد های خوشه بندی

حوزه بازاریابی:

  • خوشه بندی مشتریان با توجه به رفتار ها و نیازهای آنها

 حوزه زیست شناسی:

  • خوشه بندی حیوانات و گیاهان از روی خصوصیات آنها

 شبکه اینترنت و وب:

  • خوشه بندی اسناد وب مانند اخبار
  • خوشه بندی بازدیدکنندگان یک سایت

در پایان به معرفی  دو الگوریتم پرکاربرد در حوزه خوشه بندی می پردازیم:

الگوریتم خوشه بندی کیمین: الگوریتم خوشه بندی k-means یکی از ساده ترین و البته مشهور ترین الگوریتم های یادگیری بدون ناظر است.

 در این الگوریتم عملاً مجموعه داده ها به تعداد خوشه هایی که از پیش  با مقدار k  تعیین شده اند تقسیم می شوند ،ایده اصلی در این الگوریتم تعریف مرکز برای هر یک از خوشه هاست ، بهترین انتخاب برای مراکز خوشه ها در این الگوریتم قرار دادن آنها در فاصله هر چه بیشتر از یکدیگر است، پس از آن هر رکورد در مجموعه داده ها درخوشه ای که کمترین فاصله تا مرکز آن را داردقرار می گیرد.

مراحل الگوریتم k-means

مرحله اول :ابتدا K نقطه به صورت تصادفی به عنوان مراکز خوشه ها انتخاب می شوند.

مرحله دوم: هر رکورد در مجموعه داده  ،به خوشه ای که مرکز آن خوشه کمترین فاصله را تا آن رکورد دارا ست ،قرار داده می شود.

 فاصله در اینجا می تواند معانی متفاوتی داشته باشد، مشهور ترین معیار های محاسبه فاصله معیار فاصله اقلیدسی و فاصله منهتن  هستند .

مرحله سوم : پس از تخصیص تمامی رکورد ها  به خوشه ها  تشکیل شده ،برای هر خوشه یک نقطه به عنوان مرکز جدید محاسبه می شود.

مرحله چهارم :در این مرحله ،مرحله ۲ تکرار می شود، این تکرار تا جایی ادامه پیدا می کند ، که دیگر مراکز خوشه ها تغییری نداشته باشد و در این نقطه الگوریتم به پایان می رسد.

الگوریتم خوشه بندی کیمین: الگوریتم خوشه بندی k-means یکی از ساده ترین و البته مشهور ترین الگوریتم های یادگیری بدون ناظر است.
مراحل انجام الگوریتم k-means

خوشه بندی سلسله مراتبی :

به خوشه‌بندی گفته می شود که طی آن یک مجموعه از خوشه های تودرتو که در قالب ساختار درختی و به صورت سلسله مراتبی سازماندهی شده اند، تولید شوند .

با استفاده از نمودار دند و گرام می توان نحوه شکل‌گیری خوشه‌های تو در را نشان داد، این نمودار درخت مانند ترتیبی از ادغام و تجزیه را برای خوشه های تشکیل شده ثبت می کند.

به خوشه‌بندی گفته می شود که طی آن یک مجموعه از خوشه های تودرتو که در قالب ساختار درختی و به صورت سلسله مراتبی سازماندهی شده اند، تولید شوند .

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا
بستن
بستن