فرآیند داده کاوی (بخش سوم)
فرآیند داده کاوی (مرحله دوم)
لینک به بخش قبلی
مرحله 2: انتخاب داده مناسب :
داده کاوی به داده نیاز دارد. در بهترین حالت ممکن، داده مورد نیاز در یک انبار داده مجتمع، پالایش شده، در دسترس، با سابقه درست، و بطور متناوب در حال اصلاح، قرار دارد. اما در واقعیت تمام این موارد ممکن نیست. منابع داده مفید و دردسترس، از مسئله ای به مسئله دیگر و از صنعتی به صنعت دیگر، متنوع هستند.
چه چیزی در دسترس است ؟
اولین جایی که باید بدنبال داده گشت، یک انبار داده مجتمع است . داده ها در انبار، پالایش، اعتبارسنجی و از چندین منبع باهم گردآوری شده اند . یک مدل داده تکی، این اطمینان را می دهد که فیلدها بطور مشابهی نامگذاری شده اند، معنای یکسانی، وانواع داده سازگاری را در پایگاه داده دارند. یک انبار داده یکی شده، یک مخزن سابقه ای است؛ داده های جدید به آن اضافه می شوند ولی داده های قبلی تغییر داده نمی شوند. از آنجایی که برای پشتیبانی تصمیم گیری طراحی شده اند، انبار داده، داده های با جزئیاتی را که برای داده کاوی در سطح درستی پذیرفته شود، تهیه می کند. تنها مسئله این است که در بسیاری از سازمان ها، واقعا چنین انبار داده ای وجود ندارد یا اینکه یک یا چند انبار داده وجود دارد ولی در سطح قابل قبولی نیستند. در شروع این مورد، داده کاو باید داده ها را از میان پایگاه داده های مختلف اداری و از دل سیستمهای عملیاتی مختلف بیرون بکشد. ممکن است سیاست های معنی دار و تلاش های برنامه نویسی ای برای گرفتن داده بشکل کارآمد برای کشف دانش از چنین سیستم هایی نیاز شود . در برخی موارد، روال های عملیاتی برای تهیه داده، تغییر خواهند کرد.
چه مقدار داده کافی است ؟
متاسفانه پاسخ ساده ای برای این سوال وجود ندارد. پاسخ به الگوریتم های خاصی که بکار گرفته می شود و پیچیدگی داده، بستگی دارد. در مواردی که داده کم است، داده کاوی نه تنها کم اثر است بلکه بلااستفاده نیز هست. داده کاوی بیشترین فایده را زمانی دارد که حجم خالصی از داده، الگوهایی را پنهان کند که قابل جستجو در پایگاه داده های کوچک هستند.
در داده کاوی، داده ها هر چه بیشتر، بهتر است ولی باید به دو نکته توجه کرد. اولین نکته، ر ابطه بین اندازه مجموعه مدل و تراکم آن است. منظور از تراکم پخش اثرات مطلوب هاست. اغلب متغیر هدف، چیزی را که نسبتا نادر است، ارائه می کند. برای دارندگان کارت های اعتباری، ارتکاب تقلب نادر است . اینکه مشترکان یک روزنامه، اشتراکشان را لغو کنند، کم پیش می آید . برای مجموعه مدل، مطلوب این است که با اعداد برابر با هر یک از خروجی های روال ساخت مدل، متوازن باشد. یک مجموعه کوچکتر متوازن به مجموعه بزرگتری که موارد نادر را داشته باشد، ترجیح داده می شود.
دومین نکته، این است که وقتی مجموعه مدل برای ساختن مدل های خوب و پایدار، به اندازه کافی بزرگ است، بزرگتر ساختن آن خنثی کننده تولید است، چون هر چیزی برای اجرا روی مجموعه داده، زمان بیشتری می برد . از آنجا که روال داده کاوی یک فرایند تکراری است، اگر هر اجرا از یک روتین مدل سازی به جای چند دقیقه، ساعت ها وقت بگیرد، زمان صرف شده برای رسیدن به نتایج ممکن است طولانی شود.
یک تست ساده برای اینکه بدانیم مجموعه داده ها برای شروع به اندازه کافی مناسب است این است که اندازه نمونه را دوبرابر کنیم و بهبود درستی مدل را اندازه گیری کنیم . اگر مدل ساخته شده از داده های بزرگتر، بطرز معنی داری بهتر از مدل کوچکتر بود، بدان معنی است که مجموعه نمونه ما به اندازه کافی بزرگ نیست . اما اگر بهبود چشمگیری در مدل حاصل نشد، احتمالا مدل اصلی مناسب خواهد بود.
چقدر سابقه لازم است ؟
داده کاوی، داده های گذشته را برای پیش بینی آینده بکار می برد. ولی چه مقدار از سابقه را باید با داده ها آورد؟ این یک سوال ساده دیگری است که پاسخ ساده ای ندارد. اولین چیز برای توجه فصلی بودن است . برخی کسب و کارها درجه ای از فصلی بودن را دارند . مثلا سفرهای فراغت در تابستان اتفاق می افتد. فروش ها بیشتر در یک چهارم پایانی سال انجام می شود . باید به اندازه کافی داده قبلی برای رویدادهای دوره ای از این دست، گرفته شود.
از سوی دیگر، داده های گذشته های دور بدلیل تغییر شرایط بازار، نمی توانند خیلی مفید باشند. برای بیشتر کاربردهای متمرکز برمشتری، سوابق دو تا سه سال، مناسب است.
چند تا متغیر ؟
داده کاوهای بی تجربه، بعضی اوقات در دور ریختن متغیرهایی که به نظرشان بدردنخور هستند و نگه داشتن تعداد کمی از متغیرهایی که به نظرشان مهم می رسند، بسیار شتاب دارند . روش های داده کاوی این اجازه را می دهند که داده خودش مشخص کند که چه چیز مهم و چیز بی اهمیت است. اغلب، متغیرهایی که قبلا از آنها چشم پوشی کرده ایم و آنها را کنار گذاشته ایم، در صورت ترکیب با متغیرهای دیگر، ارزش پیشگویانه پیدا می کنند . این درست است که مدل نهایی فقط براساس تعداد کمی متغیر بنا نهاده می شود. ولی این متغیرهای اندگ گاهی از ترکیب چندین متغیر دیگر بدست می آیند و ممکن است که در ابتدا قابل مشاهده نباشند که یکی از آنها در نهایت مهم خواهد بود.