کلان داده

داده کاوی و مفهوم استخراج اطلاعات

داده کاوی Data Mining به مفهوم استخراج اطلاعات پنهان و یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ گفته می‌شود.

بسیاری از مردم داده کاوی را مترادف واژه‌های رایج کشف دانش در پایگاه داده‌ها به اختصاری KDD می‌دانند اما داده‌ کاوی ، پایگاه‌ها و مجموعه حجیم داده‌ها را در پی کشف و استخراج مورد تحلیل قرار می‌دهد.

اینگونه مطالعات و کاوش‌ها را می‌توان همان امتداد و استمرار دانش کهن و همه جانبه علم آمار دانست فقط تفاوت عمده در مقیاس ، وسعت و گوناگونی زمینه‌ها و کاربردها و نیز ابعاد و اندازه‌های داده‌های امروزی است که شیوه‌های ماشینی مربوط به یادگیری ، مدل‌سازی و آموزش را طلب می‌نماید.

داده کاوی به بهره‌گیری از ابزارهای تجزیه و تحلیل داده‌ها به منظور کشف الگوها و روابط معتبری که تاکنون ناشناخته بوده‌اند اطلاق می‌شود.

این ابزارها ممکن است مدل‌های آماری ، الگوریتم‌های ریاضی و Machine Learning باشند که این کار را به صورت خودکار بهبود می‌بخشد.

داده کاوی منحصر به گردآوری و مدیریت داده‌ها نبوده و تجزیه و تحلیل اطلاعات و پیش‌بینی را نیز شامل می‌شود برنامه‌های کاربردی که با بررسی فایل‌های متن یا چند رسانه‌ای به کاوش داده‌ها می‌پردازند پارامترهای گوناگونی را در نظر می‌گیرد.

یکی از ویژگی‌های کلیدی در بسیاری از ابتکارات مربوط به تأمین امنیت ملی ، داده کاوی است. داده کاوی به عنوان ابزاری برای کشف جرایم ، ارزیابی میزان ریسک و فروش محصولات به کار می‌رود که در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده ها است.

بهره‌برداری از داده کاوی در دو بخش دولتی و بخش خصوصی رو به گسترش است مانند بانک ، بیمه ، بهداشت و بازاریابی آن را عموما برای کاهش هزینه‌ها ، ارتقاء کیفی پژوهش‌ها و بالاتر بردن میزان فروش به کار می‌برند.

توانایی‌های فنی در داده کاوی از اهمیت ویژه‌ای برخوردار است اما عوامل دیگری نیز مانند چگونگی پیاده‌سازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند.

یکی از این عوامل ، کیفیت داده‌ها است که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرم‌افزار داده کاوی با بانک‌های اطلاعاتی است که از سوی شرکت‌های متفاوتی عرضه می‌شوند.

عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره‌برداری از داده‌ها به منظوری است که در ابتدا با این نیت گردآوری نشده‌اند و حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت.

در علم رایانه از داده‌کاوی برای کشف الگوی میان داده‌ها استفاده می‌شود و معمولا داده‌های خام و بی‌معنا وارد سیستم شده و پس از پردازش‌های مورد نیاز نتایج حاصل از آن‌ها را که اطلاعات می‌نامند ،توسط هوش مصنوعی استخراج می‌گردد کاربردهای عمومی داده‌کاوی در علم کامپیوتر عبارتند از:

  • کشف الگوی میان داده‌ها
  • پیش‌بینی حدودی نتایج
  • به دست آوردن اطلاعات کاربردی
  • تمرکز بر روی داده‌های بزرگ
منبع
wikipedia
دکمه بازگشت به بالا