كلان داده يا داده هاي عظيم (Big Data)
مقاله اي در مورد داده هاي عظيم يا كلان داده ها (تعاريف و چالشها)
چكيده:
در سالهاي اخير، با توجه به فراگير شدن استفاده از خدمات الكترونيكي و همچنين استفاده از شبكه هاي اجتماعي، حجم زيادي از اطلاعات توليد مي شود كه اين اطلاعات علاوه بر حجم زياد، از انواع گوناگوني از قبيل فيلم، عكس، متن و …. تشكيل شده اند . به دليل حجم بالا و عدم ساخت يافتگي اين اطلاعات ، پوشش آنها از طريق پايگاه داده هاي سنتي و روشهاي رابطه اي امكان پذير نيست و بايد از راهكارهاي نوين براي پردازش آنها استفاده شود، به گونه اي كه سرعت پردازش نيز تحت پوشش قرار گيرد.
ذخيره سازي اطلاعات براي پردازش و نحوه ي دسترسي به آنها در حافظه ، ارتباطات شبكه اي ، پوشش ويژگي هاي مورد نياز براي سيستم توزيع شده در راهكارهاي مورد استفاده در ذخيره سازي داده هاي عظيم، از جمله مواردي است كه بايد مورد پوشش قرار گيرد . در اين مقاله مجموعه اي از مزيتها و چالشها در داده هاي عظيم، ويژگي هاو خصوصيات خاص آنها فراهم شده است و با معرفي تكنولوژيهاي مورد استفاده ، راهكارهاي ذخيره سازي مورد بررسي قرار مي گيرند و فرصتهاي تحقيقاتي براي ادامه راه ، معرفي خواهند شد.
مقدمه
فرمونت رايدر ، در مقاله اي در مورد آبنده كتابخانه ي دانشگاه يل ، پيش بيني ارائه كرده بود كه بر اساس افزايش ساليانه ي منابع تخقيقاتي، در سال ۲۰۴۰ ، دويست ميليون جلد كتاب موجود خواهد بود كه اگر قرار باشد به صورت كاغذي نگه داري شود، قفسه هاي آن ، مسافتي در حدود ششصد مايل را پوشش خواهد داد. مقادير داده اي كه توليد مي شوند و مورد پردازش قرار مي گيرند، روز به روز در حال افزايش است. داده هاي عظيم به مجموعهاي از دادهها گفته ميشود كه به صورت ساخت يافته يا غيرساخت يافته، ذخيره مي شوند و داده هاي پيچيدهاي هستند كه از ابعاد گوناگون تشكيل شده اند.اولين خصوصيت داده هاي عظيم، حجم آنهاست كه به مقدار و كميت آنها برمي گردد و به دليل حجم بالا، مديريت، تجزيه و تحليل آنها متفاوت است و به واسطه ي پايگاه داده هاي سنتي انجام نمي شود. اگر از تعداد كمي گره هاي پردازشي استفاده شود، با توجه به اين حجم بالا، پردازش با سرعت كمتري صورت مي پذيرد. براي افزايش سرعت پردازش، گره هاي بيشتر و همچنين قدرت پردازش بيشتري مورد نياز است كه هزينه ي بالاتري را طلب مي كند. يكي از راههاي اوليه كه در اين زمينه پيشنهاد مي شود ، فشرده سازي داده هاست. اين امر در داده هاي بزرگ چندان كارساز نيست، زيرا يكي ديگر از خصوصيات داده هاي بزرگ، تنوع آنهاست . اين داده ها از انواع مختلفي از قبيل فيلم، عكس، متن و ….. تشكيل شده اند كه اين غير ساخت يافتگي، فشرده سازي آنها را دشوار كرده و در بعضي از شرايط به گونه اي است كه همان زماني كه براي پردازش آنها به واسطه ي روشهاي سنتي صرف مي شود، براي فشرده سازي هدر مي رود و از طرفي به دليل اين گوناگوني نوع، پيچيدگي خاص خود را دارد.به همين دليل فشرده سازي كاربردي در پردازش داده هاي عظيم ندارد. مورد ديگري كه بايد در پردازش داده هاي عظيم در نظر گرفته شود، اين موضوع است كه اين داده ها در برنامه هاي كاربردي به كار مي روند كه به صورت آنلاين اطلاعات را رد و بدل مي كنند و يا بايد در حالتي مورد تجزيه و تحليل قرار گيرند كه پاسخ افراد را در زمان معيني بدهند. بنابراين در امر پردازش ، زمان بندي به گونه اي است كه پاسخگويي به صورت بلادرنگ انجام شود. شيوه هاي سنتي مديريت داده، براي مديريت دادههاي بزرگ پاسخگو نيستند در مديريت داده هاي بزرگ، بايد همهي موارد ازجمله ساختارهاي دادهاي گوناگون، ابعاد مختلف دادهاي و عدم ساختار آنها در نظر گرفته شود.
دیدگاه ها