کلان داده

وبگاه مشاوران مدیریتی، تجاری و فنی کلان داده

کلان داده

وبگاه مشاوران مدیریتی، تجاری و فنی کلان داده

کلان داده
دنبال کنندگان ۱ نفر
این وبلاگ را دنبال کنید
نویسندگان
آخرین نظرات

۸ مطلب در آبان ۱۳۹۳ ثبت شده است

یکی از مهمترین دغدغه های افرادی که در حوزه کلان داده مشغول به مطالعه و تحقیق هستند تجربه عملی و پیاده سازی یک نمونه کار کلان داده می باشد. نه بدین دلیل که نیاز به فهم کامل و آزمایش نیازمندی های فنی دارند بل بخاطر تجربه (Sense) یک مورد واقعی ، چرا که با مطالعه ی اکثر مورد کاوی ها شما صرفا با خروجی کار آشنا میشوید و درکی از چگونگی  اجرای کار ندارید. عدم تعامل و درگیری با مورد واقعی می تواند یک پژوهشگر را از کارکرد اصلی و واقعی کلان داده دور سازد.

یکی از ایده های اولیه برای پیاده سازی کار نمونه ، استفاده از متخصصان حوزه پایگاه داده برای پیاده سازی بستر مناسب  و آماده به کار برای کلان داده می باشد. این کار نیازمند خرید تجهیزات و سخت افزار مناسب همچنین هزینه هایی بابت محل نگهداری و پشتیبانی می باشد. مسلما این راهکار نمی تواند به یک پژوهشگر حوزه کلان داده کمکی کند.

یکی دیگر از راهگار های پیاده سازی استفاده از نرم افزار های طراحی شده برای کلان داده می باشد. که متناسب با حجم داده نیازمندی منابع خود را تغییر میدهد. این راهکار می تواند جهت آشنایی وحتی تست یک ایده کلان داده مورد استفاده قرار گیرد. حتی در بعضی محصولات نرم افزاری کلان داده نسخه ای از نرم افزار جهت استفاده دانشجویان ارائه شده است.

یکی از کاربردی ترین و مشهورترین نرم افزار ها در این حوزه  Tableau می باشد نسخه رایگان و قابل استفاده برای کرابران عادی در وب سایت این شرکت  قابل دسترسی می باشد.

بعد از نصب و خواندن راهنمایی استفاده وکاربری از نرم افزار ، نیاز به در دسترس بودن داده های با اعتبار برای تست و پیاده سازی می باشد. در حوزه تحقیقاتی داده ها اصولا از کلیدواژه ی Dataset با هدف ارجاع به داده های معتبر و معمولا به صورت سری استفاده می شود. شما می توانید به مجموعه ای از دیتا ست ها در لینک : http://www.inside-r.org/howto/finding-data-internet  دسترسی داشته باشید.

یکی از مهمترین کاربرد های این روش استخراج نتیجه های با اعتبار جهت ارائه به مشتریان و حتی تامین محتوای معتبر برای مقالات پژوهشی می باشد.

این یادداشت صرفا جهت آشنایی پژوهشگران این حوزه با امکان پیاده سازی پروژه کلان داده به صورت ساده و کم هزینه تدوین شده است. در صورت نیاز و علاقه مندی سوالات خود را بفرمایید تا بتوانیم مفاهیم یادگرفته شده را به نحو موثرتری به حوزه عمل نزدیک کنیم. برای مثال  مجموعه های دیتا ست قابل دستیابی، نرم افزار های دیگر این حوزه (R , Datameer , splunk , ... ) و همچنین بصری سازی خروجی ها و استفاده از نرم افزار های منبع باز می تواند در کاربردی کردن و پیاده سازی نمونه کار موثر باشد. در صورت مفید و قابل استفاده بودن این یادداشت نمونه ای از روش های کاربردی و پیاده سازی به صورت جزئی تر و عملی تر در پست های بعدی بیان خواهد شد.

۰ نظر موافقین ۰ مخالفین ۰ ۱۰ آبان ۹۳ ، ۰۸:۱۳
youosf Heydari
جمعه, ۹ آبان ۱۳۹۳، ۱۱:۵۱ ب.ظ

فرصتی برای ارائه مقاله در حوزه کلان داده

هفتمین کنفرانس بین المللی مدیریت دانش در 28 و 29 بهمن ماه سال جاری برگزار خواهد شد.فرصت ارائه شفاهی و مجازی با امتیاز برابر همچنین امکان چاپ مقاله در مجلات علمی پژوهشی از مزیت های این کنفرانس می باشد. یکی از محورهای ارائه مقاله در این کنفرانس کلان داده (بزرگ داده) می باشد. دوستان علاقه مند از این فرصت می توانند استفاده نمایند. لینک kmiran.com آدرس وب سایت کنفرانس می باشد.

۰ نظر موافقین ۰ مخالفین ۰ ۰۹ آبان ۹۳ ، ۲۳:۵۱
youosf Heydari
جمعه, ۹ آبان ۱۳۹۳، ۱۱:۲۵ ب.ظ

روند ذخیره سازی داده به روایت تصویر

روند ذخیره سازی اطلاعات

۰ نظر موافقین ۰ مخالفین ۰ ۰۹ آبان ۹۳ ، ۲۳:۲۵
علیرضا اشکان
جمعه, ۹ آبان ۱۳۹۳، ۰۱:۲۷ ب.ظ

!Big Data and Kevin Spacey


«کلان‌داده در حال تغییر دادن جهان است»؛ این جمله را تا به حال زیاد شنیده‌اید. اما آیا تابه‌حال آن را از زبان یک سوپراستار نیز شنیده‌بودید؟ 


همانطور که می‌دانید سالانه همایش‌های متنوعی در زمینه کلا‌ن‌داده توسط شرکت IBM برگزار می‌شود. آخرین همایش این شرکت پهناور، ساعاتی قبل در 29 اکتبر 2014 در شهر لاس‌وگاس شروع گردید که IBM Impct 2014نام دارد. این همایش در روز اول خود، مهمان ویژه‌ای نیز داشت: «
کوین اسپیسی». بازیگر و تهیه‌کننده‌ی سرشناس آمریکایی که تاکنون 2 بار جایزه اسکار را برنده شده‌است. 

اسپیسی بالای استیج می‌رود و شروع به سخنرانی می‌کند. او از کارایی‌های کلان‌داده صحبت می‌کند. سخنان او برای کسانی که با کلان‌داده آشنا هستند دور از انتظار نیست، و از لحاظ علمی ساده و پیش‌پا افتاده به‌نظر‌می‌سد؛ ولی شنیدنش از یک بازیگر سرشناس شور و هیجانی دیگر در شنونده ایجاد می‌کند! کوین اسپیسی در این سخنرانی با اشاره به سریال House of Cards ، به این نکته صحه می‌گذارد که چگونه شرکت NETFLIX توانسته با استفاده از کلان‌داده سود خود را میلیون‌ها دلار افزایش دهد.NETFLIX شرکت آمریکایی ارائه‌دهنده خدمات آنلاین رسانه‌ای در قالب اجاره و فروش موزیک، ویدیو، فیلم و محصولات مرتبط می‌باشد. این شرکت منتشرکننده‌ی اصلی سریال House of Cards است.

جدای از مباحث گفته‌شده در این سخنرانی، چیزی که اهمیت ویژه‌ای پیدا می‌کند حرکت جمعی برای استفاده‌ی هرچه بیشتر از کلان‌داده می‌باشد. مشخص است که اسپیسی از دانش و علم فوق‌العاده‌ای در این زمینه برخوردار نیست و به طور حتم اشخاصی (ولو ناشناخته‌تر از وی) وجود دارند که در کلان‌داده تخصص و مهارت‌های بیشتری دارند. گویی خودِ اسپیسی به خوبی از این موضوع آگاه است. طوری که در شروع سخنرانی ، یکی از اولین جملاتی را که به زبان می‌آورد این است: «من اینجا چه غلطی میکنم؟!»

با این وجود، اجازه سخنرانی به اسپیسی داده‌شده‌است. به نظر می‌رسد « افزایش آگاهی و جلب توجه جامعه » از اهداف اصلی شرکت‌ IBM در دعوت از یک سوپراستار برای سخنرانی بوده‌باشد. به طور حتم این افزایش جلب توجه، به طور مستقیم بر سود سازمان‌هایی که در زمینه مشاوره‌ای کلان ‌داده فعالیت می‌کنند (از جمله IBM) تاثیر بسزایی خواهد گذاشت. 

به نظر شما چه دلایل دیگری برای انجام چنین سخنرانی‌هایی می‌تواند وجود داشته‌باشد؟

پ.ن: برای دیدن ویدئوی کامل روز اول همایش اینجا و برای دیدن قسمتی از حضور اسپیسیاینجا را کلیک کنید.

۱ نظر موافقین ۰ مخالفین ۰ ۰۹ آبان ۹۳ ، ۱۳:۲۷
بهنام شوشتری
پنجشنبه, ۸ آبان ۱۳۹۳، ۱۰:۴۸ ب.ظ

کلان داده، داده بهتری است!

در این بخش می خواهیم تفاوت داده های قدیم با کلان داده را بیان کنیم. به این مثال توجه کنید:

از روی آمار خرید کیک در آمریکا می توان گفت که پای سیب محبوب ترین کیک در این خطه است. پس از مدتی که کیک های 30 سانتی متری به 11 سانتی متری تبدیل شد، آمار خرید به 4امین 5امین کیکی تنزل کرد.به عنوان تحلیلی روی داده های ساده میتوان گفت ذائقه ها عوض شده است. ولی اگر به عنوان کلان داده به این مبحث بنگریم می بینیم که با آمدن کیک های 11 سانتی متری پای سیب که مصرف فردی دارند آمار خرید به اولین ترجیح آدم ها سوق پیدا کرده است در حالی که در خرید کیک 30 سانتی متری ترجیح کلی خانواده ها اولویت پیدا می کرد.


در گذشته های دور نیز نیاز به ذخیره داده بوده است. در آن زمان اطلاعات غیر قابل تغییر در ابعاد بزرگ و روی احجام سنگین ذخیره می شدند. ولی امروزه در حجم کوچکی اطلاعات قابل تغییر ذخیره می کنند. دیسکی که متعلق به 4000 سال پیش، یافت شده است این دیسک مقدار کمی اطلاعات دارد حال آنکه دیسک های امروزی اطلاعات بسیار زیادی را در حجم کمتر ذخیره و پردازش می کنند.


  این حرکت ادامه دارد و اطلاعات را از حالت استاتیک به دینامیک تغییر می دهد. میتوان تغغیر روند یعنی جریان ثابت و ساکن داده  به جریان داده حس کرد.

 به عنوان مثالی از آینده این روند می توان به ماشین ها اشاره داشت. فکر کنید که داده ها آنقدر شخصی سازی شوند که به ازای نشستن هر فرد ماشین بتواند حالت های مختلف او را تشخیص دهد، در این صورت اگر شخصی پشت فرمان خوابش بگیرد ویبره ماشین فعال شده و می تواند شخص را آگاه کند.


نمونه ای انجام شده از داده های درست ماشین شطرنج باز است. توسعه دهنده این نرم افزار پس از انکه آنرا نوشت دید که ماشین تنها می تواند حرکت های درست را بازی کند بنابراین اکثرا می باد. کاری که انجام شد این بود که برای آموزش دستگاه اجازه داده شد که دستگاه با خودش بازی کند و قابلیت پیش بینی پیدا کند. پس از آن دیگر توانست افراد را شکست دهد.

میبینیم که میتوان با استفاده درست از داده، آن را ارزشمندتر کرد و با استفاده بهینه از آن کاراییش را افزایش داد.


منبع: ویدیو TED  از Kenneth Cukier با نام  Big data is better data

۰ نظر موافقین ۰ مخالفین ۰ ۰۸ آبان ۹۳ ، ۲۲:۴۸
علیرضا اشکان
پنجشنبه, ۸ آبان ۱۳۹۳، ۱۰:۰۵ ب.ظ

چگونه فقط داده های مفید را ذخیره سازی کنیم؟

دنیای امروز در جهتی حرکت می کند که داده در سازمان ها به یکی از ارزشمندترین سرمایه ها بدل شده است. IDC تخمین می زند که هر 18 ماه داده های سازمان ها 2 برابر می شود. میتوان تصور کرد سازمان ها در آینده ای نزدیک با چه حجمی از داده ها روبرو هستند. یافتن مطالب دلخواه از بین این اطلاعات که به فرمت های گوناگون وجود دارند کار هزینه بر و زمان بری خواهد بود. فکر کنید از بین 100000 فیلم میخواهید فیلم مورد علاقه خود را از شاخه مربوط به خود بیابید این کار حتی در زمانی که فهرست بندی داشته باشیم باز هم مشکل است. برای اینکه بتوان از داده های سازمان استفاده کرد باید از رشد بی رویه اطلاعات به درد نخور جلوگیری کرد.برای این امر استراتژی بسیار ساده و کارآمدی وجود دارد. محدودیت هایی برای نوع داده ذخیره شده وضع کنیم و بعد هر چه بیشتر در آن محدودیت ها داده جمع کنیم.

اما نکته حائز اهمیت برای سازمان های ایرانی که در ابتدای راه جمع آوری و تحلیل داده در حجم و سرعت بالا هستند، استفاده از این ذخیره سازی داده است. در زیر برخی از مهمترین راهکارهای حیاتی و سود آور در این حوزه را اشاره می کنیم.

اگر حمایت سرمایه گذاران باشد، charge back راهکار خوبی است که به ازای هر هزینه ای که برای داده صرفه جویی می شود به چرخه سازمان تزریق شود تا اهمیت داده در سازمان جا بیافتد.

جلوگیری از ذخیره سازی چند باره اطلاعات مشابه می تواند تا 10 برابر از نشر داده اضافی جلوگیری کند.

می توان زیر ساخت های مجزایی برای برخی از داده های مهم مانند ضمیمه های ایمیل فراهم کرد تا بتوان بدون نیاز به بازیابی تمامی داده های حاشیه ای به اصل داده های مهم دست پیدا کرد.

مدیریت چرخه عمر ذخیره سازی داده یکی از مهمترین روش ها است. با این کار دقیقا می دانیم که چه زمانی باید داده های قدیمی را حذف کنیم و چه زمانی باید داده جدید را وارد این چرخه کنیم.برای این امر احتمالا به metadata نیاز است که از داده های ساختارمند منتج می شود
DO OR DIE-How to survive the data explosion:infoworld.com,Aug 22, 2014
مهم نیست چقدر در زمینه ذخیره سازی هوشمند داده تلاش می کنید و از ترکیب چه روش هایی استفاده می کنید، باید بدانیم اگر سازمانی از داده های خود استفاده نکند و یا در حجم وسیعی تولید کند که عملا برای خودش قابل تحلیل نباشد دیر یا زود یا ناچار به این کار می شود یا از صحنه کسب و کار اخراج خواهد شد.

منابع
[ How to survive the data explosion:infoworld.com,Aug 22, 2014]
[Finding gems in big data archives:infoworld.com:Apr 11, 2013]

۰ نظر موافقین ۰ مخالفین ۰ ۰۸ آبان ۹۳ ، ۲۲:۰۵
علیرضا اشکان

همایش داده های عظیم با هدف شناسایی چالش های فناورانه و آشنایی با حوزه های کسب و کار آن در دی ماه ۱۳۹۳ برگزار می شود.

آدرس اینترنتی همایش:

http://ictssbigdata.itrc.ac.ir

۰ نظر موافقین ۱ مخالفین ۰ ۰۸ آبان ۹۳ ، ۱۴:۲۴
هادی ستوده

متن خبر:
بنیاد ملی علم ایالات متحده آمریکا استراتژی آینده در حوزه آموزش و تحقیقات کلان داده را مشخص کرده است که در آن تشویق دانشگاه های تحقیقاتی به منظور ایجاد رشته های درسی مرتبط با این حوزه برای تربیت نیروی انسانی مورد نیاز ( دانشمند داده و ...) به منظور بر عهده گرفتن شغل های متناسب با این حوزه در بازار کار ذکر شده است.
منبع خبر:
http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf

۰ نظر موافقین ۱ مخالفین ۰ ۰۸ آبان ۹۳ ، ۱۲:۰۵
هادی ستوده