بگ ڈیٹا

آزاد دائرۃ المعارف، ویکیپیڈیا سے
Jump to navigation Jump to search

بگ ڈیٹا کی کوئی متعین تعریف نہیں ہے مگر عمومی طور پر اس کا اطلاق بڑے ڈیٹا سیٹ اور ٹیکنالوجی اور کمپیوٹنگ کی ایسی تکنیک جو بڑے ڈیٹا سیٹ کو سنبھال سکے پر ہوتا ہے۔ بڑے ڈیٹا سیٹ سے مراد ایسا ڈیٹا ہے جو اتنا بڑا اور پیچیدہ ہو کہ روایتی سافٹ ویئر یا اطلاقیے اس پر مختلف کارروائیاں انجام دینے کے لیے ناکافی ہوں۔ نیز اس کے مفہوم میں یہ بھی داخل ہے کہ بڑے ڈیٹا سیٹ کا حجم مسلسل بڑھ رہا ہے۔

بگ ڈیٹا پر کام کرنے کی بنیادی شرائط وہی ہیں جو کسی بھی ڈیٹا سیٹ کی ہیں البتہ حجم، رفتار، عمل کاری اور ڈیٹا کی خصوصیات پرانے ڈیزائن اور طریقوں کی افادیت کو کم کرتے ہیں اور نئے قد آور چیلنج پیش کرتے ہیں۔ بگ ڈیٹا کو درپیش چیلنجوں میں ڈیٹا کا حصول، ذخیرہ اور اس کا تجزیہ، نیز ڈیٹا میں تلاش، شیئر، منتقلی، تصویر سازی (visualisation)، استفسار (query)، رازداری وغیرہ شامل ہیں۔

تصورات[ترمیم]

بگ ڈیٹا کے ساتھ بہت سے تصورات وابستہ ہیں مگر تین بڑے تصورات مندرجہ ذیل ہیں:

  • مقدار
  • تنوع
  • رفتار

سنہ 2001ء میں گارٹنر کے ڈوگ لینی نے ایک مقالہ پیش کیا جس میں مقدار، رفتار اور تنوع (three Vs of big data) کی مدد سے عمومی data processing کو بگ ڈیٹا سے منفرد دکھایا گیا۔

مقدار[ترمیم]

بڑے پیمانے پر معلومات کی عمل کاری بگ ڈیٹا کی تعریف میں مدد دیتی ہے۔ یہ ڈیٹا سیٹ روایتی ڈیٹا سیٹ سے کئی گنا بڑے ہو سکتے ہیں، جو سٹوریج اور پروسیسنگ کے ہر مرحلے پر زیادہ غوروخوص کی دعوت دیتے ہیں۔

عموما کام کی شرائط واحد کمپیوٹر کی صلاحیتوں سے بڑھ کر ہوتی ہیں اس لیے مختلف کمپیوٹر کے گروپ سے گروہ بندی، وسائل مختص اور مربوط کرنا ایک چیلنج بن جاتا ہے۔ cluster management اور الگورتھم جو کام کو چھوٹے ٹکڑوں میں بانٹ سکیں بہت زیادہ اہمیت کے حامل ہو جاتے ہیں۔

تنوع[ترمیم]

بگ ڈیٹا کے مسائل عموما منفرد ہوتے ہیں جس کی وجہ ذرائع کا تنوع اور ان کا نسبتی معیار ہے۔

بگ ڈیٹا کے مسائل اکثر منفرد ہوتے ہیں بوجوہ  ذرائع عمل درآمد اور ان کے نسبتی معیار، دونوں کی وسیع رینج کی وجہ سے

ڈیٹا داخلی نظام جیسے اطلاقیے اور سرور لاگ، سوشل میڈیا فیڈ اور دیگر بیرونی APIs سے، جسمانی ڈیوائس سینسر سے اور دیگر فراہم کرنے والے سے اخذ کیا جا سکتا ہے۔ بگ ڈیٹا ممکنہ طور پر مفیدڈیٹا کو اس طرح برتنا چاہتا ہے کہ ایک ہی نظام میں تمام معلومات کو مجتمع ہو جائے، چاہے وہ کہیں سے ہو۔ ذرائع ابلاغ کا فارمیٹ اور قسمیں نمایاں طور پر مختلف ہوتی ہیں۔ تصاویر، ویڈیو فائلوں اور آڈیو ریکارڈنگز جیسے  جاندار  ذرائع ابلاغ ٹیکسٹ فائلوں، ساختیاتی لاگز وغیرہ کے ساتھ اخذ ہوتے ہیں۔ اگرچہ زیادہ روایتی ڈیٹا پروسیسنگ سسٹم  میں  ڈیٹا پہلے سے لیبل، فارمیٹ اور منظم ہو  کر  پائپ لائن میں داخل ہونے کی توقع ہو تی ہے، بگ ڈیٹا سسٹم عام طور پر اپنے خام حالت  کے قریب ڈیٹا قبول  اور محفوظ کرتے ہیں۔

مثالی طور پر، پروسیسنگ کے وقت خام ڈیٹا میں کوئی تبدیلی یا کایاپلٹ میموری میں ہو  گی۔

رفتار[ترمیم]

دوسرا راستہ جس میں بگ ڈیٹا  دیگر ڈیٹا سسٹمز سے نمایاں طور پر مختلف  ہے وہ رفتار ہے جس سے   معلومات نظام میں چلتی ہے۔ ڈیٹا متعدد ذرائع سے نظام میں کثرت سے روا  رہا ہے اور اکثر حقیقی وقت میں عملدرآمد  کی توقع کی جاتی ہے تاکہ بصیرت حاصل کرسکیں اور نظام کی موجودہ تفہیم کو اپ ڈیٹ کریں۔ اس  فوری تاثرات پر  توجہ نے بہت سے بگ ڈیٹا  کے پیشہ وروں کوکھیپ  پر مبنی نقطہ نظر سے دور اور  حقیقی وقت  پر چلنے والے نظام کے قریب کر دیا ہے۔

ڈیٹا  مسلسل شامل اور تبدیل ہوتا ہے اور اس پر عمل اور تجزیہ کیا جاتا ہے تاکہ نئی معلومات کی آمد کے ساتھ مطابقت رکھی جائے اور قیمتی معلومات جلد  ظاہر کی جائے جب یہ سب سے زیادہ متعلقہ ہو۔ یہ خیالات قوی نظام کے متقاضی ہیں جو دستیاب اجزا کے ذریعہ ڈیٹا پائپ لائن کے ساتھ ناکامی کے خلاف حفاظت کے لیے رہیں۔