تعرف على تصميم بحيرات البيانات في Oracle Cloud

استكشف كيف يمكن لمؤسستك الترحيل من بحيرة بيانات محلية إلى Oracle Cloud Infrastructure (OCI). وتتصدى المنظمات التي لديها بحيرات بيانات محلية لتحديات ارتفاع التكاليف الأولية وتكاليف الصيانة. وعليهم تخطيط البنية التحتية وشرائها وإدارتها والتعامل مع أحمال العمل غير المتكافئة. يمكن أن يكون من الصعب تحسين بحيرات البيانات المحلية لاستخدام الموارد وعدم استخدام موارد الخادم بكفاءة. تمكنك الخدمات السحابية من فصل الحوسبة والتخزين وتوسيع نطاقهما بشكل مستقل، مع توفير بيئة متكاملة وجيدة الإدارة ومرنة للغاية.

يوفر OCI مجموعة قوية وشاملة من بيانات البنية الأساسية والنظام الأساسي السحابي وخدمات الذكاء الاصطناعي للوصول إلى مجموعة واسعة من أنواع البيانات من أي مصدر وتخزينها ومعالجتها. يتيح OCI إمكانية تنفيذ هياكل الذكاء الاصطناعي والبيانات الشاملة على السحابة. يوفر لك دفتر تشغيل الحل هذا نظرة عامة على الخدمات الأساسية التي تساعدك على إنشاء بحيرات البيانات والتعامل معها في OCI. تعرف أيضًا على الخدمات المتاحة الأخرى، ويمكنك تصميم حلول بحيرة البيانات استنادًا إلى بعض الأنماط التي تم فحصها وتوجيهات الخبراء.

البنية

يجمع هذا الهيكل بين قدرات بحيرة البيانات ومستودع البيانات لمعالجة أنواع مختلفة من البيانات من مجموعة واسعة من موارد بيانات المؤسسة. استخدم هذه البنية لتصميم هياكل بحيرة البيانات الشاملة في OCI.

يعرض هذا المخطط بنية عالية المستوى لبيانات Oracle وخدمات الذكاء الاصطناعي.

فيما يلي وصف data-lakes.png
وصف الشكل التوضيحي data - akes.png

في هذه البنية، تنتقل البيانات عبر هذه المراحل:

  • Data Refinery

    إدخال البيانات وتنقيحها لاستخدامها في كل طبقة من طبقات البيانات في البنية.

  • استمرار البيانات ومعالجتها (طبقة المعلومات المقومة)

    تسهيل الوصول إلى البيانات والتنقل إليها لإظهار طريقة عرض الأعمال الحالية. بالنسبة للتكنولوجيات العلائقية، قد تكون البيانات هيكلية منطقيًا أو ماديًا في نماذج علائقية بسيطة أو طولية أو أبعاد أو OLAP. بالنسبة للبيانات غير المتكررة، تحتوي هذه الطبقة على مجمع بيانات واحد أو أكثر، إما مخرجات من عملية تحليلية أو بيانات محسنة لمهمة تحليلية محددة.

  • الوصول والتفسير

    تلخيص طريقة عرض الأعمال المنطقية للبيانات للمستهلكين. وييسر هذا التجريد التطوير السريع، والانتقال إلى الهيكل المستهدف، وتوفير طبقة إبلاغ واحدة من مصادر اتحادية متعددة.

تشتمل هذه البنية على المكونات التالية:

  • خدمة البيانات الكبيرة

    خدمة Oracle Big Data (BDS) هي خدمة سحابية مؤتمتة ومدارة بالكامل توفر مجموعات مع بيئة Hadoop. يجعل BDS من السهل على العملاء نشر مجموعات Hadoop بجميع الأحجام وتبسيط عملية جعل مجموعات Hadoop متاحة وآمنة على حد سواء. استنادًا إلى أفضل ممارسات Oracle، يقوم BDS بتنفيذ توفر وأمان كبيرين، ويقلل الحاجة إلى مهارات Hadoop المتقدمة. يوفر BDS مكونات Hadoop الشائعة الاستخدام مما يسهل على المؤسسات نقل أحمال العمل إلى السحابة ويكفل التوافق مع الحلول المحلية.

    Oracle Cloud SQL هي خدمة إضافية متاحة تتيح للعملاء بدء استعلامات Oracle SQL على البيانات في HDFS وKafka وOracle Object Storage. يمكن لأي مستخدم أو تطبيق أو أداة تحليلات التعامل مع مخازن البيانات لتقليل حركة البيانات وسرعة الاستعلامات. يعمل BDS مع تكامل البيانات وعلوم البيانات وخدمات التحليل، مع تمكين المطورين من الوصول بسهولة إلى البيانات باستخدام Oracle SQL. ويمكن للمؤسسات أن تزيل صواريخ البيانات وأن تضمن عدم عزل بحيرات البيانات عن مصادر بيانات الشركات الأخرى.

  • دليل البيانات

    كتالوج بيانات Oracle Cloud Infrastructure عبارة عن اكتشاف بيانات ذاتية الإدارة وحل حوكمة لبيانات المؤسسة. تعتبر كتالوجات البيانات أساسية لقدرة المؤسسة على البحث عن البيانات وتحليلها والبحث عنها. وتساعد أخصائيي البيانات على اكتشاف البيانات ودعم إدارة البيانات.

    استخدم كتالوج البيانات باعتباره بيئة تعاونية واحدة لإدارة الميتاديتا الفنية والتجارية والتشغيلية. يمكنك جمع الميتاديتا الفنية من نطاق واسع من مصادر البيانات المدعومة التي يمكن الوصول إليها باستخدام عناوين IP العامة أو الخاصة. يمكنك تنظيم بيانات التعريف هذه والبحث عنها والوصول إليها وفهمها وإثرائها وتنشيطها. استخدام الحصاد الآلي حسب الطلب أو على أساس الجدول للتأكد من اشتمال كتالوج البيانات دائمًا على أحدث المعلومات. يمكنك الاستفادة من كل أمان Oracle Cloud وموثوقيته وأدائه ومداه.

  • تدفق البيانات

    Oracle Cloud Infrastructure Data Flow خدمة مدارة بالكامل لتشغيل تطبيقات Apache Spark. تطبيقات تدفق البيانات هي قوالب قابلة لإعادة الاستخدام تتكون من تطبيق Spark والتبعيات الخاصة به والمعلمات الافتراضية ومواصفات مورد وقت التشغيل الافتراضية. يمكنك إدارة كل جوانب تدفق البيانات ودورة حياة تطوير التطبيق وتتبع وتنفيذ وظائف Apache Spark باستخدام واجهات برمجة تطبيقات REST من خلال جيت واي API والوظائف المتاحة.

    يدعم تدفق البيانات التسليم السريع للتطبيقات من خلال السماح للمطورين بالتركيز على تطوير تطبيقاتهم. توفر إدارة السجلات وبيئة وقت التشغيل لتنفيذ التطبيقات. يمكنك تكامل التطبيقات وعمليات سير العمل والوصول إلى واجهات API من خلال واجهة المستخدم. وهو يزيل الحاجة إلى إعداد البنية التحتية، وتوفير المجموعات، وتثبيت البرامج، والتخزين، والأمان.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse هي خدمة قاعدة بيانات ذاتية التوجيه والتأمين والإصلاح يتم تحسينها لأحمال عمل تخزين البيانات. لست بحاجة إلى تكوين أي جهاز أو إدارته، أو تثبيت أي برنامج. يعالج Oracle Cloud Infrastructure تكوين قاعدة البيانات، بالإضافة إلى النسخ الاحتياطي والتصحيح والترقية وتوسيع قاعدة البيانات.

  • تكامل البيانات

    يعد Oracle Cloud Infrastructure Data Integration خدمة سحابية مدارة بالكامل وخادمة لاستكمال البيانات وتحويلها لعلوم البيانات والتحليلات. يساعد تكامل البيانات على تبسيط عمليات استخراج البيانات المعقدة وتحويلها وتحميلها (ETL/E - LT) إلى بحيرات بيانات ومستودعات لعلوم البيانات والتحليلات باستخدام مصمم تدفق البيانات في Oracle. وهو يوفر حماية تلقائية لسحب مخطط قاعدة البيانات مع تدفق التكامل المستند إلى القواعد الذي يساعدك على تجنب تدفقات التكامل المعطلة وتقليل الصيانة مع تطور مخططات البيانات.

  • علوم البيانات

    يعد Oracle Cloud Infrastructure Data Science نظامًا أساسيًا مدارًا بالكامل وخادمًا لعلماء البيانات لإنشاء نماذج التعلم الآلي وتدريبها وإدارتها على Oracle Cloud Infrastructure. يمكن لعلماء البيانات استخدام مكتبة Oracle Data Science (ADS) المعجلة التي تم تحسينها بواسطة Oracle لتعلم الآلة (AutoML) وتقييم النموذج وشرح النموذج.

    ADS هي مكتبة Python تحتوي على مجموعة شاملة من اتصالات البيانات، مما يسمح لعلماء البيانات بالوصول إلى البيانات من العديد من مخازن البيانات المختلفة واستخدامها لإنتاج نماذج أفضل. تدعم مكتبة ADS AutoML الخاصة بـ Oracle، بالإضافة إلى أدوات مفتوحة المصدر مثل H2O.ai والكشف التلقائي.

    يمكن لعلماء البيانات ومسئولي البنية التحتية نشر نماذج علوم البيانات بسهولة مثل Oracle Functions، وبنية عالية التوسيع، وعند الطلب، وخادمة في OCI. يمكن لأعضاء الفريق استخدام كتالوج النماذج للحفاظ على نماذج التعلم الآلي المكتملة والبيانات الاصطناعية اللازمة لاستنساخها واختبارها ونشرها ومشاركتها.

حول بحيرات البيانات

بحيرة البيانات هي مستودع مركزي قابل للتوسيع يمكنه تخزين البيانات الأولية وتمكين المؤسسة من تخزين كل بياناتها في بيئة مرنة وفعالة من حيث التكلفة. توفر بحيرة البيانات آلية تخزين مرنة لتخزين البيانات الأولية. ولكي تكون بحيرة البيانات فعالة، يجب على المنظمة أن تدرس احتياجاتها المحددة في مجال الحوكمة، وتدفقات العمل، والأدوات. ويؤدي البناء حول هذه العناصر الأساسية إلى إنشاء بحيرة بيانات قوية تدمج بسلاسة في الهياكل الموجودة وتربط البيانات بسهولة بالمستعملين.

تراعي المؤسسات هذه الأسباب أثناء الانتقال إلى عمليات نشر سحابة بحيرة البيانات:
  • تسريع الوقت لاتخاذ القرارات من خلال الاستفادة من التحليلات والتعلم الآلي
  • جمع واستخراج البيانات الكبيرة لعلماء البيانات والمحللين والمطورين

لجعل البيانات غير الهيكلية المخزنة في بحيرة بيانات مفيدة، يجب معالجتها وإعدادها للتحليل. غالبًا ما يكون هذا تحديًا إذا لم تكن لديك موارد هندسة بيانات واسعة النطاق.

فيما يلي قائمة بالتحديات التقنية لصيانة بحيرات البيانات المحلية.

  • التكاليف الأولية والافتقار إلى المرونة: عندما تقوم المؤسسات ببناء بنيتها التحتية المحلية الخاصة بها، يجب عليها تخطيط البنية الأساسية للأجهزة وشرائها وإدارتها، وتوسيع نطاق الخواديم، وكذلك التعامل مع حالات الانقطاع المؤقت ووقت التوقف.
  • تكاليف الصيانة الجارية: عند تشغيل بحيرة بيانات محلية، يظهر معظمها في تكاليف تكنولوجيا المعلومات والهندسة، يجب على المنظمات أن تراعي تكاليف الصيانة الجارية. ويشمل ذلك أيضا تكاليف تصحيح وصيانة وتحسين ودعم الهياكل الأساسية الأساسية للأجهزة والبرامج.
  • الافتقار إلى المرونة والمهام الإدارية: يجب على مؤسسات تكنولوجيا المعلومات توفير الموارد، ومعالجة أحمال العمل غير المتكافئة على نطاق واسع، ومواكبة وتيرة الابتكار السريع في البرمجيات المفتوحة المصدر والقائم على المجتمع المحلي.
  • تعقيد إنشاء خطوط أنابيب البيانات: يجب على مهندسي البيانات التعامل مع تعقيد تكامل مجموعة واسعة من الأدوات مع مهام ETL للدفعة وتنظيمها ومعالجتها مسبقًا وتنظيمها والاستعلام عن البيانات المخزنة في البحيرة.
  • قابلية التوسع واستخدام الموارد دون الأمثل: مع نمو قاعدة المستخدم، يجب على التنظيم إدارة استخدام الموارد يدويًا وتكوين خوادم إضافية للتوسع عند الطلب. تقوم معظم عمليات النشر المحلية في Hadoop وSpark بربط موارد الحوسبة والتخزين مباشرة بنفس الخوادم التي تقوم بتكوين نموذج غير مرن.

فيما يلي سرد لمزايا الأعمال لنقل بحيرات البيانات إلى السحابة.

  • انخفاض التكاليف الهندسية والخدمات المدارة: بناء خطوط أنابيب بيانات متكاملة مسبقًا بكفاءة أكبر باستخدام أدوات مستندة إلى السحابة وخفض تكاليف هندسة البيانات. نقل إدارة التوسيع إلى موفر الخدمة السحابية باستخدام الخدمات السحابية مثل تخزين الكائنات وAutonomous Data Warehouse (ADW) التي توفر توسعًا شفافًا. لست بحاجة إلى إضافة آلات أو إدارة مجموعات في بحيرات البيانات المستندة إلى السحابة.
  • الاستفادة من البنية الأساسية المرنة وأحدث التقنيات: قم بتصميم بحيرة بياناتك لحالات الاستخدام الجديدة باستخدام بنيتنا الأساسية السحابية المرنة والمرنة حسب الطلب. يمكنك الترقية بسرعة إلى أحدث التقنيات وإضافة خدمات سحابية جديدة عندما تصبح متاحة، دون إعادة تصميم بنيتك.