ابراهيم البنانى


مؤسسة الامام العربى .الهندسية للالكترونيات
 
الرئيسيةالبوابةالتسجيلدخول

شاطر | 
 

 كنز الانترنت

استعرض الموضوع السابق استعرض الموضوع التالي اذهب الى الأسفل 
كاتب الموضوعرسالة
ابراهيم
المشرف العام
المشرف العام
avatar

ذكر عدد المساهمات : 4536
نقاط : 13294
السٌّمعَة : 262
تاريخ التسجيل : 27/07/2009
العمل/الترفيه : اعمال حرة

مُساهمةموضوع: كنز الانترنت   السبت أغسطس 29, 2009 4:33 am

بسم الله الرحمن الرحيم






من أهم المشاكل التي يواجهها المستخدم لشبكة الإنترنت هي «تسونامي المعلومات». إنه كابوس يؤرِّق كل مبحر في بحر الشبكة العنكبوتية، فقد أصبحت تتولد للمستخدم مشاكل عدَّة نتيجة للكم الهائل المطرد في الزيادة لشبكة الويب العالمية.
فبسبب التطور السريع والمذهل التي تتميز به الشبكة العنكبوتية، فإن جل الدراسات لا تستطيع إلا تقدير عدد المواقع الإلكترونية المنتشرة في العالم الافتراضي، حيث تقوم بحساب فقط الصفحات التي تتم فهرستها من قبل محركات البحث، أي ما يسمى بالويب الظاهرية.
إن عدد المواقع الإلكترونية في ارتفاع مستمر، حيث سجل خلال شهر ديسمبر 2007 ازديادا قدره 5.4 مليون في الشهر ليبلغ عدد المواقع تقريبا 156 مليون موقع إلكتروني في يناير 2008، وحسب بحث قامت به شركة Netcraft فإن عدد المواقع الإلكترونية الجديدة للعام 2007 قُدِّر بـ 50 مليون موقع إلكتروني. هذا العدد أكبر من 2006 التي بلغ فيها عدد المواقع الجديدة 30 مليونا. ونظرا لارتفاع عدد المواقع الإلكترونية وبالخصوص المدونات والمواقع الاجتماعية التي عرفت ازديادا كبيرا على الأقل 25.99 بليون صفحة (بتاريخ 3 يوليو 2008)، هذا الرقم تم التوصل إليه من خلال تقديرات عدد الصفحات التي تمت فهرستها من قبل محركات البحث Google، وMsn Search)، Yahoo Search وAsk http://www.worldwidewebsize.com).
وبسبب هذا الانفجار المعلوماتي فإن مستخدم الإنترنت بحاجة إلى آليات للبحث في هذا الكم الهائل من المعلومات، فكثير من المستخدمين يتراجعون عن البحث في الشبكة العنكبوتية بسبب المتاهات والصعوبات التي تعترضهم في أثناء رحلة البحث عن المعلومات. كما أن جل «المبحرين» لا يعرفون إلا وسيلة وحيدة هي محركات البحث، خصوصا المحرك الشهير Google الذي لا يغطي سوى %75 من الويب الظاهرية ولا يمثل سوى 1 إلى 2 في الألف من الويب الخفية!







ما هي «الويب»؟
الويب أو الشبكة العنكبوتية العالمية World Wide Web (اختصارا Web أو WWW) هي نظام من مستندات النص الفائق المرتبطة ببعضها hypertext، هذا الترابط المتداخل (Hyperlinking) بين النصوص في الشبكة العالمية يسمح بالانتقال فيما بين الصفحات باستعمال متصفح إنترنت. وصفحات الويب من الممكن أن تحتوي على نصوص، وصور، وأصوات، وفيديو.. ويقوم بتوفير هذه الصفحات في الإنترنت جهاز الخادم Server، الذي يقوم بإرسال الصفحات، ومحتوياتها بناء على الطلب من متصفح الويب.
هناك نوعان من صفحات الويب: الويب السطحية والويب العميقة.

الويب السطحية Surface Web
تسمَّى الويب السطحية كذلك بالويب الظاهرية أو بشكل أدق «الويب المفهرسة» بمعنى صفحات الويب التي تقوم محركات البحث بفهرستها. فكما تطرقنا في مقالات سابقة إلى عملية البحث في الإنترنت (انظر «البحث الذكي في الإنترنت في حلقات نُشرت بجريدة «العرب» خلال شهر مارس 2008) فإن عمل محرك البحث مكون من ثلاثة أجزاء متكاملة:
1- البرنامج الآلي (Robot) أو برنامج العنكبوت (spider): هذا البرنامج أيضاً يسمى الزاحف (crawler) لأنه يُبحر في الإنترنت لزيارة صفحات الويب والاطلاع على محتوياتها، ويأخذ هذا البرنامج مؤشرات وعناوين تلك المواقع.
2- المفهرس (Indexer): برنامج يقوم بفهرسة كل الوثائق التي قام البرنامج الآلي بأخذ نسخ منها، حيث يقوم بجرد الوثيقة لاستخراج محتواها من مصطلحات وتعبيرات يتم اختيارها وفق ترتيب معين للأهمية.
3- واجهة البحث (Interface): الجانب المرئي من محرك البحث، حيث تسمح للمستخدم بتحديد كلمات البحث.
إن كل محركات البحث تستخدم زواحف الشبكة وتتنقل من موقع إلكتروني إلى آخر، حيث تقوم بالإبحار باستمرار على الشبكة بزيارة صفحات الويب والاطلاع على محتوياتها، ثم تقوم بأرشفة الصفحات مع أخذ مؤشرات تلك المواقع وعناوينها. بالإضافة إلى صور ومعلومات أخرى. بعد ذلك تأتي عملية الفهرسة، حيث يتدخل برنامج لفهرسة كل الوثائق التي قام البرنامج الآلي بأخذ نسخة منها، وتتم هذه العملية بجرد كل محتوى الوثيقة لاستخراج محتواها من مصطلحات وتعبيرات يتم اختيارها وفق ترتيب معين للأهمية التي تكتسبها داخل الوثيقة. وأخيرا، يقوم البرنامج المفهرس بإعطاء أولوية تنازلية لأماكن وجود المصطلحات: العنوان الإلكتروني للوثيقة (URL) تليه بيانات التعريف (Metadata) على مستوى رأس الوثيقة ثم العناوين والعناوين الفرعية فبقية النص من بدايته إلى نهايته، وتضاف كل هذه المصطلحات داخل كشاف موحد يكون منطلقا لعمليات البحث.
عندما يقوم المستخدم بكتابة كلمة مفتاحية في خانة البحث، يتم إرسال الطلب إلى البرنامج فيدخل إلى قاعدة البيانات المتوافرة لدى الشركة التي تقدم خدمة البحث فيقوم النظام بالتأكد من وجود المصطلحات المستعملة داخل الفهرس ثم يتم عرض النتيجة.
لكن السؤال الذي يُطرح هو: هل محرك البحث هو أحسن وسيلة للوصول إلى المعلومات؟

الويب العميقة Deep Web
على عكس الصفحات في الويب المرئية Web visible فإن المعلومات في قواعد البيانات عموماً لا تصل إليها عناكب البحث التي تشكل فهارس محركات البحث، وبالتالي لا تستطيع هذه المحركات أو لن تستطيع أبداً رؤيتها.
الويب المخفية أو الويب العميقة Deep Web أو الويب غير المرئية Web invisible.. كلها مصطلحات تشير إلى صفحات الويب غير المفهرسة من طرف محركات البحث أو غير المتواجدة بشكل كلي في قاعدة بيانات محركات البحث وبالتالي لن يصل إليها مستخدم الإنترنت إذا اتبع الطرق التقليدية في البحث عن المعلومة، إذ إن جل المبحرين في العالم الافتراضي لا يستعملون إلا محركات البحث وبالأخص محرك البحث الشهير GOOGLE.
تعتبر الويب العميقة الجزء غير الظاهر من الشبكة المعلوماتية، وتتكون من موارد متنوعة:
• قواعد بيانات متخصصة: مجانية أو بالمقابل.
• صفحات ويب محمية باسم المستخدم وكلمة المرور مما لا يسمح بعملية فهرستها من طرف محركات البحث.
• صفحات «يتيمة» أي غير مرتبطة بصفحات أخرى ولا تشير إليها.
• صفحات من النوع الذي لا يمكن لمحركات البحث إيجادها.
يعتبر محتوى الويب العميقة أكبر من محتوى الويب الظاهرية بنحو 99 مرة على أقل التقديرات و500 مرة في أكثرها مبالغة، كما أن جودة المعلومات في الويب الخفية أفضل من الويب المفهرسة ويمكن الوثوق بهذا النوع من الصفحات.

كيفية الوصول إلى الويب العميقة
يمكن الوصول إلى الويب العميقة عبر الدخول إلى الأدلة الموضوعاتية أو بعض المحركات المتخصصة في هذا النوع من الويب. كما يمكن استعمال محركات البحث العادية بتركيز البحث في المواقع الإلكترونية التي تعتمد قواعد البيانات وبالأخص محركات البحث الأكاديمي (مثلا قامت شركة google في السنوات الأخيرة بإضافة خدمة جديدة للبحث عن المقالات الأكاديمية والأبحاث العلمية أطلق عليها «الباحث العلمي» Google Scholar).
كما ظهرت في السنوات الأخيرة أدوات لاستخراج المعلومات من الويب العميقة (محركات البحث وأدلة موضوعاتية، مكتبات على النت ومواقع متخصصة...) مثل محرك البحث www.mooter.com، أو الموقع الإلكتروني www.archive.org الذي يقوم بأرشفة كرونولوجية لصفحات الويب.
وأخيرا على الحكومات والمنظمات في العالم العربي أن تتحمل المسؤولية في تثقيف مستخدمي الإنترنت حتى يتمكنوا من الاستغلال الأمثل للشبكة العنكبوتية وذلك عبر تنظيم دورات تكوينية حول ليس فقط استعمال محركات البحث ولكن كذلك كيفية استغلال الويب العميقة أو «كنز الإنترنت» الذي لا ينضب!!

الرجوع الى أعلى الصفحة اذهب الى الأسفل
http://elbnany.ingoo.us
 
كنز الانترنت
استعرض الموضوع السابق استعرض الموضوع التالي الرجوع الى أعلى الصفحة 
صفحة 1 من اصل 1

صلاحيات هذا المنتدى:لاتستطيع الرد على المواضيع في هذا المنتدى
ابراهيم البنانى :: منتدى الكمبيوتر :: برامج الكمبيوتر-
انتقل الى: