मैजेस्टिक 12 बॉट phpBB होस्टिंग
बॉट प्रकार अच्छा क्रॉलर
(हमेशा खुद को दिखाता है) IP श्रेणी में वितरित, दुनिया भर में अनुसरण करता है Robots.txt हाँ का अनुसरण करता है क्रॉल देरी हाँ डाटा Majestic.com में परोसा
राजसी एक ब्रिटेन आधारित विशेषज्ञ खोज उपभोक्ता आधारित खोज इंजन के इंटरनेट स्वतंत्र का एक नक्शा पेंट करने के लिए 13 भाषाओं में और 60 से अधिक देशों में कारोबार के सैकड़ों हजारों द्वारा प्रयोग किया जाता इंजन है। राजसी भी शक्तियां अन्य वैध प्रौद्योगिकियों कि वेब की लगातार बदलती कपड़े को समझने में मदद।
वेब साइट मालिकों majestic.com पर एक मुक्त खाता में अपनी वेबसाइट की पुष्टि करने या तो Google की खोज कंसोल के माध्यम से मुक्त करने के लिए अपनी वेबसाइटों के बारे में डेटा देख सकते हैं, एक रिक्त पाठ फ़ाइल सत्यापन या मेटा टैग सत्यापन के माध्यम से।
MJ12Bot वर्तमान में नहीं कैश वेब सामग्री या व्यक्तिगत डेटा करता है। इसके बजाय यह वेबसाइटों एक खोज इंजन का निर्माण करने के बीच की कड़ी रिश्तों मैप करता है। यह डेटा उपलब्ध तकनीकों और जनता के लिए, या तो एक कीवर्ड या राजसी पर एक वेबसाइट के लिए खोज कर रहा है। क्रॉलर्स के पीछे समुदाय परियोजना के बारे में विवरण Majestic12.co.uk पर हैं।
हम एक तेज और कुशल डाउनलोड करने योग्य वितरित क्रॉलर कि ब्रॉडबैंड कनेक्शन के साथ लोगों के लिए, हम क्या उम्मीद है, दुनिया में सबसे बड़ी खोज इंजन बन जाएगा योगदान मदद करने के लिए सक्षम बनाता है के साथ एक खोज इंजन के निर्माण के उद्देश्य के लिए वेब मकड़ी। राजसी-12 पर एक पूर्ण पाठ खोज इंजन का उत्पादन वर्तमान में अनुसंधान चरण, मैजेस्टिक में अनुसंधान के व्यावसायीकरण से हिस्से में वित्त पोषित है।
डेटा (वर्तमान में केवल लिंक का एक वेब ग्राफ) सबसे बड़ा सार्वजनिक पश्च खोज इंजन सूची है कि हम साइट एक्सप्लोरर कहा जाता है एक समर्पित उपकरण के रूप में बनाए रखने के लिए जोड़ा जाता है क्रॉल किया। व्यापक पश्च सूचकांक से अपना खुद का पश्च के बारे में जानने - सभी वेबमास्टर अपनी साइट के स्वामित्व सत्यापित करके पश्च पर पूर्ण मुक्त डेटा प्राप्त कर सकते हैं।
कुछ ISP और बुरी तरह से कॉन्फ़िगर किया गया फायरवॉल अपनी वेबसाइट क्रॉल करने से MJ12Bot बंद कर सकता है। आमतौर पर ऐसा आईएसपी या फ़ायरवॉल नहीं समझती कि ऐसा करने में, वे वास्तविक आगंतुकों को अपनी वेबसाइट के लिए एक बाद की तारीख में अवरुद्ध कर रहे हैं है। कुछ भी बैंडविड्थ को कम करने के यह करते हैं। इन उदाहरणों में, कुछ ISPs अपने सभी उपयोगकर्ताओं के लिए जब वे बॉट का उद्देश्य समझने के लिए ब्लॉक निकाल सकते हैं। अपने आईएसपी हमारा बोट अनुमति नहीं दी जाएगी, तो हम अनुशंसा करते हैं कि आईएसपी ले जाने पर विचार।
हम एक लंबी स्मृति है और यह सुनिश्चित करें कि अस्थायी त्रुटियों, पृष्ठों या साइटों से अन्य अस्थायी परिवर्तन नीचे वेबसाइट जब वे नहीं करना चाहिए आपकी साइट प्रोफ़ाइल के लिए अपूरणीय परिवर्तन हो नहीं करना चाहती। इसके अलावा वहाँ अभी भी कर रहे हैं मिल गया और अपनाई जाने वाली इन पृष्ठों वे जारी रहेगा से जोड़ता है। गूगल 404 नीति: गूगल ने एक बयान प्रकाशित किया है, क्योंकि वे भी इस प्रश्न पूछा जाता है, उनके कारण पाठ्यक्रम हमारा और उनके जवाब के रूप में एक ही यहां पाया जा सकता की है।
यह (शायद खराब नाम) nofollow विशेषता का एक आम गलतफहमी है। गूगल करते हुए कहा कि लिंक तो चिह्नित लक्ष्य के PageRank को प्रभावित नहीं करेगा, यह लक्ष्य पृष्ठ पर जाकर क्रॉलर बंद नहीं 2005 में 'rel = nofollow' विशेषता शुरू की, यह विशेष रूप से स्पष्ट हो जाता है, तो लक्ष्य पृष्ठ यह कुछ करने के लिए कई संबंध हैं इस विशेषता को हो सकता है, कुछ नहीं हो सकता। आप तो robots.txt का एक पेज रेंगने से बॉट बंद करना चाहें लक्ष्य पृष्ठ अस्वीकृत करने के लिए इस्तेमाल किया जाना चाहिए।
rel पर अधिक जानकारी nofollow यहां पाया जा सकता =: विकिपीडिया Nofollow
MJ12bot robots.txt मानक का पालन करता है। आप तो अपनी robots.txt के लिए निम्न पाठ जोड़ने क्रॉल किए जाने से वेबसाइट को रोकने के लिए बॉट चाहते हैं:
उपयोगकर्ता-एजेंट: MJ12bot
अस्वीकार करें: /
कृपया इनको में आईपी के माध्यम से हमारा बोट को ब्लॉक नहीं है - हम किसी भी लगातार आईपी ब्लॉक का उपयोग नहीं करते, जैसा कि हम एक समुदाय आधारित वितरित क्रॉलर हैं। कृपया हमेशा सुनिश्चित बॉट वास्तव में robots.txt ही प्राप्त कर सकते हैं कर सकते हैं। यदि यह तो यह नहीं समझेंगे सकते हैं कि यह आपकी साइट को क्रॉल ठीक है।
आप विश्वास है कि MJ12bot अपनी robots.txt आदेशों का पालन नहीं किया था कारण है, तो हमें ईमेल के माध्यम से अवगत कराएं: bot@majestic12.co.uk। अपनी वेबसाइट के लिए URL प्रदान और लॉग पृष्ठों है कि यह नहीं होना चाहिए था प्राप्त करने का प्रयास बॉट दिखा प्रविष्टियों करें।
वर्तमान क्रॉलर robots.txt के लिए निम्न अमानक एक्सटेंशन का समर्थन:
- क्रॉल-देरी की अवधि 20 सेकंड के लिए (उच्च मूल्यों अधिकतम करने के लिए नीचे पूर्णांकित कर दिया जाएगा कि हमारा बोट का समर्थन करता है)
- पुनर्निर्देश (एक ही साइट के भीतर) robots.txt के लाने का प्रयास
- अनुमति न दें में मिलान सरल पैटर्न याहू वाइल्डकार्ड विनिर्देश के साथ संगत निर्देशों
- निर्देशों अस्वीकार ओवरराइड कर सकते हैं की अनुमति दें यदि वे अधिक विशिष्ट हैं (लंबाई में लंबे समय तक)
- कुछ प्राप्त करने की विफलताएं करने के लिए robots.txt इस तरह के 403 निषिद्ध के रूप में कंबल अस्वीकार निर्देश रूप में माना जाएगा
हम MJ12bot द्वारा robots.txt के संभावित उल्लंघन के किसी भी रिपोर्ट को देखने के लिए चाहते हैं।
उठाया झूठे सकारात्मक की एक संख्या हैं - जब एक वेब सर्वर को कॉन्फ़िगर इस एक उपयोगी चेकलिस्ट हो सकता है:
- MJ12Bot रीडायरेक्ट इस प्रकार है, लेकिन केवल एक ही डोमेन पर - ऑफ साइट robots.txt के का अनुरोध पुनर्निर्देश। आदर्श मानक के रूप में विनिर्दिष्ट robots.txt "/robots.txt" पर उपलब्ध होने के लिए है।
- कई डोमेन की एक ही सर्वर पर चल रहा है। इस तरह के अपाचे जैसी आधुनिक वेबसर्वर को एक फाइल करने के लिए डोमेन की एक संख्या के लिए पहुंच प्रवेश कर सकते हैं - जब देखने के लिए वेब सर्वर और इस बिंदु पर पहुंचा गया था प्रयास कर इस भ्रम की स्थिति पैदा कर सकते हैं। आप एक प्रति डोमेन के आधार पर पहुँच लॉग, या बंटवारे पहुँच लॉग करने के लिए डोमेन जानकारी जोड़ने पर विचार करना चाह सकते हैं
- डेवलपर की नकल से तालमेल न बिठा Robots.txt। हम शिकायतों कि MJ12Bot robots.txt का पालन नहीं किया गया है पड़ा है - केवल पता लगाने के लिए कि डेवलपर एक विकास सर्वर है, जो लाइव संस्करण के साथ में-सिंक नहीं था के खिलाफ परीक्षण किया गया था
आप आसानी से अपने robots.txt फ़ाइल में निम्न जोड़कर बॉट धीमा कर सकते हैं:
उपयोगकर्ता-एजेंट: MJ12bot
क्रॉल-देरी: 5
क्रॉल-देरी एक पूर्णांक होना चाहिए चाहिए और यह अनुरोधों के बीच प्रतीक्षा के सेकंड की संख्या का प्रतीक है। लेकिन ध्यान दें कि जब यह संभावना नहीं है, यह अभी भी संभव है अपनी साइट ही समय में एकाधिक MJ12bots से क्रॉल किया गया है सकते हैं - MJ12bot आपकी साइट के लिए अनुरोधों के बीच 20 सेकंड देरी करने के लिए एक कर देगा। बनाना उच्च क्रॉल-देरी अपनी साइट पर प्रभाव को कम करना चाहिए। यह क्रॉल-देरी पैरामीटर को भी सक्रिय करता है, तो यह * वाइल्डकार्ड के लिए इस्तेमाल किया गया था हो जाएगा।
हमारा बोट पता लगाता है कि आप किसी भी अन्य बॉट के लिए क्रॉल-देरी इस्तेमाल किया है तो यह स्वचालित रूप से धीमी क्रॉल करेगा भले ही MJ12bot विशेष रूप से ऐसा करने के लिए नहीं कहा गया था।
MJ12bot की वर्तमान v1.4.x श्रृंखला ऑपरेटिंग संस्करण हैं:
- v1.4.7 (वर्तमान - जनवरी 2017)
- v1.4.6 (1.4.7 से बदला जा रहा - जून 2016)
- v1.4.5 (चरणबद्ध तरीके से समाप्त - जून 2016)
- v1.4.4 (मई 2014 चरणबद्ध तरीके से समाप्त)