जूमला होस्टिंग txt रोबोट
/robots.txt बारे में
संक्षेप में
वेब साइट मालिकों /robots.txt फ़ाइल का उपयोग वेब रोबोट के लिए अपनी साइट के बारे में निर्देश देने के लिए; इस रोबोट बहिष्करण प्रोटोकॉल कहा जाता है।
यह पसंद से काम करता है इस: एक रोबोट एक वेब साइट यूआरएल vists करना चाहता है, www.example.com/welcome.html का कहना है। इससे पहले कि यह ऐसा नहीं करता है, यह www.example.com/robots.txt के लिए चेक बातें पहली बार, और पाता है:
"उपयोगकर्ता एजेंट: *" का अर्थ है इस खंड सभी रोबोट पर लागू होता है। "अस्वीकार करें: /" रोबोट है कि यह साइट पर किसी भी पृष्ठों पर न जाएं चाहिए बताता है।
जब /robots.txt का उपयोग कर दो महत्वपूर्ण विचार कर रहे हैं:
- रोबोट अपने /robots.txt अनदेखा कर सकते हैं। विशेष रूप से मैलवेयर रोबोटों कि सुरक्षा कमजोरियों के लिए स्कैन वेब और ईमेल पते हार्वेस्टर स्पैमर्स द्वारा इस्तेमाल किया कोई ध्यान देना होगा।
- /robots.txt फ़ाइल सार्वजनिक रूप से उपलब्ध फ़ाइल है। किसी को भी देख सकते हैं आप रोबोट का उपयोग नहीं करना चाहते हैं अपने सर्वर की क्या वर्गों।
तो जानकारी को छुपाने के /robots.txt इस्तेमाल करने की कोशिश नहीं करते।
विवरण
/robots.txt एक वास्तविक मानक है, और किसी भी मानक निकाय के स्वामित्व में नहीं है। वहाँ दो ऐतिहासिक वर्णन कर रहे हैं:
इसके अलावा बाहरी संसाधनों देखते हैं:
/robots.txt मानक सक्रिय रूप से विकसित नहीं है। /robots.txt के आगे विकास के बारे में क्या देखते हैं? अधिक चर्चा के लिए।
इस पेज के बाकी कैसे अपने सर्वर पर /robots.txt उपयोग करने के लिए, कुछ सरल बनाने की विधि के साथ का एक सिंहावलोकन देता। और अधिक देखने भी अकसर किये गए सवाल जानने के लिए।
एक /robots.txt फ़ाइल बनाने के लिए कैसे
संक्षिप्त उत्तर: अपने वेब सर्वर के शीर्ष-स्तरीय निर्देशिका में।
लंबे समय तक जवाब:
एक रोबोट URL के लिए "/robots.txt" फ़ाइल के लिए लग रहा है है, यह यूआरएल (पहली एकल स्लेश से सब कुछ) से पथ घटक स्ट्रिप्स, और उसके स्थान पर "/robots.txt" डालता है।
उदाहरण के लिए, के लिए के लिए /shop/index.html "www.example.com/shop/index.html। निकाल देंगे" ", और साथ बदलें" /robots.txt ", और साथ खत्म हो जाएगा" www.example .com / robots.txt "।
तो, एक वेब साइट के मालिक के रूप में आप कि परिणामी URL काम करने के लिए अपने वेब सर्वर पर सही जगह में डाल दिया की जरूरत है। आमतौर पर है कि एक ही जगह है जहाँ आप अपने वेब साइट के मुख्य "index.html" स्वागत पृष्ठ डाल है। कहाँ वास्तव में जो है, और कैसे वहाँ फ़ाइल डाल करने के लिए, अपने वेब सर्वर सॉफ्टवेयर पर निर्भर करता है।
"Robots.txt", नहीं "robots.txt: फ़ाइल नाम के लिए सभी छोटे अक्षर का उपयोग करने के लिए याद रखें।
"/robots.txt" फ़ाइल एक या अधिक रिकॉर्ड के साथ, एक पाठ फ़ाइल है। आम तौर पर एक भी रिकॉर्ड इस तरह लग रही शामिल हैं:
इस उदाहरण में, तीन निर्देशिकाओं बाहर रखा गया है।
ध्यान दें कि आप हर यूआरएल उपसर्ग आप छोड़ना चाहते हैं के लिए एक अलग "अस्वीकार करें" लाइन की जरूरत है - आप यह नहीं कह सकते "अस्वीकार करें: / cgi-bin / / tmp /" एक पंक्ति पर। इसके अलावा, आप एक रिकार्ड में रिक्त लाइनों नहीं हो सकता है के रूप में वे एक से अधिक रिकॉर्ड परिसीमित करने के लिए उपयोग किया जाता है।
यह भी ध्यान रखें कि ग्लोबिंग और नियमित अभिव्यक्ति या तो उपयोगकर्ता-एजेंट या लाइनों की अनुमति रद्द में समर्थित नहीं हैं। उपयोगकर्ता-एजेंट के क्षेत्र में '*' एक विशेष मूल्य जिसका अर्थ है "किसी भी रोबोट" है। विशेष रूप से, आप "उपयोगकर्ता एजेंट: * बॉट *" की तरह लाइनों नहीं हो सकता है, "अनुमति न दें: / tmp / *" या "अनुमति न दें: * .jpg"।
क्या आप छोड़ना चाहते हैं अपने सर्वर पर निर्भर करता है। स्पष्ट रूप से अस्वीकृत नहीं सब कुछ पुनः प्राप्त करने के निष्पक्ष खेल माना जाता है। यहाँ कुछ उदाहरण का पालन करें:
(या बस एक खाली "/robots.txt" फ़ाइल बनाएं, या बिल्कुल भी एक का उपयोग नहीं करते हैं)
यह वर्तमान में एक सा अजीब, क्योंकि वहां कोई "अनुमति दें" क्षेत्र है। आसान तरीका सभी फाइलों को एक अलग निर्देशिका में अनुमति नहीं करने के लिए डाल करने के लिए है, कहते हैं कि "सामान", और इस निर्देशिका के ऊपर के स्तर में एक फ़ाइल छोड़: वैकल्पिक रूप से आप स्पष्ट रूप से सभी को अनुमति नहीं दी पृष्ठों अस्वीकार कर सकते हैं: