The Web Robots FAQ Original of this document is here Ą http://info.webcrawler.com/mak/projects/robots/faq.html These frequently asked questions about Web robots.
Send suggestions and comments to Martijn Koster.

About WWW robots
Indexing robots
For Server Administrators
Robots exclusion standard
Availability

About Web Robots

What is a WWW robot?

A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.

Note that "recursive" here doesn't limit the definition to any specific traversal algorithm; even if a robot applies some heuristic to the selection and order of documents to visit and spaces out requests over a long space of time, it is still a robot.

Normal Web browsers are not robots, because the are operated by a human, and don't automatically retrieve referenced documents (other than inline images).

Web robots are sometimes referred to as Web Wanderers, Web Crawlers, or Spiders. These names are a bit misleading as they give the impression the software itself moves between sites like a virus; this not the case, a robot simply visits sites by requesting documents from them.

What is an agent?

The word "agent" is used for lots of meanings in computing these days. Specifically:

Autonomous agents: are programs that do travel between sites, deciding themselves when to move and what to do (e.g. General Magic's Telescript). These can only travel between special servers and are currently not widespread in the Internet.
Intelligent agents: are programs that help users with things, such as choosing a product, or guiding a user through form filling, or even helping users find things. These have generally little to do with networking.
User-agent: is a technical name for programs that perform networking tasks for a user, such as Web User-agents like Netscape Explorer, Email User-agent like Qualcomm Eudora etc.

What is a search engine?

A search engine is a program that searches through some dataset. In the context of the Web, the word "search engine" is most often used for search forms that search through databases of HTML documents gathered by a robot.

What other kinds of robots are there?

Robots can be used for a number of purposes:

Indexing
HTML validation
Link validation
"What's New" monitoring
Mirroring

See the list of active robots to see what robot does what. Don't ask me -- all I know is what's on the list...

So what are Robots, Spiders, Web Crawlers, Worms, Ants

They're all names for the same sort of thing, with slightly different connotations:

Robots: the generic name, see above.
Spiders: same as robots, but sounds cooler in the press.
Worms: same as robots, although technically a worm is a replicating program, unlike a robot.
Web crawlers: same as robots, but note WebCrawler is a specific robot
WebAnts: distributed cooperating robots.

Aren't robots bad for the web?

There are a few reasons people believe robots are bad for the Web:

Certain robot implementations can (and have in the past) overloaded networks and servers. This happens especially with people who are just starting to write a robot; these days there is sufficient information on robots to prevent some of these mistakes.
Robots are operated by humans, who make mistakes in configuration, or simply don't consider the implications of their actions. This means people need to be careful, and robot authors need to make it difficult for people to make mistakes with bad effects
Web-wide indexing robots build a central database of documents, which doesn't scale too well to millions of documents on millions of sites.

But at the same time the majority of robots are well designed, professionally operated, cause no problems, and provide a valuable service in the absence of widely deployed better solutions.

So no, robots aren't inherently bad, nor inherently brilliant, and need careful attention.

Are there any robot books?

Yes:

Internet Agents: Spiders, Wanderers, Brokers, and Bots by Fah-Chun Cheong.

This books covers Web robots, commerce transaction agents, Mud agents, and a few others. It includes source code for a simple Web robot based on top of libwww-perl4.

Its coverage of HTTP, HTML, and Web libraries is a bit too thin to be a "how to write a web robot" book, but it provides useful background reading and a good overview of the state-of-the-art, especially if you haven't got the time to find all the info yourself on the Web.

Published by New Riders, ISBN 1-56205-463-5.

Bots and Other Internet Beasties by Joseph Williams

I haven't seen this myself, but someone said: The William's book 'Bots and other Internet Beasties' was quit disappointing. It claims to be a 'how to' book on writing robots, but my impression is that it is nothing more than a collection of chapters, written by various people involved in this area and subsequently bound together.

Published by Sam's, ISBN: 1-57521-016-9

Web Client Programming with Perl by Clinton Wong

This O'Reilly book is planned for Fall 1996, check the O'Reilly Web Site for the current status. It promises to be a practical book, but I haven't seen it yet.

A few others can be found on the The Software Agents Mailing List FAQ

Where do I find out more about robots?

There is a Web robots home page on: http://info.webcrawler.com/mak/projects/robots/robots.html

While this is hosted at one of the major robots' site, it is an unbiased and reasoneably comprehensive collection of information which is maintained by Martijn Koster <m.koster@webcrawler.com>.

Of course the latest version of this FAQ is there.

You'll also find details and an archive of the robots mailing list, which is intended for technical discussions about robots.

Indexing robots

How does a robot decide where to visit?

This depends on the robot, each one uses different strategies. In general they start from a historical list of URLs, especially of documents with many links elsewhere, such as server lists, "What's New" pages, and the most popular sites on the Web.

Most indexing services also allow you to submit URLs manually, which will then be queued and visited by the robot.

Sometimes other sources for URLs are used, such as scanners through USENET postings, published mailing list achives etc.

Given those starting points a robot can select URLs to visit and index, and to parse and use as a source for new URLs.

How does an indexing robot decide what to index?

If an indexing robot knows about a document, it may decide to parse it, and insert it into its database. How this is done depends on the robot: Some robots index the HTML Titles, or the first few paragraphs, or parse the entire HTML and index all words, with weightings depending on HTML constructs, etc. Some parse the META tag, or other special hidden tags.

We hope that as the Web evolves more facilities becomes available to efficiently associate meta data such as indexing information with a document. This is being worked on...

How do I register my page with a robot?

You guessed it, it depends on the service :-) Most services have a link to a URL submission form on their search page.

Fortunately you don't have to submit your URL to every service by hand: Submit-it <URL: http://www.submit-it.com/> will do it for you.

For Server Administrators

How do I know if I've been visited by a robot?

You can check your server logs for sites that retrieve many documents, especially in a short time.

If your server supports User-agent logging you can check for retrievals with unusual User-agent heder values.

Finally, if you notice a site repeatedly checking for the file '/robots.txt' chances are that is a robot too.

I've been visited by a robot! Now what?

Well, nothing :-) The whole idea is they are automatic; you don't need to do anything.

If you think you have discovered a new robot (ie one that is not listed on the list of active robots, and it does more than sporadic visits, drop me a line so I can make a note of it for future reference. But please don't tell me about every robot that happens to drop by!

A robot is traversing my whole site too fast!

This is called "rapid-fire", and people usually notice it if they're monitoring or analysing an access log file.

First of all check if it is a problem by checking the load of your server, and monitoring your servers' error log, and concurrent connections if you can. If you have a medium or high performance server, it is quite likely to be able to cope a high load of even several requests per second, especially if the visits are quick.

However you may have problems if you have a low performance site, such as your own desktop PC or Mac you're working on, or you run low performance server software, or if you have many long retrievals (such as CGI scripts or large documents). These problems manifest themselves in refused connections, a high load, performance slowdowns, or in extreme cases a system crash.

If this happens, there are a few things you should do. Most importantly, start logging information: when did you notice, what happened, what do your logs say, what are you doing in response etc; this helps investigating the problem later. Secondly, try and find out where the robot came from, what IP addresses or DNS domains, and see if they are mentioned in the list of active robots. If you can identify a site this way, you can email the person responsible, and ask them what's up. If this doesn't help, try their own site for telephone numbers, or mail postmaster at their domain.

If the robot is not on the list, mail me with all the information you have collected, including actions on your part. If I can't help, at least I can make a note of it for others.

How do I keep a robot off my server?

Read the next section...

Robots exclusion standard

Why do I find entries for /robots.txt in my log files?

They are probably from robots trying to see if you have specified any rules for them using the Standard for Robot Exclusion, see also below.

If you don't care about robots and want to prevent the messages in your error logs, simply create an empty file called robots.txt in the root level of your server.

Don't put any HTML or English language "Who the hell are you?" text in it -- it will probably never get read by anyone :-)

How do I prevent robots scanning my site?

The quick way to prevent robots visiting your site is put these two lines into the /robots.txt file on your server:

User-agent: *
Disallow: /

but its easy to be more selective than that.

Where do I find out how /robots.txt files work?

You can read the whole standard specification but the basic concept is simple: by writing a structured text file you can indicate to robots that certain parts of your server are off-limits to some or all robots. It is best explained with an example:

# /robots.txt file for http://webcrawler.com/
# mail webmaster@webcrawler.com for constructive criticism

User-agent: webcrawler
Disallow:

User-agent: lycra
Disallow: /

User-agent: *
Disallow: /tmp
Disallow: /logs

The first two lines, starting with '#', specify a comment

The first paragraph specifies that the robot called 'webcrawler' has nothing disallowed: it may go anywhere.

The second paragraph indicates that the robot called 'lycra' has all relative URLs starting with '/' disallowed. Because all relative URL's on a server start with '/', this means the entire site is closed off.

The third paragraph indicates that all other robots should not visit URLs starting with /tmp or /log. Note the '*' is a special token; its not a regular expression.

Two common errors:

Regular expressions are _not_ supported: instead of 'Disallow: /tmp/*' just say 'Disallow: /tmp'.
You shouldn't put more than one path on a Disallow line (this may change in a future version of the spec)

Will the /robots.txt standard be extended?

Probably... there are some ideas floating around. They haven't made it into a coherent proposal because of time constraints, and because there is little pressure. Mail suggestions to the robots mailing list, and check the robots home page for work in progress.

What if I can't make a /robots.txt file?

Sometimes you cannot make a /robots.txt file, because you don't administer the entire server. All is not lost: there is a new standard for using HTML META tags to keep robots out of your documents.

The basic idea is that if you include a tag like:

<META NAME="ROBOTS" CONTENT="NOINDEX">

in your HTML document, that document won't be indexed.

If you do:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

the links in that document will not be parsed by the robot.

Availability

Where can I use a robot?

If you mean a search service, check out the various directory pages on the Web, such as Netscape's Exploring the Net or try one of the Meta search services such as MetaSearch

Where can I get a robot?

Well, you can have a look at the list of robots; I'm starting to indicate their public availability slowly.

In the meantime, two indexing robots that you should be able to get hold of are Harvest (free), and Verity's.

Where can I get the source code for a robot?

See above -- some may be willing to give out source code.

Alternatively check out the libwww-perl5 package, that has a simple example.

I'm writing a robot, what do I need to be careful of?

Lots. First read through all the stuff on the robot page then read the proceedings of past WWW Conferences, and the complete HTTP and HTML spec. Yes; it's a lot of work :-)

I've written a robot, how do I list it?

Simply fill in a form you can find on The Web Robots Database and email it to me.

Martijn Koster

Íĺńęîëüęî ńëîâ î ňîě, ęŕę đŕáîňŕţň đîáîňű (spiders) ďîčńęîâűő ěŕřčí Ŕíäđĺé Ŕëčęáĺđîâ, Öĺíňđ Číôîđěŕöčîííűő Ňĺőíîëîăčé

Ââĺäĺíčĺ
ROBOTS ěĺňŕ-ňŕăč

Ââĺäĺíčĺ

Ýňŕ ńňŕňü˙ âîâńĺ íĺ ˙âë˙ĺňń˙ ďîďűňęîé îáú˙ńíčňü, ęŕę đŕáîňŕţň ďîčńęîâűĺ ěŕřčíű âîîáůĺ (ýňî know-how čő ďđîčçâîäčňĺëĺé). Îäíŕęî, ďî ěîĺěó ěíĺíčţ, îíŕ ďîěîćĺň ďîí˙ňü ęŕę ěîćíî óďđŕâë˙ňü ďîâĺäĺíčĺě ďîčńęîâűő đîáîňîâ (wanderers, spiders, robots - ďđîăđŕěěű, ń ďîěîůüţ ęîňîđűő ňŕ čëč číŕ˙ ďîčńęîâŕ˙ ńčńňĺěŕ îářŕđčâŕĺň ńĺňü č číäĺęńčđóĺň âńňđĺ÷ŕţůčĺń˙ äîęóěĺíňű) č ęŕę ďđŕâčëüíî ďîńňđîčňü ńňđóęňóđó ńĺđâĺđŕ č ńîäĺđćŕůčőń˙ íŕ íĺě äîęóěĺíňîâ, ÷ňîáű Âŕř ńĺđâĺđ ëĺăęî č őîđîřî číäĺęńčđîâŕëń˙.

Ďĺđâîé ďđč÷číîé ňîăî, ÷ňî ˙ đĺřčëń˙ íŕďčńŕňü ýňó ńňŕňüţ, ˙âčëń˙ ńëó÷ŕé, ęîăäŕ ˙ čńńëĺäîâŕë ôŕéë ëîăîâ äîńňóďŕ ę ěîĺěó ńĺđâĺđó č îáíŕđóćčë ňŕě ńëĺäóţůčĺ äâĺ ńňđîęč:

lycosidae.lycos.com - - [01/Mar/1997:21:27:32 -0500] "GET /robots.txt HTTP/1.0" 404 -
lycosidae.lycos.com - - [01/Mar/1997:21:27:39 -0500] "GET / HTTP/1.0" 200 3270

ňî ĺńňü Lycos îáđŕňčëń˙ ę ěîĺěó ńĺđâĺđó, íŕ ďĺđâűé çŕďđîń ďîëó÷čë, ÷ňî ôŕéëŕ /robots.txt íĺň, îáíţőŕë ďĺđâóţ ńňđŕíčöó, č îňâŕëčë. Ĺńňĺńňâĺííî, ěíĺ ýňî íĺ ďîíđŕâčëîńü, č ˙ íŕ÷ŕë âű˙ńí˙ňü ÷ňî ę ÷ĺěó.

Îęŕçűâŕĺňń˙, âńĺ "óěíűĺ" ďîčńęîâűĺ ěŕřčíű ńíŕ÷ŕëŕ îáđŕůŕţňń˙ ę ýňîěó ôŕéëó, ęîňîđűé äîëćĺí ďđčńóňńňâîâŕňü íŕ ęŕćäîě ńĺđâĺđĺ. Ýňîň ôŕéë îďčńűâŕĺň ďđŕâŕ äîńňóďŕ äë˙ ďîčńęîâűő đîáîňîâ, ďđč÷ĺě ńóůĺńňâóĺň âîçěîćíîńňü óęŕçŕňü äë˙ đŕçëč÷íűő đîáîňîâ đŕçíűĺ ďđŕâŕ. Äë˙ íĺăî ńóůĺńňâóĺň ńňŕíäŕđň ďîä íŕçâŕíčĺě Standart for Robot Exclusion.

Ďî ěíĺíčţ Ëóčńŕ Ěîíüĺ (Louis Monier, Altavista), ňîëüęî 5% âńĺő ńŕéňîâ â íŕńňî˙ůĺĺ âđĺě˙ čěĺĺň íĺ ďóńňűĺ ôŕéëű /robots.txt ĺńëč âîîáůĺ îíč (ýňč ôŕéëű) ňŕě ńóůĺńňâóţň. Ýňî ďîäňâĺđćäŕĺňń˙ číôîđěŕöčĺé, ńîáđŕííîé ďđč íĺäŕâíĺě čńńëĺäîâŕíčč ëîăîâ đŕáîňű đîáîňŕ Lycos. Řŕđëü Ęîëëŕđ (Charles P.Kollar, Lycos) ďčřĺň, ÷ňî ňîëüęî 6% îň âńĺő çŕďđîńîâ íŕ ďđĺäěĺň /robots.txt čěĺţň ęîä đĺçóëüňŕňŕ 200. Âîň íĺńęîëüęî ďđč÷čí, ďî ęîňîđűě ýňî ďđîčńőîäčň:

ëţäč, ęîňîđűĺ óńňŕíŕâëčâŕţň Âĺá-ńĺđâĺđŕ, ďđîńňî íĺ çíŕţň íč îá ýňîě ńňŕíäŕđňĺ, íč î íĺîáőîäčěîńňč ńóůĺńňâîâŕíč˙ ôŕéëŕ /robots.txt.
íĺ îá˙çŕňĺëüíî ÷ĺëîâĺę, číńňŕëëčđîâŕâřčé Âĺá-ńĺđâĺđ, çŕíčěŕĺňń˙ ĺăî íŕďîëíĺíčĺě, ŕ ňîň, ęňî ˙âë˙ĺňń˙ âĺáěŕńňĺđîě, íĺ čěĺĺň äîëćíîăî ęîíňŕęňŕ ń ŕäěčíčńňđŕňîđîě ńŕěîé "ćĺëĺç˙ęč".
ýňî ÷čńëî îňđŕćŕĺň ÷čńëî ńŕéňîâ, ęîňîđűĺ äĺéńňâčňĺëüíî íóćäŕţňń˙ â čńęëţ÷ĺíčč ëčříčő çŕďđîńîâ đîáîňîâ, ďîńęîëüęó íĺ íŕ âńĺő ńĺđâĺđŕő čěĺĺňń˙ ňŕęîé ńóůĺńňâĺííűé ňđŕôčę, ďđč ęîňîđîě ďîńĺůĺíčĺ ńĺđâĺđŕ ďîčńęîâűě đîáîňîě, ńňŕíîâčňń˙ çŕěĺňíűě äë˙ ďđîńňűő ďîëüçîâŕňĺëĺé.

Ôîđěŕň ôŕéëŕ /robots.txt.

Ôŕéë /robots.txt ďđĺäíŕçíŕ÷ĺí äë˙ óęŕçŕíč˙ âńĺě ďîčńęîâűě đîáîňŕě (spiders) číäĺęńčđîâŕňü číôîđěŕöčîííűĺ ńĺđâĺđŕ ňŕę, ęŕę îďđĺäĺëĺíî â ýňîě ôŕéëĺ, ň.ĺ. ňîëüęî ňĺ äčđĺęňîđčč č ôŕéëű ńĺđâĺđŕ, ęîňîđűĺ ÍĹ îďčńŕíű â /robots.txt. Ýňî ôŕéë äîëćĺí ńîäĺđćŕňü 0 čëč áîëĺĺ çŕďčńĺé, ęîňîđűĺ ńâ˙çŕíű ń ňĺě čëč číűě đîáîňîě (÷ňî îďđĺäĺë˙ĺňń˙ çíŕ÷ĺíčĺě ďîë˙ agent_id), č óęŕçűâŕţň äë˙ ęŕćäîăî đîáîňŕ čëč äë˙ âńĺő ńđŕçó ÷ňî čěĺííî čě ÍĹ ÍŔÄÎ číäĺęńčđîâŕňü. Ňîň, ęňî ďčřĺň ôŕéë /robots.txt, äîëćĺí óęŕçŕňü ďîäńňđîęó Product Token ďîë˙ User-Agent, ęîňîđóţ ęŕćäűé đîáîň âűäŕĺň íŕ HTTP-çŕďđîń číäĺęńčđóĺěîăî ńĺđâĺđŕ. Íŕďđčěĺđ, íűíĺříčé đîáîň Lycos íŕ ňŕęîé çŕďđîń âűäŕĺň â ęŕ÷ĺńňâĺ ďîë˙ User-Agent:

	Lycos_Spider_(Rex)/1.0 libwww/3.1

Ĺńëč đîáîň Lycos íĺ íŕřĺë ńâîĺăî îďčńŕíč˙ â /robots.txt - îí ďîńňóďŕĺň ňŕę, ęŕę ń÷čňŕĺň íóćíűě. Ęŕę ňîëüęî đîáîň Lycos "óâčäĺë" â ôŕéëĺ /robots.txt îďčńŕíčĺ äë˙ ńĺá˙ - îí ďîńňóďŕĺň ňŕę, ęŕę ĺěó ďđĺäďčńŕíî.

Ďđč ńîçäŕíčč ôŕéëŕ /robots.txt ńëĺäóĺň ó÷čňűâŕňü ĺůĺ îäčí ôŕęňîđ - đŕçěĺđ ôŕéëŕ. Ďîńęîëüęó îďčńűâŕĺňń˙ ęŕćäűé ôŕéë, ęîňîđűé íĺ ńëĺäóĺň číäĺęńčđîâŕňü, äŕ ĺůĺ äë˙ ěíîăčő ňčďîâ đîáîňîâ îňäĺëüíî, ďđč áîëüřîě ęîëč÷ĺńňâĺ íĺ ďîäëĺćŕůčő číäĺęńčđîâŕíčţ ôŕéëîâ đŕçěĺđ /robots.txt ńňŕíîâčňń˙ ńëčřęîě áîëüřčě. Â ýňîě ńëó÷ŕĺ ńëĺäóĺň ďđčěĺí˙ňü îäčí čëč íĺńęîëüęî ńëĺäóţůčő ńďîńîáîâ ńîęđŕůĺíč˙ đŕçěĺđŕ /robots.txt:

óęŕçűâŕňü äčđĺęňîđčţ, ęîňîđóţ íĺ ńëĺäóĺň číäĺęńčđîâŕňü, č, ńîîňâĺňńňâĺííî, íĺ ďîäëĺćŕůčĺ číäĺęńčđîâŕíčţ ôŕéëű đŕńďîëŕăŕňü čěĺííî â íĺé
ńîçäŕâŕňü ńňđóęňóđó ńĺđâĺđŕ ń ó÷ĺňîě óďđîůĺíč˙ îďčńŕíč˙ čńęëţ÷ĺíčé â /robots.txt
óęŕçűâŕňü îäčí ńďîńîá číäĺęńčđîâŕíč˙ äë˙ âńĺő agent_id
óęŕçűâŕňü ěŕńęč äë˙ äčđĺęňîđčé č ôŕéëîâ

Çŕďčńč (records) ôŕéëŕ /robots.txt

Îáůĺĺ îďčńŕíčĺ ôîđěŕňŕ çŕďčńč.

[ # comment string NL ]*

User-Agent: [ [ WS ]+ agent_id ]+ [ [ WS ]* # comment string ]? NL

[ # comment string NL ]*

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

[

# comment string NL

|

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

]*

[ NL ]+

Ďŕđŕěĺňđű

Îďčńŕíčĺ ďŕđŕěĺňđîâ, ďđčěĺí˙ĺěűő â çŕďčń˙ő /robots.txt

[...]+ Ęâŕäđŕňíűĺ ńęîáęč ńî ńëĺäóţůčě çŕ íčěč çíŕęîě + îçíŕ÷ŕţň, ÷ňî â ęŕ÷ĺńňâĺ ďŕđŕěĺňđîâ äîëćíű áűňü óęŕçŕíű îäčí čëč íĺńęîëüęî ňĺđěčíîâ.

Íŕďđčěĺđ, ďîńëĺ "User-Agent:" ÷ĺđĺç ďđîáĺë ěîăóň áűňü óęŕçŕíű îäčí čëč íĺńęîëüęî agent_id.

[...]* Ęâŕäđŕňíűĺ ńęîáęč ńî ńëĺäóţůčě çŕ íčěč çíŕęîě * îçíŕ÷ŕţň, ÷ňî â ęŕ÷ĺńňâĺ ďŕđŕěĺňđîâ ěîăóň áűňü óęŕçŕíű íîëü čëč íĺńęîëüęî ňĺđěčíîâ.

Íŕďđčěĺđ, Âű ěîćĺňĺ ďčńŕňü čëč íĺ ďčńŕňü ęîěěĺíňŕđčč.

[...]? Ęâŕäđŕňíűĺ ńęîáęč ńî ńëĺäóţůčě çŕ íčěč çíŕęîě ? îçíŕ÷ŕţň, ÷ňî â ęŕ÷ĺńňâĺ ďŕđŕěĺňđîâ ěîăóň áűňü óęŕçŕíű íîëü čëč îäčí ňĺđěčí.

Íŕďđčěĺđ, ďîńëĺ "User-Agent: agent_id" ěîćĺň áűňü íŕďčńŕí ęîěěĺíňŕđčé.

..|.. îçíŕ÷ŕĺň čëč ňî, ÷ňî äî ÷ĺđňű, čëč ňî, ÷ňî ďîńëĺ.

WS îäčí čç ńčěâîëîâ - ďđîáĺë (011) čëč ňŕáóë˙öč˙ (040)

NL îäčí čç ńčěâîëîâ - ęîíĺö ńňđîęč (015) , âîçâđŕň ęŕđĺňęč (012) čëč îáŕ ýňčő ńčěâîëŕ (Enter)

User-Agent: ęëţ÷ĺâîĺ ńëîâî (çŕăëŕâíűĺ č ďđîďčńíűĺ áóęâű đîëč íĺ čăđŕţň).

Ďŕđŕěĺňđŕěč ˙âë˙ţňń˙ agent_id ďîčńęîâűő đîáîňîâ.

Disallow: ęëţ÷ĺâîĺ ńëîâî (çŕăëŕâíűĺ č ďđîďčńíűĺ áóęâű đîëč íĺ čăđŕţň).

Ďŕđŕěĺňđŕěč ˙âë˙ţňń˙ ďîëíűĺ ďóňč ę íĺčíäĺęńčđóĺěűě ôŕéëŕě čëč äčđĺęňîđč˙ě

# íŕ÷ŕëî ńňđîęč ęîěěĺíňŕđčĺâ, comment string - ńîáńňâĺííî ňĺëî ęîěěĺíňŕđč˙.

agent_id ëţáîĺ ęîëč÷ĺńňâî ńčěâîëîâ, íĺ âęëţ÷ŕţůčő WS č NL, ęîňîđűĺ îďđĺäĺë˙ţň agent_id đŕçëč÷íűő ďîčńęîâűő đîáîňîâ. Çíŕę * îďđĺäĺë˙ĺň âńĺő đîáîňîâ ńđŕçó.

path_root ëţáîĺ ęîëč÷ĺńňâî ńčěâîëîâ, íĺ âęëţ÷ŕţůčő WS č NL, ęîňîđűĺ îďđĺäĺë˙ţň ôŕéëű č äčđĺęňîđčč, íĺ ďîäëĺćŕůčĺ číäĺęńčđîâŕíčţ.

Đŕńřčđĺííűĺ ęîěěĺíňŕđčč ôîđěŕňŕ.

Ęŕćäŕ˙ çŕďčńü íŕ÷číŕĺňń˙ ńî ńňđîęč User-Agent, â ęîňîđîé îďčńűâŕĺňń˙ ęŕęčě čëč ęŕęîěó ďîčńęîâîěó đîáîňó ýňŕ çŕďčńü ďđĺäíŕçíŕ÷ŕĺňń˙. Ńëĺäóţůŕ˙ ńňđîęŕ: Disallow. Çäĺńü îďčńűâŕţňń˙ íĺ ďîäëĺćŕůčĺ číäĺęńŕöčč ďóňč č ôŕéëű. ĘŔĆÄŔß çŕďčńü ÄÎËĆÍŔ čěĺňü ęŕę ěčíčěóě ýňč äâĺ ńňđîęč (lines). Âńĺ îńňŕëüíűĺ ńňđîęč ˙âë˙ţňń˙ îďöč˙ěč. Çŕďčńü ěîćĺň ńîäĺđćŕňü ëţáîĺ ęîëč÷ĺńňâî ńňđîę ęîěěĺíňŕđčĺâ. Ęŕćäŕ˙ ńňđîęŕ ęîěěĺíňŕđč˙ äîëćíŕ íŕ÷číŕňüń˙ ń ńčěâîëŕ # . Ńňđîęč ęîěěĺíňŕđčĺâ ěîăóň áűňü ďîěĺůĺíű â ęîíĺö ńňđîę User-Agent č Disallow. Ńčěâîë # â ęîíöĺ ýňčő ńňđîę číîăäŕ äîáŕâë˙ĺňń˙ äë˙ ňîăî, ÷ňîáű óęŕçŕňü ďîčńęîâîěó đîáîňó, ÷ňî äëčííŕ˙ ńňđîęŕ agent_id čëč path_root çŕęîí÷ĺíŕ. Ĺńëč â ńňđîęĺ User-Agent óęŕçŕíî íĺńęîëüęî agent_id, ňî óńëîâčĺ path_root â ńňđîęĺ Disallow áóäĺň âűďîëíĺíî äë˙ âńĺő îäčíŕęîâî. Îăđŕíč÷ĺíčé íŕ äëčíó ńňđîę User-Agent č Disallow íĺň. Ĺńëč ďîčńęîâűé đîáîň íĺ îáíŕđóćčë â ôŕéëĺ /robots.txt ńâîĺăî agent_id, ňî îí čăíîđčđóĺň /robots.txt.

Ĺńëč íĺ ó÷čňűâŕňü ńďĺöčôčęó đŕáîňű ęŕćäîăî ďîčńęîâîăî đîáîňŕ, ěîćíî óęŕçŕňü čńęëţ÷ĺíč˙ äë˙ âńĺő đîáîňîâ ńđŕçó. Ýňî äîńňčăŕĺňń˙ çŕäŕíčĺě ńňđîęč

	User-Agent: *

Ĺńëč ďîčńęîâűé đîáîň îáíŕđóćčň â ôŕéëĺ /robots.txt íĺńęîëüęî çŕďčńĺé ń óäîâëĺňâîđ˙ţůčě ĺăî çíŕ÷ĺíčĺě agent_id, ňî đîáîň âîëĺí âűáčđŕňü ëţáóţ čç íčő.

Ęŕćäűé ďîčńęîâűé đîáîň áóäĺň îďđĺäĺë˙ňü ŕáńîëţňíűé URL äë˙ ÷ňĺíč˙ ń ńĺđâĺđŕ ń čńďîëüçîâŕíčĺě çŕďčńĺé /robots.txt. Çŕăëŕâíűĺ č ńňđî÷íűĺ ńčěâîëű â path_root ČĚĹŢŇ çíŕ÷ĺíčĺ.

Ďđčěĺđű.

Ďđčěĺđ 1:

User-Agent: *

Disallow: /

User-Agent: Lycos

Disallow: /cgi-bin/ /tmp/

Â ďđčěĺđĺ 1 ôŕéë /robots.txt ńîäĺđćčň äâĺ çŕďčńč. Ďĺđâŕ˙ îňíîńčňń˙ ęî âńĺě ďîčńęîâűě đîáîňŕě č çŕďđĺůŕĺň číäĺęńčđîâŕňü âńĺ ôŕéëű. Âňîđŕ˙ îňíîńčňń˙ ę ďîčńęîâîěó đîáîňó Lycos č ďđč číäĺęńčđîâŕíčč čě ńĺđâĺđŕ çŕďđĺůŕĺň äčđĺęňîđčč /cgi-bin/ č /tmp/, ŕ îńňŕëüíűĺ - đŕçđĺřŕĺň. Ňŕęčě îáđŕçîě ńĺđâĺđ áóäĺň ďđîčíäĺęńčđîâŕí ňîëüęî ńčńňĺěîé Lycos.

Ďđčěĺđ 2:

User-Agent: Copernicus Fred

Disallow:

User-Agent: * Rex

Disallow: /t

Â ďđčěĺđĺ 2 ôŕéë /robots.txt ńîäĺđćčň äâĺ çŕďčńč. Ďĺđâŕ˙ đŕçđĺřŕĺň ďîčńęîâűě đîáîňŕě Copernicus č Fred číäĺęńčđîâŕňü âĺńü ńĺđâĺđ. Âňîđŕ˙ - çŕďđĺůŕĺň âńĺě č îńĺáĺííî đîáîňó Rex číäĺęńčđîâŕňü ňŕęčĺ äčđĺęňîđčč č ôŕéëű, ęŕę /tmp/, /tea-time/, /top-cat.txt, /traverse.this č ň.ä. Ýňî ęŕę đŕç ńëó÷ŕé çŕäŕíč˙ ěŕńęč äë˙ äčđĺęňîđčé č ôŕéëîâ.

Ďđčěĺđ 3:

# This is for every spider!

User-Agent: *

# stay away from this

Disallow: /spiders/not/here/ #and everything in it

Disallow: # a little nothing

Disallow: #This could be habit forming!

# Don't comments make code much more readable!!!

Â ďđčěĺđĺ 3 - îäíŕ çŕďčńü. Çäĺńü âńĺě đîáîňŕě çŕďđĺůŕĺňń˙ číäĺęńčđîâŕňü äčđĺęňîđčţ /spiders/not/here/, âęëţ÷ŕ˙ ňŕęčĺ ďóňč č ôŕéëű ęŕę /spiders/not/here/really/, /spiders/not/here/yes/even/me.html. Îäíŕęî ńţäŕ íĺ âőîä˙ň /spiders/not/ čëč /spiders/not/her (â äčđĺęňîđčč '/spiders/not/').

Íĺęîňîđűĺ ďđîáëĺěű, ńâ˙çŕííűĺ ń ďîčńęîâűěč đîáîňŕěč.

Íĺçŕęîí÷ĺííîńňü ńňŕíäŕđňŕ (Standart for Robot Exclusion).

Ę ńîćŕëĺíčţ, ďîńęîëüęó ďîčńęîâűĺ ńčńňĺěű ďî˙âčëčńü íĺ ňŕę äŕâíî, ńňŕíäŕđň äë˙ đîáîňîâ íŕőîäčňń˙ â ńňŕäčč đŕçđŕáîňęč, äîđŕáîňęč, íó č ň.ä. Ýňî îçíŕ÷ŕĺň, ÷ňî â áóäóůĺě ńîâńĺě íĺîá˙çŕňĺëüíî ďîčńęîâűĺ ěŕřčíű áóäóň čě đóęîâîäńňâîâŕňüń˙.

Óâĺëč÷ĺíčĺ ňđŕôčęŕ.

Ýňŕ ďđîáëĺěŕ íĺ ńëčřęîě ŕęňóŕëüíŕ äë˙ đîńńčéńęîăî ńĺęňîđŕ Internet, ďîńęîëüęó íĺ ňŕę óć ěíîăî â Đîńńčč ńĺđâĺđîâ ń ňŕęčě ńĺđüĺçíűě ňđŕôčęîě, ÷ňî ďîńĺůĺíčĺ čő ďîčńęîâűě đîáîňîě áóäĺň ěĺřŕňü îáű÷íűě ďîëüçîâŕňĺë˙ě. Ńîáńňâĺííî, ôŕéë /robots.txt äë˙ ňîăî č ďđĺäíŕçíŕ÷ĺí, ÷ňîáű îăđŕíč÷čâŕňü äĺéńňâč˙ đîáîňîâ.

Íĺ âńĺ ďîčńęîâűĺ đîáîňű čńďîëüçóţň /robots.txt.

Íŕ ńĺăîäí˙říčé äĺíü ýňîň ôŕéë îá˙çŕňĺëüíî çŕďđŕřčâŕĺňń˙ ďîčńęîâűěč đîáîňŕěč ňîëüęî ňŕęčő ńčńňĺě ęŕę Altavista, Excite, Infoseek, Lycos, OpenText č WebCrawler.

Čńďîëüçîâŕíčĺ ěĺňŕ-ňŕăîâ HTML.

Íŕ÷ŕëüíűé ďđîĺęň, ęîňîđűé áűë ńîçäŕí â đĺçóëüňŕňĺ ńîăëŕřĺíčé ěĺćäó ďđîăđŕěěčńňŕěč íĺęîňîđîăî ÷čńëŕ ęîěěĺđ÷ĺńęčő číäĺęńčđóţůčő îđăŕíčçŕöčé (Excite, Infoseek, Lycos, Opentext č WebCrawler) íŕ íĺäŕâíĺě ńîáđŕíčč Distributing Indexing Workshop (W3C) , íčćĺ.

Íŕ ýňîě ńîáđŕíčč îáńóćäŕëîńü čńďîëüçîâŕíčĺ ěĺňŕ-ňŕăîâ HTML äë˙ óďđŕâëĺíč˙ ďîâĺäĺíčĺě ďîčńęîâűő đîáîňîâ, íî îęîí÷ŕňĺëüíîăî ńîăëŕřĺíč˙ äîńňčăíóňî íĺ áűëî. Áűëč îďđĺäĺëĺíű ńëĺäóţůčĺ ďđîáëĺěű äë˙ îáńóćäĺíč˙ â áóäóůĺě:

Íĺîďđĺäĺëĺííîńňč â ńďĺöčôčęŕöčč ôŕéëŕ /robots.txt
Ňî÷íîĺ îďđĺäĺëĺíčĺ čńďîëüçîâŕíč˙ ěĺňŕ-ňŕăîâ HTML, čëč äîďîëíčňĺëüíűĺ ďîë˙ â ôŕéëĺ /robots.txt
Číôîđěŕöč˙ "Please visit"
Ňĺęóůčé ęîíňđîëü číôîđěŕöčč: číňĺđâŕë čëč ěŕęńčěóě îňęđűňűő ńîĺäčíĺíčé ń ńĺđâĺđîě, ďđč ęîňîđűő ěîćíî íŕ÷číŕňü číäĺęńčđîâŕňü ńĺđâĺđ.

ROBOTS ěĺňŕ-ňŕăč

Ýňîň ňŕă ďđĺäíŕçíŕ÷ĺí äë˙ ďîëüçîâŕňĺëĺé, ęîňîđűĺ íĺ ěîăóň ęîíňđîëčđîâŕňü ôŕéë /robots.txt íŕ ńâîčő âĺá-ńŕéňŕő. Ňŕă ďîçâîë˙ĺň çŕäŕňü ďîâĺäĺíčĺ ďîčńęîâîăî đîáîňŕ äë˙ ęŕćäîé HTML-ńňđŕíčöű, îäíŕęî ďđč ýňîě íĺëüç˙ ńîâńĺě čçáĺćŕňü îáđŕůĺíč˙ đîáîňŕ ę íĺé (ęŕę âîçěîćíî óęŕçŕňü â ôŕéëĺ /robots.txt).

robot_terms - ýňî đŕçäĺëĺííűé çŕď˙ňűěč ńďčńîę ńëĺäóţůčő ęëţ÷ĺâűő ńëîâ (çŕăëŕâíűĺ čëč ńňđî÷íűĺ ńčěâîëű đîëč íĺ čăđŕţň): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.

NONE - ăîâîđčň âńĺě đîáîňŕě čăíîđčđîâŕňü ýňó ńňđŕíčöó ďđč číäĺęńŕöčč (ýęâčâŕëĺíňíî îäíîâđĺěĺííîěó čńďîëüçîâŕíčţ ęëţ÷ĺâűő ńëîâ NOINDEX, NOFOLLOW).

ALL - đŕçđĺřŕĺň číäĺęńčđîâŕňü ýňó ńňđŕíčöó č âńĺ ńńűëęč čç íĺĺ (ýęâčâŕëĺíňíî îäíîâđĺěĺííîěó čńďîëüçîâŕíčţ ęëţ÷ĺâűő ńëîâ INDEX, FOLLOW).

INDEX - đŕçđĺřŕĺň číäĺęńčđîâŕňü ýňó ńňđŕíčöó

NOINDEX - íĺđŕçđĺřŕĺň číäĺęńčđîâŕňü ýňó ńňđŕíčöó

FOLLOW - đŕçđĺřŕĺň číäĺęńčđîâŕňü âńĺ ńńűëęč čç ýňîé ńňđŕíčöű

NOFOLLOW - íĺđŕçđĺřŕĺň číäĺęńčđîâŕňü ńńűëęč čç ýňîé ńňđŕíčöű

Ĺńëč ýňîň ěĺňŕ-ňŕă ďđîďóůĺí čëč íĺ óęŕçŕíű robot_terms, ňî ďî óěîë÷ŕíčţ ďîčńęîâűé đîáîň ďîńňóďŕĺň ęŕę ĺńëč áű áűëč óęŕçŕíű robot_terms= INDEX, FOLLOW (ň.ĺ. ALL). Ĺńëč â CONTENT îáíŕđóćĺíî ęëţ÷ĺâîĺ ńëîâî ALL, ňî đîáîň ďîńňóďŕĺň ńîîňâĺňńňâĺííî, čăíîđčđó˙ âîçěîćíî óęŕçŕííűĺ äđóăčĺ ęëţ÷ĺâűĺ ńëîâŕ.. Ĺńëč â CONTENT čěĺţňń˙ ďđîňčâîďîëîćíűĺ ďî ńěűńëó ęëţ÷ĺâűĺ ńëîâŕ, íŕďđčěĺđ, FOLLOW, NOFOLLOW, ňî đîáîň ďîńňóďŕĺň ďî ńâîĺěó óńěîňđĺíčţ (â ýňîě ńëó÷ŕĺ FOLLOW).

Ĺńëč robot_terms ńîäĺđćčň ňîëüęî NOINDEX, ňî ńńűëęč ń ýňîé ńňđŕíčöű íĺ číäĺęńčđóţňń˙. Ĺńëč robot_terms ńîäĺđćčň ňîëüęî NOFOLLOW, ňî ńňđŕíčöŕ číäĺęńčđóĺňń˙, ŕ ńńűëęč, ńîîňâĺňńňâĺííî, čăíîđčđóţňń˙.

KEYWORDS ěĺňŕ-ňŕă.

phrases - đŕçäĺëĺííűé çŕď˙ňűěč ńďčńîę ńëîâ čëč ńëîâîńî÷ĺňŕíčé (çŕăëŕâíűĺ č ńňđî÷íűĺ ńčěâîëű đîëč íĺ čăđŕţň), ęîňîđűĺ ďîěîăŕţň číäĺęńčđîâŕňü ńňđŕíčöó (ň.ĺ. îňđŕćŕţň ńîäĺđćŕíčĺ ńňđŕíčöű). Ăđóáî ăîâîđ˙, ýňî ňĺ ńëîâŕ, â îňâĺň íŕ ęîňîđűĺ ďîčńęîâŕ˙ ńčńňĺěŕ âűäŕńň ýňîň äîęóěĺíň.

DESCRIPTION ěĺňŕ-ňŕă.

text - ňîň ňĺęńň, ęîňîđűé áóäĺň âűâîäčňüń˙ â ńóěěŕđíîě îňâĺňĺ íŕ çŕďđîń ďîëüçîâŕňĺë˙ ę ďîčńęîâîé ńčńňĺěĺ. Ńĺé ňĺęńň íĺ äîëćĺí ńîäĺđćŕňü ňŕăîâ đŕçěĺňęč č ëîăč÷íĺĺ âńĺăî âďčńŕňü â íĺăî ńěűńë äŕííîăî äîęóěĺíňŕ íŕ ďŕđó-ňđîéęó ńňđîę.

Ďđĺäďîëŕăŕĺěűĺ âŕđčŕíňű čńęëţ÷ĺíč˙ ďîâňîđíűő ďîńĺůĺíčé ń ďîěîůüţ ěĺňŕ-ňŕăîâ HTML

Íĺęîňîđűĺ ęîěěĺđ÷ĺńęčĺ ďîčńęîâűĺ đîáîňű óćĺ čńďîëüçóţň ěĺňŕ-ňŕăč, ďîçâîë˙ţůčĺ îńóůĺńňâë˙ňü "ńâ˙çü" ěĺćäó đîáîňîě č âĺáěŕńňĺđîě. Altavista čńďîëüçóĺň KEYWORDS ěĺňŕ-ňŕă, ŕ Infoseek čńďîëüçóĺň KEYWORDS č DESCRIPTION ěĺňŕ-ňŕăč.

Číäĺęńčđîâŕňü äîęóěĺíň îäčí đŕç čëč äĺëŕňü ýňî đĺăóë˙đíî?

Âĺáěŕńňĺđ ěîćĺň "ńęŕçŕňü" ďîčńęîâîěó đîáîňó čëč ôŕéëó bookmark ďîëüçîâŕňĺë˙, ÷ňî ńîäĺđćčěîĺ ňîăî čëč číîăî ôŕéëŕ áóäĺň čçěĺí˙ňüń˙. Â ýňîě ńëó÷ŕĺ đîáîň íĺ áóäĺň ńîőđŕí˙ňü URL, ŕ áđîóçĺđ ďîëüçîâŕňĺë˙ âíĺńĺň čëč íĺ âíĺńĺň ýňî ôŕéë â bookmark. Ďîęŕ ýňŕ číôîđěŕöč˙ îďčńűâŕĺňń˙ ňîëüęî â ôŕéëĺ /robots.txt, ďîëüçîâŕňĺëü íĺ áóäĺň çíŕňü î ňîě, ÷ňî ýňŕ ńňđŕíčöŕ áóäĺň čçěĺí˙ňüń˙.

Ěĺňŕ-ňŕă DOCUMENT-STATE ěîćĺň áűňü ďîëĺçĺí äë˙ ýňîăî. Ďî óěîë÷ŕíčţ, ýňîň ěĺňŕ-ňŕă ďđčíčěŕĺňń˙ ń CONTENT=STATIC.

Ęŕę čńęëţ÷čňü číäĺęńčđîâŕíčĺ ăĺíĺđčđóĺěűő ńňđŕíčö čëč äóáëčđîâŕíčĺ äîęóěĺíňîâ, ĺńëč ĺńňü çĺđęŕëŕ ńĺđâĺđŕ?

Ăĺíĺđčđóĺěűĺ ńňđŕíčöű - ńňđŕíčöű, ďîđîćäŕĺěűĺ äĺéńňâčĺě CGI-ńęđčďňîâ. Čő íŕâĺđí˙ęŕ íĺ ńëĺäóĺň číäĺęńčđîâŕňü, ďîńęîëüęó ĺńëč ďîďđîáîâŕňü ďđîâŕëčňüń˙ â íčő čç ďîčńęîâîé ńčńňĺěű, áóäĺň âűäŕíŕ îřčáęŕ. ×ňî ęŕńŕĺňń˙ çĺđęŕë, ňî íĺăîćĺ, ęîăäŕ âűäŕţňń˙ äâĺ đŕçíűĺ ńńűëęč íŕ đŕçíűĺ ńĺđâĺđŕ, íî ń îäíčě č ňĺě ćĺ ńîäĺđćčěűě. ×ňîáű ýňîăî čçáĺćŕňü, ńëĺäóĺň čńďîëüçîâŕňü ěĺňŕ-ňŕă URL ń óęŕçŕíčĺě ŕáńîëţňíîăî URL ýňîăî äîęóěĺíňŕ (â ńëó÷ŕĺ çĺđęŕë - íŕ ńîîňâĺňńňâóţůóţ ńňđŕíčöó ăëŕâíîăî ńĺđâĺđŕ).

Čńňî÷íčęč

Charles P.Kollar, John R.R. Leavitt, Michael Mauldin, Robot Exclusion Standard Revisited, www.kollar.com/robots.html
Martijn Koster, Standard for robot exclusion, info.webcrawler.com/mak/projects/robots/robots.html

Ńňŕíäŕđň čńęëţ÷ĺíčé äë˙ đîáîňîâ Standard for robot exclusion

Martijn Koster , ďĺđĺâîä Ŕ. Ŕëčęáĺđîâŕ

Ńňŕňóń ýňîăî äîęóěĺíňŕ
Ââĺäĺíčĺ
Íŕçíŕ÷ĺíčĺ
Ôîđěŕň
Ďđčěĺđű
Ďđčěĺ÷ŕíč˙ ďĺđĺâîä÷čęŕ
Ŕäđĺńŕ ŕâňîđîâ

Ńňŕňóń ýňîăî äîęóěĺíňŕ

Ýňîň äîęóěĺíň ńîńňŕâëĺí 30 čţë˙ 1994 ăîäŕ ďî ěŕňĺđčŕëŕě îáńóćäĺíčé â ňĺëĺęîíôĺđĺíöčč robots-request@nexor.co.uk (ńĺé÷ŕń ęîíôĺđĺíöč˙ ďĺđĺíĺńĺíŕ íŕ WebCrawler. Ďîäđîáíîńňč ńě. Robots pages at WebCrawler info.webcrawler.com/mak/projects/robots/) ěĺćäó áîëüřčíńňâîě ďđîčçâîäčňĺëĺé ďîčńęîâűő đîáîňîâ č äđóăčěč çŕčíňĺđĺńîâŕííűěč ëţäüěč.Ňŕęćĺ ýňŕ ňĺěŕ îňęđűňŕ äë˙ îáńóćäĺíč˙ â ňĺëĺęîíôĺđĺíöčč Technical World Wide Web www-talk@info.cern.ch Ńĺé äîęóěĺíň îńíîâŕí íŕ ďđĺäűäóůĺě đŕáî÷ĺě ďđîĺęňĺ ďîä ňŕęčě ćĺ íŕçâŕíčĺě.

Ýňîň äîęóěĺíň íĺ ˙âë˙ĺňń˙ îôčöčŕëüíűě čëč ÷üčě-ëčáî ęîđďîđŕňčâíűě ńňŕíäŕđňîě, č íĺ ăŕđŕíňčđóĺň ňîăî, ÷ňî âńĺ íűíĺříčĺ č áóäóůčĺ ďîčńęîâűĺ đîáîňű áóäóň čńďîëüçîâŕňü ĺăî. Â ńîîňâĺňńňâčč ń íčě áîëüřčíńňâî ďđîčçâîäčňĺëĺé đîáîňîâ ďđĺäëŕăŕĺň âîçěîćíîńňü çŕůčňčňü Âĺá-ńĺđâĺđű îň íĺćĺëŕňĺëüíîăî ďîńĺůĺíč˙ čő ďîčńęîâűěč đîáîňŕěč.

Ďîńëĺäíţţ âĺđńčţ ýňîăî äîęóěĺíňŕ ěîćíî íŕéňč ďî ŕäđĺńó info.webcrawler.com/mak/projects/robots/robots.html

Ââĺäĺíčĺ

Ďîčńęîâűĺ đîáîňű (wanderers, spiders) - ýňî ďđîăđŕěěű, ęîňîđűĺ číäĺęńčđóţň âĺá-ńňđŕíčöű â ńĺňč Internet.

Â 1993 č 1994 ăîäŕő âű˙ńíčëîńü, ÷ňî číäĺęńčđîâŕíčĺ đîáîňŕěč ńĺđâĺđîâ ďîđîé ďđîčńőîäčň ďđîňčâ ćĺëŕíč˙ âëŕäĺëüöĺâ ýňčő ńĺđâĺđîâ. Â ÷ŕńňíîńňč, číîăäŕ đŕáîňŕ đîáîňîâ çŕňđóäí˙ĺň đŕáîňó ń ńĺđâĺđîě îáű÷íűő ďîëüçîâŕňĺëĺé, číîăäŕ îäíč č ňĺ ćĺ ôŕéëű číäĺęńčđóţňń˙ íĺńęîëüęî đŕç. Â äđóăčő ńëó÷ŕ˙ő đîáîňű číäĺęńčđóţň íĺ ňî, ÷ňî íŕäî, íŕďđčěĺđ, î÷ĺíü "ăëóáîęčĺ" âčđňóŕëüíűĺ äčđĺęňîđčč, âđĺěĺííóţ číôîđěŕöčţ čëč CGI-ńęđčďňű. Ýňîň ńňŕíäŕđň ďđčçâŕí đĺřčňü ďîäîáíűĺ ďđîáëĺěű.

Íŕçíŕ÷ĺíčĺ

Äë˙ ňîăî, ÷ňîáű čńęëţ÷čňü ďîńĺůĺíčĺ ńĺđâĺđŕ čëč ĺăî ÷ŕńňĺé đîáîňîě íĺîáőîäčěî ńîçäŕňü íŕ ńĺđâĺđĺ ôŕéë, ńîäĺđćŕůčé číôîđěŕöčţ äë˙ óďđŕâëĺíč˙ ďîâĺäĺíčĺě ďîčńęîâîăî đîáîňŕ. Ýňîň ôŕéë äîëćĺí áűňü äîńňóďĺí ďî ďđîňîęîëó HTTP ďî ëîęŕëüíîěó URL /robots.txt. Ńîäĺđćŕíčĺ ýňîăî ôŕéëŕ ńě. íčćĺ.

Ňŕęîĺ đĺřĺíčĺ áűëî ďđčí˙ňî äë˙ ňîăî, ÷ňîáű ďîčńęîâűé đîáîň ěîă íŕéňč ďđŕâčëŕ, îďčńűâŕţůčĺ ňđĺáóĺěűĺ îň íĺăî äĺéńňâč˙, âńĺăî ëčřü ďđîńňűě çŕďđîńîě îäíîăî ôŕéëŕ. Ęđîěĺ ňîăî ôŕéë /robots.txt ëĺăęî ńîçäŕňü íŕ ëţáîě čç ńóůĺńňâóţůčő Âĺá-ńĺđâĺđîâ.

Âűáîđ čěĺííî ňŕęîăî URL ěîňčâčđîâŕí íĺńęîëüęčěč ęđčňĺđč˙ěč:

Čě˙ ôŕéëŕ äîëćíî áűëî áűňü îäčíŕęîâűě äë˙ ëţáîé îďĺđŕöčîííîé ńčńňĺěű
Đŕńřčđĺíčĺ äë˙ ýňîăî ôŕéë˙ íĺ äîëćíî áűëî ňđĺáîâŕňü ęŕęîé-ëčáî ďĺđĺęîíôčăóđŕöčč ńĺđâĺđŕ
Čě˙ ôŕéëŕ äîëćíî áűëî áűňü ëĺăęî çŕďîěčíŕţůčěń˙ č îňđŕćŕňü ĺăî íŕçíŕ÷ĺíčĺ
Âĺđî˙ňíîńňü ńîâďŕäĺíč˙ ń ńóůĺńňâóţůčěč ôŕéëŕěč äîëćíŕ áűëŕ áűňü ěčíčěŕëüíîé

Ôîđěŕň

Ôîđěŕň č ńĺěŕíňčęŕ ôŕéëŕ /robots.txt ńëĺäóţůčĺ:

Ôŕéë äîëćĺí ńîäĺđćŕňü îäíó čëč íĺńęîëüęî çŕďčńĺé (records), đŕçäĺëĺííűő îäíîé čëč íĺńęîëüęčěč ďóńňűěč ńňđîęŕěč (îęŕí÷čâŕţůčěčń˙ CR, CR/NL čëč NL). Ęŕćäŕ˙ çŕďčńü äîëćíŕ ńîäĺđćŕňü ńňđîęč (lines) â ôîđěĺ:

"<field>:<optional_space><value><optional_space>".

Ďîëĺ <field> ˙âë˙ĺňń˙ đĺăčńňđîíĺçŕâčńčěűě.

Ęîěěĺíňŕđčč ěîăóň áűňü âęëţ÷ĺíű â ôŕéë â îáű÷íîé äë˙ UNIX ôîđěĺ: ńčěâîë # îçíŕ÷ŕĺň íŕ÷ŕëî ęîěěĺíňŕđč˙, ęîíĺö ńňđîęč - ęîíĺö ęîěěĺíňŕđč˙.

Çŕďčńü äîëćíŕ íŕ÷číŕňüń˙ ń îäíîé čëč íĺńęîëüęčő ńňđîę User-Agent, ńëĺäîě äîëćíŕ áűňü îäíŕ čëč íĺńęîëüęî ńňđîę Disallow, ôîđěŕň ęîňîđűő ďđčâĺäĺí íčćĺ. Íĺđŕńďîçíŕííűĺ ńňđîęč čăíîđčđóţňń˙.

User-Agent

çíŕ÷ĺíčĺě <value> ýňîăî ďîë˙ äîëćíî ˙âë˙ňüń˙ čě˙ ďîčńęîâîăî đîáîňŕ, ęîňîđîěó â ýňîé çŕďčńč óńňŕíŕâëčâŕţňń˙ ďđŕâŕ äîńňóďŕ.
ĺńëč â çŕďčńč óęŕçŕíî áîëĺĺ îäíîăî čěĺíč đîáîňŕ, ňî ďđŕâŕ äîńňóďŕ đŕńďđîńňđŕí˙ţňń˙ äë˙ âńĺő óęŕçŕííűő čěĺí.
çŕăëŕâíűĺ čëč ńňđî÷íűĺ ńčěâîëű đîëč íĺ čăđŕţň
ĺńëč â ęŕ÷ĺńňâĺ çíŕ÷