Os robôs dos mecanismos de busca estão constantemente escaneando sites para serem indexados. Mas por alguma razão você pode optar por esconder parte do seu site do robô ou até mesmo todo o site utilizando o robots.txt.
O primeiro passo é acessar a sua hospedagem de site, você pode utilizar o painel da hospedagem cPanel ou acessar via FTP, você precisa criar um arquivo robots.txt dentro da pasta /public_html.
Cada mecanismo de busca usa seu robô (crawler , bot ou user-agent) próprio. Ao criar robots.txt você pode especificar o robô usando o User-agent. Existem centenas de robôs, mas os mais comuns são:
Googlebot
Yahoo! Slurp
bingbot
AhrefsBot
Baiduspider
Ezooms
MJ12bot
YandexBot
Por exemplo, se você quer impedir o robô do Google de acessar o seu site, basta editar o robots.txt com a seguinte regra:
User-agent: Googlebot
Disallow: /
Caso você queira bloquear todos os robôs é só usar o *:
User-agent: *
Disallow: /
Se você quer prevenir que o robô acesse algum diretório ou arquivo específico, a regra é semelhante, mas você precisa especificar o nome do arquivo ou pasta. Digamos que você não quer que os robô acessem o diretório /administrador e o arquivo login.php apenas. Nesse caso o robots.txt vai ficar assim:
User-agent: *
Disallow: /administrador /
Disallow: /lohin.php
Dependendo do tamanho do seu site e dos recursos da sua hospedagem de site é interessante utilizar a opção Crawl-delay para diminuir a intensidade do rastreamento que o robô fará no seu site e evitar que o sobrecarregue:
User-agent: *
Crawl-delay: 10
Quando terminar de editar o arquivo robots.txt não esqueça de salvar as alterações.