Semalt: Sådan blokerer du Darodar Robots.txt

Robots.txt-fil er en typisk tekstfil, der indeholder instruktioner om, hvordan webcrawlere eller bots skal gennemgå et websted. Deres anvendelse er tydelig i søgemaskinebots, som er almindelige i adskillige optimerede websteder. Som en del af Robots Exclusion Protocol (REP) udgør robots.txt-filen et væsentligt aspekt ved indeksering af webstedsindhold og gør det muligt for en server at autentificere brugeranmodninger i overensstemmelse hermed.

Julia Vashneva, Semalt Senior Customer Success Manager, forklarer, at linking er et aspekt af Search Engine Optimization (SEO), som involverer at vinde trafik fra andre domæner inden for din niche. For "følg" -linkene for at overføre linkjuice er det vigtigt at medtage en robots.txt-fil på dit websteds værtplads for at fungere som en instruktør for, hvordan serveren interagerer med dit websted. Fra dette arkiv er instruktionerne til stede ved at tillade eller afvise, hvordan nogle specifikke brugeragenter opfører sig.

Det grundlæggende format for en robots.txt-fil

En robots.txt-fil indeholder to vigtige linjer:

Bruger-agent: [bruger-agent-navn]

Forlad: [URL-streng må ikke gennemgås]

En komplet robots.txt-fil skal indeholde disse to linjer. Nogle af dem kan dog indeholde flere linjer med brugeragenter og direktiver. Disse kommandoer kan indeholde aspekter som f.eks. Tillader, afviser eller gennemgår forsinkelser. Der er normalt en linjeskift, der adskiller hvert sæt instruktioner. Hver af de tilladte eller ikke-tilladte instruktioner er adskilt af denne linjeskift, især for robots.txt med flere linjer.

eksempler

For eksempel kan en robots.txt-fil indeholde koder som:

Bruger-agent: darodar

Disallow: / plugin

Afvis: / API

Afvis: / _kommentarer

I dette tilfælde er dette en blok robots.txt-fil, der begrænser Darodar webcrawler fra at få adgang til dit websted. I ovenstående syntaks blokerer koden aspekter af webstedet, f.eks. Plugins, API og kommentarsektionen. Fra denne viden er det muligt at opnå adskillige fordele ved at udføre en robots tekstfil effektivt. Robots.txt-filer kan være i stand til at udføre adskillige funktioner. For eksempel kan de være klar til at:

1. Tillad alt webcrawlers indhold på en webside. For eksempel;

Bruger-agent: *

Disallow:

I dette tilfælde kan alle brugerindhold få adgang til af enhver webcrawler, der bliver bedt om at komme til et websted.

2. Bloker et specifikt webindhold fra en bestemt mappe. For eksempel;

Bruger-agent: Googlebot

Afvis: / eksempel-undermappe /

Denne syntaks, der indeholder brugeragentnavn Googlebot, tilhører Google. Det begrænser bot fra at få adgang til enhver webside i strengen www.ourexample.com/example-subfolder/.

3. Bloker en bestemt webcrawler fra en bestemt webside. For eksempel;

Bruger-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Brugeragenten Bing bot tilhører Bing webcrawlere. Denne type robots.txt-fil begrænser Bing-webcrawleren fra at få adgang til en bestemt side med strengen www.ourexample.com/example-subfolder/blocked-page.

Vigtig information

  • Ikke enhver bruger bruger din robts.txt-fil. Nogle brugere kan beslutte at ignorere det. De fleste af sådanne webcrawlere inkluderer trojanere og malware.
  • For at en Robots.txt-fil skal være synlig, skal den være tilgængelig i øverste webstedsmappe.
  • Tegnene "robots.txt" er store og små bogstaver. Som et resultat bør du ikke ændre dem på nogen måde, herunder aktivering af nogle aspekter.
  • "/Robots.txt" er public domain. Alle kan være i stand til at finde disse oplysninger, når de tilføjer dem til indholdet af en hvilken som helst URL. Du bør ikke indeksere vigtige detaljer eller sider, som du vil have dem til at forblive private.

send email