steven
  • 0
Эксперт

Что такое хороший robots.txt?

  • 0

Для чего «наилучшая» установка robots.txt ?

Я использую следующую структуру постоянных ссылок /%category%/%postname%/ .

Мой robots.txt сейчас выглядит так (скопировано откуда-то давно):

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
  1. Я хочу, чтобы мои комментарии были проиндексированы. Так что я могу удалить это
  2. Хочу ли я запретить индексирование категорий из-за моей структуры постоянных ссылок?
  3. Статья может иметь несколько тегов и быть в нескольких категориях. Это может привести к дублированию в поисковых системах, таких как Google. Как мне обойти это?

Не могли бы вы изменить что-нибудь еще здесь?

Share
  1. Вы можете получить более подробные ответы на Stack Exchange для профессиональных веб-мастеров, а затем вернуться сюда, чтобы узнать, как реализовать эти советы в WordPress.

    • 0
  2. FWIW, URL-адреса обратной связи вызывают перенаправления и не содержат контента, поэтому они не будут проиндексированы.

    И, рискуя не ответить на вопрос, повторите свои пункты 2 и 3:

    http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

    Другими словами, я думаю, что вы тратите свое время на беспокойство о дублированном содержании, и ваш robots.txt должен быть ограничен:

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-content/cache
    
    • 0
  3. Прошло много времени с тех пор, как этот вопрос и ответ были опубликованы. С тех пор многое изменилось. Типичная рекомендация запретить поисковым роботам доступ к wp-content/themes, wp-content/plugins, wp-content/cache, wp-includes и любому другому каталогу, содержащему файлы CSS или js, необходимые на сайте, больше не действует.

    Например, давайте поговорим о Google. Googlebot рендерил сайты без CSS и без js, но не на самом деле. На самом деле робот Google обрабатывает весь документ и проверяет такие вещи, как отзывчивость, количество, расположение и размер скриптов и т. д. Так что Google не понравится, если вы запретите роботу Googlebot доступ к файлам CSS и js. Это означает, что вы не должны запрещать файлы wp-content/themes, wp-content/plugins, wp-content/cache и wp-includes из-за того, что все эти папки могут обслуживать файлы CSS и js.

    С моей точки зрения, на самом деле лучший файл robots.txt — это тот, который создается WordPress по умолчанию ( приведенный ниже файл robots.txt используется по умолчанию, начиная с WP 4.0 ):

    User-agent: *
    Disallow: /wp-admin/
    

    Если у вас есть папка cgi-bin, может быть хорошей идеей запретить папку cgi-bin:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /cgi-bin/
    

    И если вы используете карту сайта, рекомендуется включить ссылку на карту сайта в robots.txt (вам все равно нужно вручную отправить карту сайта в Google и Bing Webmaster Tools, но ссылка может быть полезна для других поисковых роботов):

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /cgi-bin/
    
    Sitemap: http://example.com/sitemap.xml
    

    То есть в целом. Конкретные веб-сайты могут потребовать запретить другие папки и файлы, что следует изучить в каждом конкретном случае. Например, вам может понадобиться или вы можете захотеть запретить определенную папку плагина:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-content/plugins/plugin-folder/
    

    Чтобы изменить robots.txt, используйте robots_txt фильтр (при использовании настоящего файла robots.txt WordPress больше не сможет обрабатывать robots.txt). Например:

    add_filter( 'robots_txt', function( $output ) {
    
        $output .= "Disallow: /cgi-bin/\n";
        $output .= "Disallow: /wp-content/plugins/plugin-folder-i-want-to-block/\n";
        $output .= "\nSitemap: " . site_url( 'sitemap.xml' ) . "\n";
    
        return $output;
    
    });
    
    • 0
  4. Вы видели SEO-плагин Yoast для WordPress ? Он определенно решает проблемы robots.txt.

    • 0
  5. С небольшой помощью, теперь это шахты (по-видимому, не сильно отличающиеся от всех остальных)

    User-agent: *
        Allow: /
    
    Disallow: /wp-content/
        Disallow: /wp-admin/
        Disallow: /cat/
        Disallow: /key/
        Disallow: /*?
        Disallow: /*.js$
        Disallow: /*.inc$
        Disallow: /*.css$
        Disallow: /cgi-bin
        Disallow: /wp-admin
        Disallow: /wp-includes
        Disallow: /wp-content/plugins
        Disallow: /wp-content/cache
        Disallow: /wp-content/themes
    
    User-agent: Mediapartners-Google
        Allow: /
    
    User-agent: Adsbot-Google
        Allow: /
    
    User-agent: Googlebot-Image
        Allow: /
    
    User-agent: Googlebot-Mobile
        Allow: /
    
    #User-agent: ia_archiver-web.archive.org
        #Disallow: /
    
    Sitemap: YOURSITENAME.HERE
    
    • 0
  6. Вы должны следовать нынешнему подходу Joost de Valk, согласно которому очень мало блокируется в robots.txt, но также понимать, что каждый сайт будет иметь уникальную подходящую политику, которую необходимо будет пересматривать и изменять с течением времени.

    Многие ответы, приведенные здесь ранее, устарели и приведут к самосаботажу SEO, поскольку Google теперь проверяет «удобство для мобильных устройств». Сегодня гугл-боты пытаются загрузить все, что делает обычный браузер, включая шрифты, изображения, JavaScript и ресурсы CSS из /wp-content, /themes, /plugins и т. д. ( об этом недавно написал в своем блоге Мортен Рэнд-Хендриксен ).

    Вы можете использовать «удобную для мобильных устройств» проверку сайта Google, чтобы узнать, robots.txt не саботирует ли ваш файл ваш сайт. Если вы используете Инструменты Google для веб-мастеров, вы должны получать оповещения и уведомления по электронной почте, если возникает большая проблема.

    Если вы не следите за тем, чтобы никакие ключевые презентационные или интерактивные ресурсы не загружались из запрещенных папок, это, вероятно, минимальный минимум, с которым безопасна каждая установка WordPress:

    User-agent: *
    Disallow: /wp-admin
    

    И не забудьте добавить карту сайта:

    Sitemap: http://yoursite.com/sitemap.xml
    

    К сожалению, эта более открытая политика сегодня воссоздает потенциал для других проблем, которые раньше заставляли людей быть более строгими в отношении robots.txt, таких как [разработчики плагинов и тем, включая индексируемые страницы со ссылками на их собственные сайты]. 4 С этим ничего не поделаешь, если только вы не в состоянии тщательно изучить весь сторонний код и переместить или удалить то, что вы не хотите индексировать.

    • 0
  7. К вашему сведению, ВСЕГДА начинайте свою постоянную ссылку с цифры. По опыту это ускоряет страницу, потому что WordPress может быстро отличить страницу от записи (я также читал, что где-то еще пробовал… и это правда). так что http:example.com/%month%/%post% … все будет хорошо

    Я просто скопирую то, что у меня есть. На это ушло много исследований. Это, наверное, перебор! Это помогает Google распознавать основные ключевые слова вашего сайта, как видно из инструмента Google для веб-мастеров. Надеюсь, поможет

    User-agent: *
    Allow: /
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /cgi-bin/
    Sitemap: Url to sitemap1
    Sitemap: Url to sitemap2
    
    User-agent: Googlebot
    # disallow all files ending with these extensions
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.cgi$
    Disallow: /*.wmv$
    Disallow: /*.ico$
    Disallow: /*.opml$
    Disallow: /*.shtml$
    Disallow: /*.jpg$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /wp-*
    Allow: /wp-content/uploads/ 
    
    # allow google image bot to search all images
    User-agent: Googlebot-Image
    Allow: /*
    
    User-agent:  *
    Disallow: /about/
    Disallow: /contact-us/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-
    
    # disallow archiving site
    User-agent: ia_archiver
    Disallow: /
    
    # disable duggmirror
    User-agent: duggmirror
    Disallow: /
    
    User-agent: Googlebot
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    
    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    
    • 0
  8. [url=https://loans-online-apply.com/]small loans[/url]
    online loans
    [url=https://youloan24.com/]need fast easy personal loans online[/url]
    pay day loan
    [url=https://loanstoonline.com/]loans with no credit check[/url]
    personal cash loans

    • 0

Оставить ответ

You must login to add an answer.