Знаете ли вы, как предотвратить индексацию страниц после домашней страницы в WP? mysite.com/page/2
Я имею в виду, что я не хочу mysite.com/page/3
индексироваться.
Это потому, что я использую home.php
для своей темы, так что page/2
все page/3
одинаковые.
Пожалуйста, дайте мне подсказку или фрагмент кода, я не хочу добавлять еще один плагин (мета роботов).
@rich@ – Вы хотите ограничить все поисковые системы или достаточно только Google (и Bing)?
все поисковые системы, но какое это имеет значение
@rich — Ну, вы можете легко «вынюхать» несколько поисковых систем и выполнить перенаправление, но намного сложнее вынюхать каждую поисковую систему, просто посмотрите этот список: thesearchenginelist.com Это все равно, что найти иголку в стоге сена. против доказательства того, что его нет. Вы можете использовать трюк с мета-роботами, но не все пауки ведут себя. Какова ваша причина сделать это? Я не задаю вам вопросов, просто проще предложить вам решение, отвечающее вашим целям, если я знаю, каковы ваши цели.
Во избежание штрафа за дублирование контента. Если есть много страниц с тем же содержанием, что и домашняя страница, это может быть проблемой.
нежелательная нумерация страниц? Я не использую теги плагинов или шаблонов для разбиения на страницы, поскольку мне это не нужно. Но я все еще вижу mysite.com/page/2 в индексе Google?
Кроме того, я думаю, что, кроме подстраниц сайта, нет страниц с постоянными ссылками /page/, поэтому вышеизложенное будет работать, но Майк говорит выше, что «не все спайдеры ведут себя», поэтому я ищу решение wp который перенаправляет или предотвращает индексацию. А пока я буду использовать этот. Спасибо.
@Rarst: WordPress пытается справиться
robots.txt
сам с собой, поэтому, если вы хотите поиграть с ним, вам следует подключиться к крючкамdo_robotstxt
orrobots_txt
.@Jan Fabry Я знаю это сейчас, но я
robots.txt
давным-давно использовал это в своем блоге, и у меня никогда не было проблем. Если нормальныйrobots.txt
присутствует, WP просто держится подальше от него.@Jan Fabry, устанавливая блог как частный, также добавляет метатеги nofolow и noindex на все страницы, поэтому поисковые системы по-прежнему блокируются.
Как именно вы настраиваете свою домашнюю страницу? Я думаю, что проблема в том, что на первом месте нежелательная нумерация страниц, а не в том, что эта нумерация страниц индексируется.
В общем
robots.txt
, файл — это хороший способ предотвратить массовое индексирование. Я думаю, что в вашем случае это будет следующая директива (пожалуйста, проверьте ее, чтобы она не влияла на нумерацию страниц в других местах):Если это связано с SEO и предупреждениями в консоли поиска Google, их можно игнорировать. wp/Page2 и так далее все равно должны быть проиндексированы. Этот ответ и статья с ответом от Google:
Некоторое время SEO-специалисты считали хорошей идеей добавить метатег noindex robots на страницу 2 и далее в архив с разбивкой на страницы. Это помешает людям найти страницу 2 и далее в результатах поиска. Идея заключалась в том, что поисковая система по-прежнему будет переходить по всем этим ссылкам, поэтому все связанные страницы будут правильно проиндексированы.
Проблема в том, что в конце прошлого года Google сказал то, что привлекло наше внимание: долгосрочный noindex на странице приведет к тому, что они не будут переходить по ссылкам на этой странице. Это делает добавление noindex на страницу 2 и далее в архивы с разбивкой на страницы плохой идеей, так как это может привести к тому, что ваши статьи больше не будут получать внутренние ссылки, которые им нужны.
Из-за того, что Google сказал о долгосрочном noindex, в Yoast SEO v6.3 мы удалили возможность добавлять noindex к подстраницам архивов. Должна ли страница 2 и далее архива иметь каноническую ссылку на страницу 1 или на себя? Идея заключалась в том, что вы в основном хотите, чтобы посетители оказывались на первой странице архива. Эта страница обычно наиболее актуальна для большинства пользователей.
Google теперь очень ясно: каждая страница в серии с разбивкой на страницы должна канонизироваться сама по себе, поэтому /page/2/ имеет канонический указатель на /page/2/. Вот почему вы видите, что ваши разбитые на страницы архивы индексируются.
Чтобы узнать больше об этом, вы можете обратиться к этой статье — https://yoast.com/pagination-seo-best-practices/
Если вы пытаетесь предотвратить дублирование контента, вы должны смотреть в корень проблемы. Вы заявляете, что ваша домашняя страница использует шаблон home.php, включает ли он некоторый статический текст, который вы передаете на все остальные страницы, используя домашний шаблон? Если это так, либо удалите его, либо создайте уникальный домашний шаблон, который, честно говоря, должен быть home.php.
если по какой-либо причине вы хотите сохранить страницы, которые отображают тот же контент, что и ваша домашняя страница, но используют другой URL-адрес, вы всегда можете прибегнуть к каноническим.
Если вы замените содержимое вашего header.php следующим, вы можете указать разные заголовки, один из которых будет включать каноническое это, а другой — нет.
И затем вы просто убедитесь, что вы включили канонический, который ссылается на вашу домашнюю страницу.
Это сообщит Google, какой URL-адрес подходит для контента, который он просматривает, не прибегая к использованию плагина.
В любом случае все это кажется немного странным, и я боюсь, что просто неправильно понимаю вашу просьбу, поскольку она кажется бессмысленной. Знаете ли вы, как работает дублированный контент? Или мне пора возвращаться в постель.
Я не вижу смысла в добровольном создании новых страниц с одинаковым контентом, а не в поиске решения для предотвращения дублирования контента.
Я думаю, что метатеги robots — это то, что нужно настроить. Вы хотите, чтобы пауки переходили на страницу 2 и переходили по ссылкам на ваши статьи, но вы не хотите, чтобы они на самом деле индексировали эту страницу (поскольку она изменится). Итак, в вашем header.php найдите метатег robots и измените его на следующее:
Использование файла robots.txt, к сожалению, приведет к тому, что паук не будет переходить по ссылкам и не найдет статьи, которые находятся на других страницах.