Blog o "blogger": Файл Robots.txt для Блогспот/Blogger, где ты?

пятница, 3 февраля 2017 г.

Файл Robots.txt для Блогспот/Blogger, где ты?

Отрубили фанфары праздничного оркестра, по поводу нововведений на платформе Блогспот! Сколько было разговоров "брызг шампанского", радости, веселья и надежд! Только, что праздничного салюта не было! Прошло время и... ТИШИНА!

Появившаяся надежда развернуть "Блоггер" лицом, а не задницей к поисковику всея Руси - Яндексу, застыла в мучительном ожидании.

Вордпресс по прежнему впереди Блогспота, как бы в укоризну "халявному фри-блоггингу" и постоянно всплывает набившая оскомину тема - плохая индексация Яндексом!

Как то решил проверить индексацию своего блога и ужаснулся - море дублированного контента в виде:

http://адрес_страницы?showComment=1300141814394#c8988

Причин тут конечно же быть может много. Но мне кажется одна из них, это игнорирование новой возможности добавить, так называемый пользовательский файл Robots.txt, в настройку индексирования Яндекс-вебмастер.

Вообще написано на эту тему не мало, а варианты Robots.tx для Вордпресса, исчисляются сотнями.

Чего, к сожалению нельзя сказать про Блогспот. Тут для пересчета, вполне хватит пальцев одной руки!

Итак я подготовил краткий обзор имеющихся в Рунете вариантов, а в конце поста опубликую файл Robots.txt, который использую сам.

Так выглядит этот файл по-умолчанию (для тех, кто не знает где его найти, на всякий случай публикую скриншот).

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.

Сайт Шпаргалка блоггера предлагает следующий вариант:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /
Allow: /*.html$ # (разрешает сканировать статичные страницы)
Allow: /$ # (разрешает сканировать Главную страницу)
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (карта сайта берется из RSS)

Публикую еще варианты:

Файл Robots.txt опубликованный на блоге "bratmos"
http://www.bratmos.com/2012/04/blogger-i-robotstxt.html?utm_source=BP_recent#axzz1zz9uaBhx

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /

Sitemap: http://bratmos.com/feeds/posts/default?orderby=updated

User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /

Еще один Robots.txt источник "avitra.ru"
http://www.avitra.ru/2012/03/robotstxt.html

User-аgent: Mediapartners-Google
Disаllow:

User-agent: *
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /

Sitemap: http://www.avitra.ru/feeds/posts/default?orderby=updated

User-agent: Yandex
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /

Ну и наконец поговорим о Robots.txt, который установил у себя я. Как было уже отмечено в начале поста, каждый новый комментарий стал создавать проиндексированную страницу вида:

http://адрес_страницы?showComment=1300141814394#c8988727275282672241

Скорей всего это произошло именно у меня, из за кросспостинга. Я наладил цепочку - комментарий попадает в Твиттер, а оттуда в Яндексовский блог на Я.ру. Таким образом каждый новый комментарий пополняет Твиттер ленту (да не одну) и попадает в конечном итоге на Яндексовский ресурс. Своеобразный автоматический Пиар в сети. Но переборщил я видимо с Пиаром, вот и появились в индексе все комментарии, отдельными страницами.

Информация для любителей теории - считается, что Яндекс учитывае атрибут rel="canonical", который не допускает дублирования страниц. Но в моем случае, видимо Яндекс на этот атрибут забил! Дублей становилось все больше и больше. Стало "попахивать" АГС! Поэтому срочно пришлось прописывать в файле Robots.txt:

Disallow: /feeds/comments
Disallow: /*?showComment*

На следующий день дублей showComment больше не стало, а поскольку ярлыков и архива у меня нет, то мой вариант теперь выглядит так:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /p/search.html
Allow: /

Sitemap: http://blogodel.com/feeds/posts/default?orderby=updated

User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Disallow: /feeds/comments
Disallow: /*?showComment*
Allow: /

Внимание, если будете для себя применять эти файлы, обратите внимание на то, что в промежутках по вертикали расстояние должно быть в одну строчку!