пятница, 3 февраля 2017 г.

Файл Robots.txt для Блогспот/Blogger, где ты?

Отрубили фанфары праздничного оркестра, по поводу нововведений на платформе Блогспот! Сколько было разговоров "брызг шампанского", радости, веселья и надежд! Только, что праздничного салюта не было! Прошло время и... ТИШИНА!
Появившаяся надежда развернуть "Блоггер" лицом, а не задницей к поисковику всея Руси - Яндексу, застыла в мучительном ожидании.
Вордпресс по прежнему впереди Блогспота, как бы в укоризну "халявному фри-блоггингу" и постоянно всплывает набившая оскомину тема - плохая индексация Яндексом!
Как то решил проверить индексацию своего блога и ужаснулся - море дублированного контента в виде:

            http://адрес_страницы?showComment=1300141814394#c8988
Причин тут конечно же быть может много. Но мне кажется одна из них, это игнорирование новой возможности добавить, так называемый пользовательский файл Robots.txt, в настройку индексирования Яндекс-вебмастер.
Вообще написано на эту тему не мало, а варианты Robots.tx для Вордпресса, исчисляются сотнями.
Чего, к сожалению нельзя сказать про Блогспот. Тут для пересчета, вполне хватит пальцев одной руки!
Итак я подготовил краткий обзор имеющихся в Рунете вариантов, а в конце поста опубликую файл Robots.txt, который использую сам.
Так выглядит этот файл по-умолчанию (для тех, кто не знает где его найти, на всякий случай публикую скриншот).

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.

Сайт Шпаргалка блоггера предлагает следующий вариант:
User-agent: Mediapartners-Google
Disallow:
User-agent: * 
Disallow: / 
Allow: /*.html$ # (разрешает сканировать статичные страницы)
Allow: /$ # (разрешает сканировать Главную страницу)
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (карта сайта берется из RSS)

Публикую еще варианты:
Файл Robots.txt опубликованный на блоге "bratmos"
http://www.bratmos.com/2012/04/blogger-i-robotstxt.html?utm_source=BP_recent#axzz1zz9uaBhx

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /

Sitemap: http://bratmos.com/feeds/posts/default?orderby=updated

User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /


Еще один Robots.txt источник "avitra.ru"
http://www.avitra.ru/2012/03/robotstxt.html
User-аgent: Mediapartners-Google
Disаllow:
User-agent: *
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /

Sitemap: http://www.avitra.ru/feeds/posts/default?orderby=updated 

User-agent: Yandex
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /
Ну и наконец поговорим о Robots.txt, который установил у себя я. Как было уже отмечено в начале поста, каждый новый комментарий стал создавать проиндексированную страницу вида:

http://адрес_страницы?showComment=1300141814394#c8988727275282672241


Скорей всего это произошло именно у меня, из за кросспостинга. Я наладил цепочку - комментарий попадает в Твиттер, а оттуда в Яндексовский блог на Я.ру. Таким образом каждый новый комментарий пополняет Твиттер ленту (да не одну) и попадает в конечном итоге на Яндексовский ресурс. Своеобразный автоматический Пиар в сети. Но переборщил я видимо с Пиаром, вот и появились в индексе все комментарии, отдельными страницами.
Информация для любителей теории - считается,  что Яндекс учитывае атрибут rel="canonical", который не допускает дублирования страниц. Но в моем случае, видимо Яндекс на этот атрибут забил! Дублей становилось все больше и больше. Стало "попахивать" АГС! Поэтому срочно пришлось прописывать в файле Robots.txt:
Disallow: /feeds/comments 
Disallow: /*?showComment* 
На следующий день дублей showComment больше не стало, а поскольку ярлыков и архива у меня нет, то мой вариант теперь выглядит так:
User-agent: Mediapartners-Google 
Disallow: 

User-agent: * 
Disallow: /search 
Disallow: /p/search.html 
Allow: / 

Sitemap: http://blogodel.com/feeds/posts/default?orderby=updated 

User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Disallow: /feeds/comments 
Disallow: /*?showComment*
Allow: /

Внимание, если будете для себя применять эти файлы, обратите внимание на то, что в промежутках по вертикали расстояние должно быть в одну строчку!

Интересно было бы узнать, а какой файл Robots.txt у вас? 
Дорогие читатели, тема "Robots.txt для Блогспот" не закрыта и по мере накопления информации будет продолжение!
Ар! Кстати очень простая и удобная фишка, что бы подсмотреть файл Robots.txt на других, авторитетных сайтах. 
Адрес сайта/robots.txt
http://www.sait.ru/robots.txt
Спасибо Юстосу за материал!

Комментариев нет: