Перейти к содержанию

Редактирование Robots.txt для IPS 4.5


Ryancoolround

Рекомендуемые сообщения

  • Администратор

У нашего сайта стали попадать в Яндекс подобные страницы. Они на мой взгляд мешают быстрой и правильной индексации. Эта страница, что на скриншоте, она показывает людей, которые прочли тему. Ну зачем это отдавать в Яндекс?

Кто знает, как правильно прописать в Robots.txt, параметр отвечающий за  запрет индексации страниц оканчивающихся на =readers?

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты

  • 1 месяц спустя...
16.08.2020 в 09:50, Ryancoolround сказал:

Кто знает, как правильно прописать в Robots.txt, параметр отвечающий за  запрет индексации страниц оканчивающихся на =readers?

Не использовать плагин Who Read This Topic, и таких страниц не будет.

Ссылка на комментарий
Поделиться на другие сайты

  • Администратор
8 минут назад, st1ngny7777 сказал:

Не использовать плагин Who Read This Topic

Верно, мы использовали такой плагин. И я уже отказался от его дальнейшего использования. Но вопрос был сформулирован, максимально точно.

Не что использовать, а как правильно прописать, что бы робот не трогал эти страницы.

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты

  • 6 месяцев спустя...
  • Администратор

Если хотите полностью запретить сайту попадать в поисковики, пропишите в Robots.txt следующее содержимое:

User-agent: *
Disallow: /

 

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты

  • 3 недели спустя...
  • Администратор

Более менее приемлемый Robots.txt для IPS 4.5.4.2

User-agent: *
Disallow: /admin
Disallow: /api
Disallow: /applications
Disallow: /datastore
Disallow: /dev
Disallow: /oauth
Disallow: /plugins
Disallow: /system
Disallow: /uploads
Disallow: /vendor
Disallow: /404error.php
Disallow: /Credits.txt
Disallow: /error.php
Disallow: /login
Disallow: /logout
Disallow: /register
Disallow: /lostpassword
Disallow: /privacy
Disallow: /cookies
Disallow: /guidelines
Disallow: /terms
Disallow: /online
Disallow: /staff
Disallow: /contact
Disallow: /announcement*
Disallow: /search
Disallow: /discover*
Disallow: /rss*
Disallow: /tags*
Disallow: /activity
Disallow: /new-content
Disallow: /promote*
Disallow: /ourpicks
Disallow: /leaderboard
Disallow: /pastleaders
Disallow: /topmembers
Disallow: /*do=*
Disallow: /*sort=*
Disallow: /*sortby=*
Disallow: /*csrf=*
Disallow: /*csrfKey=*
Disallow: */?tab=*
Disallow: */?_fromLogin=*
Disallow: */?_fromLogout=*
Disallow: */submit
Disallow: */create
Disallow: */edit
Allow: /uploads/monthly_*_*/*

Host: https://ip-gamers.net
Sitemap: https://ip-gamers.net/sitemap.php

Убедитесь, что в двух последних строчках вы заменили адрес на тот, который вам нужен.

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты

  • Администратор
В 25.04.2021 в 23:45, Ryancoolround сказал:

Более менее приемлемый Robots.txt для IPS 4.5.4.2

User-agent: *
Disallow: /admin
Disallow: /api
Disallow: /applications
Disallow: /datastore
Disallow: /dev
Disallow: /oauth
Disallow: /plugins
Disallow: /system
Disallow: /uploads
Disallow: /vendor
Disallow: /404error.php
Disallow: /Credits.txt
Disallow: /error.php
Disallow: /login
Disallow: /logout
Disallow: /register
Disallow: /lostpassword
Disallow: /privacy
Disallow: /cookies
Disallow: /guidelines
Disallow: /terms
Disallow: /online
Disallow: /staff
Disallow: /contact
Disallow: /announcement*
Disallow: /search
Disallow: /discover*
Disallow: /rss*
Disallow: /tags*
Disallow: /activity
Disallow: /new-content
Disallow: /promote*
Disallow: /ourpicks
Disallow: /leaderboard
Disallow: /pastleaders
Disallow: /topmembers
Disallow: /*do=*
Disallow: /*sort=*
Disallow: /*sortby=*
Disallow: /*csrf=*
Disallow: /*csrfKey=*
Disallow: */?tab=*
Disallow: */?_fromLogin=*
Disallow: */?_fromLogout=*
Disallow: */submit
Disallow: */create
Disallow: */edit
Allow: /uploads/monthly_*_*/*

Host: https://ip-gamers.net
Sitemap: https://ip-gamers.net/sitemap.php

Убедитесь, что в двух последних строчках вы заменили адрес на тот, который вам нужен.

После последнего редактирования Robots.txt у нас из Яндекса начали удалятся наконец таки ненужные страницы.

Надеюсь все будет хорошо, и конкретно контент будет попадать в поиск немного быстрее.

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты

  • Администратор
30.04.2021 в 20:34, Ryancoolround сказал:

Не знаю почему, но Bing (Да я сейчас занимаюсь индексацией сайта в Bing) пометил эту строчку с ошибкой. Может кто то подсказать, что в ней не так?

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты

  • 5 месяцев спустя...
  • Администратор
Disallow: /ban
Disallow: /statscss

Добавления переменных сверху в ваш Robots.txt запретить поисковикам индексировать все, что лежит в папках ban и statscss.

Это особенно полезно в тех случаях, когда например страницы с чатом в статистике индексируются роботами и из-за этого нормальные страницы медленнее попадают в поиск.

И правда, я не знаю правильно ли я указал эти переменные, но чуть позже проверю изменения в индексации.

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты

  • 2 недели спустя...
  • Администратор

Стоит так же рассказать немного шаблонной теории про Robots.TXT

Работает Robots.TXT следующим образом. Поисковые системы проверяют корень домена, и находят файл robots.txt, он всегда будет лежать именно в корне сайта: (https://ip-gamers.net/robots.txt).

  • User-agent - это имя робота.
  • Пример: User-agent: googlebot

Символ * используется для того, чтобы установить правила для всех ботов. То есть любой зашедший бот, будет подчиняться единым правилам.

  • Пример: User-agent: *

Disallow исключает определенные файлы или каталоги из поиска. Если мы хотим исключить файл text.html из поиска, мы вводим следующую строку в robots.txt:

  • Disallow: test.html

Чтобы исключить каталог из индексирования, например, probe, мы вводим следующую строку в robots.txt:

  • Disallow: /probe/

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты

  • 1 год спустя...
В 25.04.2021 в 23:45, Райан сказал:

Более менее приемлемый Robots.txt для IPS 4.5.4.2

User-agent: *
Disallow: /admin
Disallow: /api
Disallow: /applications
Disallow: /datastore
Disallow: /dev
Disallow: /oauth
Disallow: /plugins
Disallow: /system
Disallow: /uploads
Disallow: /vendor
Disallow: /404error.php
Disallow: /Credits.txt
Disallow: /error.php
Disallow: /login
Disallow: /logout
Disallow: /register
Disallow: /lostpassword
Disallow: /privacy
Disallow: /cookies
Disallow: /guidelines
Disallow: /terms
Disallow: /online
Disallow: /staff
Disallow: /contact
Disallow: /announcement*
Disallow: /search
Disallow: /discover*
Disallow: /rss*
Disallow: /tags*
Disallow: /activity
Disallow: /new-content
Disallow: /promote*
Disallow: /ourpicks
Disallow: /leaderboard
Disallow: /pastleaders
Disallow: /topmembers
Disallow: /*do=*
Disallow: /*sort=*
Disallow: /*sortby=*
Disallow: /*csrf=*
Disallow: /*csrfKey=*
Disallow: */?tab=*
Disallow: */?_fromLogin=*
Disallow: */?_fromLogout=*
Disallow: */submit
Disallow: */create
Disallow: */edit
Allow: /uploads/monthly_*_*/*

Host: https://ip-gamers.net
Sitemap: https://ip-gamers.net/sitemap.php

Убедитесь, что в двух последних строчках вы заменили адрес на тот, который вам нужен.

В последних версиях ips robots.txt генерируется автоматически, если в разделе сканирования выбрать Оптимальный для Invision Community. Так что теперь, если на домене нет ничего лишнего, то robots.txt можно удалить?

Ссылка на комментарий
Поделиться на другие сайты

  • Администратор
В 21.04.2023 в 00:20, Knife|rus| сказал:

В последних версиях ips robots.txt генерируется автоматически, если в разделе сканирования выбрать Оптимальный для Invision Community. Так что теперь, если на домене нет ничего лишнего, то robots.txt можно удалить?

Нет, не рекомендуется удалять файл robots.txt, даже если он автоматически сгенерирован и не содержит никаких запретов на индексацию.

Файл robots.txt используется для указания поисковым роботам, какие страницы сайта нужно индексировать, а какие - нет. Даже если сайт не содержит никаких запретов на индексацию, рекомендуется оставить файл robots.txt на месте, чтобы избежать возможных проблем с индексацией в будущем.

Кроме того, в файле robots.txt можно указать другую полезную информацию для поисковых роботов, например, местоположение карты сайта или ссылки на другие файлы, которые нужно проиндексировать.

Таким образом, даже если файл robots.txt на вашем сайте не содержит никаких запретов на индексацию, лучше оставить его на месте и убедиться, что он корректно сгенерирован для вашей платформы.

А ну ка пыль сдуй отсюда!

Ссылка на комментарий
Поделиться на другие сайты



×
×
  • Создать...