Как усложнить парсинг(грабинг) сайта?
1.
lekt (12.08.2013 / 14:16)
Из гугла понял что полностью защититься от этого не возможно, но можно усложнить этот процесс, что отпугнет большинство грабителей.
Интересует как именно это реализовать средствами php, возможно .htaccess, примеры кода приветствуются.
Было бы пофиг на грабеж, но вот письмецо пришло от хостера что я использовал 81% трафика, месячный лимит 1000 Гб, мне этого с головой хватало на месяц и еще оставалось больше половины. А это и пол месяца не прошло, и уже 800 гиг улетели, при том что посещаемость не увеличилась.
2.
Сергей (12.08.2013 / 14:28)
только зареганным юзерам позволяй пользоваться определенными разделами... в сессии какие то параметры прописывай и при пользовании разделом проверяй.
3.
Александр (12.08.2013 / 15:02)
Периодически изменяй структуру страниц сайта, оборачивай теги в другие, изменяй класс и id, так делает кинопоиск.
4.
Станислав Крунич (12.08.2013 / 15:10)
base64_decode('твоя html разметка') и ни один грабитель тебя не ограбит. Любой браузер это хорошо понимает. Но есть Одно НО, бот не поймет, поэтому нужно применять условия на юзер агент. Скачай список поисковых ботов (+ IP диапазоны, в инете есть такое) и отдавай им оригинал, а всем остальным - шифр. Будет все корректно, никто тебя не тронет )
5.
lekt (12.08.2013 / 15:36)
4.
Stanislav-WEB, немного стремновато, если Яша или Гоша спалят, можно бан за коучинг схлопотать, а они мне 2 - 3 кило трафа в сутки дают.
С авторизацией не вариант, сайт адалт.
На счет структуры неплохой вариант, можно попробовать сделать пару дивов динамическими.
А как насчет .htaccess? Можно как то сделать запрет на загрузку не из моего сайта?
6.
Николай (12.08.2013 / 15:45)
поправите есле не прав нужно сделать так чтоб содержимое странички при каждой загрузке менялось то есть при написании грабера вырезают от СИХ до СИХ надо сделать так чтоб второе СИХ всегда было разным
Добавлено через 00:47 сек.
ой сори не прочел предыдущий пост
7.
Станислав Крунич (12.08.2013 / 15:55)
это обходить легко с помощью phpQuery )). Через htaccess ты только забанить сможешь ip или диапазон того кто коннектиться
8.
Кевин Митник (12.08.2013 / 20:01)
есть много способов, но 100% тебе никто не даст.
к примеру подключать динамически некоторые элементы, после загрузки страницы. гугл работает с яваскриптами, а curl - нет.
9.
Neformat (12.08.2013 / 20:59)
Мониторить логи на предмет парсинга, и банить IP в htaccess. Самый просто и действенный способ.
URL:
https://visavi.net/topics/38684