Зaщитa oт гpaбa?

Печать RSS
1391


Пацак
0
Ну дык прокси платные над) они норм, а халявные само собой подтормаживать будут.
----------------------------------------------------------------------------
По теме, за свою жизнь написал очень много грабберов и могу сказать одно, что можно лишь усложнить задачу написания, но на 100% никак, т.к.с помощью пыха можно с небольшим трудом эмитировать любой браузер..конечно, можно делать лимит на кол-во запросов с одного ип, но это обходится опять же проксями, просто над не одним а допустим 10 штук, и чередовать, тип 5 запросов один, 5 запросов 2-й и так по кругу...бан по ип, тоже так же обходится, но уже с анонимными проксями, так как из обычных прокси вроде ип определить можно, по аналогии с ОМ..вот, так что единственный способ это маркировать груз.) когда на скринах и на файлах смачный маркер, интирес писать граббер у многих отпадает) ну а если к примеру мп3 грабить, то тут никак не спастись, т.к.теги легко меняются, так что не стоит заморачиваться обходами..лучше заставь грабберы работать на твой сайт)) а это легко делается, уж поверь)

Ктулху
0
Заморочиться сбором подсетей ДЦ (прокси же тоже там стоят), и им выдавать рекламку вместо ЗЦ)
N

Эцилопп сией тентуры
0
как то в голову приходила мысль динамического зц...
Т.е ссылки создаются динамически и разметка тоже динамическая.
Потом подумал что мысль фиговая, и решил бросить это дело)))
З.ы но ради интереса делал мини скрипт(динамический), вполне забавно вышло ))) особенно когда начал запутываться с линками =)
Изменил: Nu3oN (15.11.2010 / 21:59)

Пришелец
0
div'ы цифровые ) для каждого свой диапазон цифр + перезначение диапазонов в зависимости часов или минут или секунд.
if(date("H")<=9 || date("H")>=18){
$div_line=(101,199);
}else{
$div_line=(701,799);
}
<div class="'.$div_line.'"></div>
А

Оранжевые штаны
0
Тогда уж так.
<?php
echo '<a href="?file=1.txt&hash="'.md5($_SERVER['REMOTE_ADDR'].'SA3V4S5Adv4d6fbf5b7bdf4fbfb8fbfb').'">download</a>';
?>
<?php
if($_GET['hash']!=md5($_SERVER['REMOTE_ADDR'].'SA3V4S5Adv4d6fbf5b7bdf4fbfb8fbfb')) exit('lol');
else readfile(basename($_GET['file']));

?>
C

Пришелец
0
146. И что получится? выведи результат html кода, я покажу как такое распарсить, поидее проблеммы нет

Добавлено через 08:02 сек.
Пусть есть html файл
<html>
<body>
<div class="main">
  <div class="1"><div class="img"></div></div>
  <div class="2"><div class="img"></div></div>
  <div class="3"><div class="img"></div></div>
  <div class="4"><div class="img"></div></div>
  <div class="5"><div class="img"></div></div>
  <div class="6"><div class="img"></div></div>
</div>
</body>
</html>
Из него без проблем можно вытащить все DIV с классом цифра
Запросом
//body/div/div

Пацак
0
146. preg_replace('/<div class="[^"]+">[^<]+<\/div> ... и твоей защиты нет..
147. тупо скачивать файлы скриптом и завести кэш дабы лишний раз не грузить...и всё..
Изменил: Санёк (17.11.2010 / 22:12)
А

Оранжевые штаны
0
149,тема защита от граба,а не от парсера.
C

Пришелец
0
150. Муз-ТВ, граб это и есть парсер на 95%
А

Оранжевые штаны
0
151, нет. спорить не собираюсь.
Стикеры / Теги / Правила / Топ тем / Топ постов / Поиск