Помогите спарсить сайт.
1.
igrovik1 (19.07.2018 / 12:52)
Привет всем есть сайт megapesni.me (Не реклама) .
При парсинге на локалке все работает как через file_get_contents так и через curl.
Но как только переношу на хостинг сразу выдает ошибку
Please enable cookies.
Error 1007 Ray ID: 43cc395723888e13 • 2018-07-19 09:39:59 UTC
Access denied
What happened?
The owner of this website (megapesni.me) has banned your IP address (x.x.x.x).
Cloudflare Ray ID: 43cc395723888e13 • Your IP: x.x.x.x • Performance & security by Cloudflare
Может кто знает как это обойти, или предложит готовое решение. Заранее спасибо всем кто откликнется.
2.
erasier (19.07.2018 / 14:05)
cloudflare блокирует ip твоего хостинга. как обойти - парси через прокси или меняй ip или хостинг
3.
igrovik1 (19.07.2018 / 14:25)
erasier, Пробую с помощью прокси socks5 та же ошибка!!!Хостинг пока нет возможности поменять. Другого решения нет ??
4.
JustZero (19.07.2018 / 15:21)
igrovik1,
Please enable cookies куки делать пробовал?
5.
erasier (19.07.2018 / 15:40)
@erasier, Пробую с помощью прокси socks5 та же ошибка!!!Хостинг пока нет возможности поменять. Другого решения нет ??
походу нет. т.к., если у него cf блочит все прокси, значит он там врубил повышенную защиту. или проси хостера выдать какой-нибудь свежий айпишник, хз. можно еще попробовать через курл задать хттп-заголовки (юзер-агент и т.п.) какого-нибудь популярного браузера, мб прокатит, хотя и врядли. или спарси и закешируй всё с локалки, а потом ставь на хост. или парси яваскриптом. или напиши админу этого сайта типа "не могу зайти, клоудфларе блочит жостко, отключи защиту плиз"
6.
igrovik1 (19.07.2018 / 15:48)
JustZero, Да и куки и прокси уже все что можно было одно и то же выдает и все :-(
Добавлено через 01:17 сек.
erasier, Ясно. спс.
Добавлено через 06:21 сек.
erasier, А можно ли как-то сделать через поисковик типа через гугл вылавливать сохранённую страницу данной новости и далее распарсивать ?? Только вот гугля тоже противная собака при частых обращениях к ней блочит ипишник. Не сможешь помочь обойти гуглю хотя бы???
7.
erasier (19.07.2018 / 16:21)
igrovik1, для гугла тогда создать большой массив с проксями и юзать их рандомно. еще можно попробовать заюзать какой-нибудь онлайн-сервис, выкачивающий хтмл-исходник, хз. вобщем, геморроя много будет, лучше парси другой сайт )
Добавлено через 06:13 сек.
@JustZero, Да и куки и прокси уже все что можно было одно и то же выдает и все :-(
там антибот на js , пхп его не пройдет)
8.
igrovik1 (19.07.2018 / 16:29)
erasier, Да дело в том что племяхи начальник не хочет менять доннора, а ей нужен парс для облегчения работы. Ну бум еще раз с начальником говорить о смене доннора.
9.
erasier (19.07.2018 / 16:38)
igrovik1, а что если попробовать пройти антибота? загрузи эту страницу через пхп со всеми скриптами и открой в браузере. хз, вдруг проканает и ip разблокируется
Добавлено через 02:36 сек.
хотя, если он проверяет location.href то надо думать как это обойти, хз
10.
erasier (19.07.2018 / 16:49)
ой, там же бан, а не антибот. ну походу админ вылавливает парсеры и блочит вручную, судя по всему. есть вариант опять же договориться с админом, денег ему забашлять, хз. пусть начальник с ним договаривается
11.
Izgoj (19.07.2018 / 19:54)
Помоему на доноре стоит парсер ВК, яндекс музыки и прочего. Может тебе тоже проще парсер поставить?
12.
igrovik1 (19.07.2018 / 21:31)
Izgoj, Мне нужно инфу именно такую парсить как на донноре.
13.
Izgoj (22.07.2018 / 15:54)
@Izgoj, Мне нужно инфу именно такую парсить как на донноре.
По моему там нет никакой инфы, просто музыка. Даж описаний песен нет или текстов. Просто их оригинальные названия. То есть если ты будешь парсить с того же источника, то все будет тоже самое.
14.
igrovik1 (27.07.2018 / 08:33)
Izgoj, Да уже всё человек забраковал данный доннор:-)
URL:
https://visavi.net/topics/44021