Парсер игр Sever.ru
1.
iNeeXT (27.10.2014 / 23:54)
Продолжаю практику с Python, после
чекера waplog.net. На этот раз использовал так называемый Spyder из библиотеки Grab.
Ссылка на программу:
http://pastebin.com/9z9q5NbC
Файлы расположены на диске в таком виде (сохранение идет в папку
data):
...
├── Nokia
│ ├── ...
├── Sony Ericsson
│ ├── 176x220: K550, K750, W810, K610
│ │ ├── Стратегии
│ │ │ ├── Civilization IV - War Of Two Cities
│ │ │ │ ├── description.txt
│ │ │ │ ├── game.jad
│ │ │ │ ├── game.jar
│ │ │ │ ├── screenshot_0.jpg
│ │ │ │ ├── screenshot_1.jpg
│ │ │ │ └── screenshot_2.jpg
...
На данный момент (еще идет скачивание самих игр): 81.740 объектов, всего 2,2 ГБ
P.S. чтобы ускорить выполнение скрипта можно изменить к-во потоков (программа асинхронна) в предпоследней строке, изменив параметр
thread_number.
2.
iNeeXT (28.10.2014 / 01:17)
Думаю, хватит скачивать, статистика:
134.238 объектов, всего 10,8 ГБ
3.
Волан-де-Морт (28.10.2014 / 01:25)
Молодец!
4.
iNeeXT (28.10.2014 / 03:45)
3, спасибо. Grab это лучший инструмент, который я видел для парсинга/граббинга сайтов.
5.
sanya-rus (28.10.2014 / 07:26)
а как пользоваться этим чудом? значит можно и другие сайты грабить таким образом?
6.
iNeeXT (28.10.2014 / 07:58)
5.
sanya-rus, создать папку data и запустить из консоли как обычный python-скрипт:
python file.py
Да, конечно, смотри документацию на сайте grablib.org
7.
Geor (28.10.2014 / 14:43)
Так это и есть твоя домашняя работа?
8.
iNeeXT (28.10.2014 / 19:13)
Geornyaga (28 Октября 2014 / 12:43)
Так это и есть твоя домашняя работа?
Я выделяю немного времени, чтобы заниматься саморазвитием в программировании, поэтому не нужно меня судить и думать, что я нашим делом не занимаюсь.
9.
XoPyC (28.10.2014 / 19:18)
Обычны
говнокод
Расходимся.
10.
iNeeXT (29.10.2014 / 14:05)
9.
Менетил, +1. Половину книжки A Python of Byte только прочитал.
11.
Geor (29.10.2014 / 17:25)
Я ничего не говорю о твоем личном времени, просто уже столько времени прошло, нужно было мне о сроках заговорить))
URL:
https://visavi.net/topics/41499