Помогоите сделать парсер - Visavi.net
https://visavi.net/
RSS - Visavi.net
https://visavi.net/assets/img/images/logo_small.png
RSS - Visavi.net
https://visavi.net/
[email protected] (admin)
[email protected] (admin)
Sun, 22 Dec 2024 18:51:55 +0300
-
<img src="https://visavi.net/uploads/stickers/closed2.gif" alt="closed2"> Тема закрыта для обсуждения!
https://visavi.net/topics/8620/155891
Помогоите сделать парсер
Tony V
Sun, 25 Apr 2010 12:34:27 +0400
Сообщения
https://visavi.net/topics/8620/155891
-
всё...разобрался....ступил блин<img src="https://visavi.net/uploads/stickers/sad.gif" alt="sad"> <br>
<pre class="prettyprint"><?php
@set_time_limit(0);
function un($file) {
preg_match('|<b>Название:</b>.*htm">(.*)</a>|Uis', $file, $out);
preg_match('|<b>Категория:</b>.*htm">(.*)</a>|Uis', $file, $out1);
preg_match('|<div style="text-align: justify;">(.*)</div>|Uis', $file, $out2);
$text = preg_replace('/<script.*<\/script>/si', '', $out2[1]);
$text = str_replace('.', '. ', $text);
$text = str_replace(',', ', ', $text);
$text = str_replace('&nbsp;', '', $text);
$txt .= $out[1]."<br/>\r\n";
$txt .= 'Категория: '.$out1[1]."<br/>\r\n";
$txt .= $text."<br/>\r\n";
return array('txt' => $txt, 'name' => $out[1], 'local' => $out1[1]);
}
$mask='*.htm'; // маска имён файлов
$files = glob($mask);
foreach ($files AS $file) {
$file = file_get_contents($file);
$dan = un($file);
mkdir('new/'.$dan['local']);
$fp = fopen('new/'.$dan['local'].'/'.$dan['name'].'.txt',"w");
fputs($fp, $dan['txt']);
fclose($fp);
}
?>
</pre>
https://visavi.net/topics/8620/155888
Помогоите сделать парсер
Жека
Sun, 25 Apr 2010 12:22:39 +0400
Сообщения
https://visavi.net/topics/8620/155888
-
Есть 10 000 htm файлов. нужно вытащить из них тексты.<br>
Сделал скрипт парсер на php, но в чём приход не врублю...<br>
Если обрабатываю 10-20 файлов...норм всё...но как запускаю массово так всякая хрень лезит и файлы создаёт по 20 - 30 метров...<br>
<pre class="prettyprint"><?php
@set_time_limit(0);
$mask='*.htm'; // маска имён файлов
$files = glob($mask);
foreach ($files AS $file) {
$file = file_get_contents($file);
preg_match('|<b>Название:</b>.*htm">(.*)</a>|Uis', $file, $out);
preg_match('|<b>Категория:</b>.*htm">(.*)</a>|Uis', $file, $out1);
preg_match('|<div style="text-align: justify;">(.*)</div>|Uis', $file, $out2);
$text = preg_replace('/<script.*<\/script>/si', '', $out2[1]);
$text = str_replace('.', '. ', $text);
$text = str_replace(',', ', ', $text);
$text = str_replace('&nbsp;', '', $text);
$txt .= $out[1]."<br/>\r\n";
$txt .= 'Категория: '.$out1[1]."<br/>\r\n";
$txt .= $text."<br/>\r\n";
mkdir($out1[1]);
$fp = fopen($out1[1].'/'.$out[1].'.txt',"w+");
fputs($fp, $txt);
fclose($fp);
}
?>
</pre>
https://visavi.net/topics/8620/155880
Помогоите сделать парсер
Жека
Sun, 25 Apr 2010 12:09:48 +0400
Сообщения
https://visavi.net/topics/8620/155880