Помогоите сделать парсер - Visavi.net https://visavi.net/ RSS - Visavi.net https://visavi.net/assets/img/images/logo_small.png RSS - Visavi.net https://visavi.net/ [email protected] (admin) [email protected] (admin) Sun, 22 Dec 2024 18:51:55 +0300 <img src="https://visavi.net/uploads/stickers/closed2.gif" alt="closed2"> Тема закрыта для обсуждения! https://visavi.net/topics/8620/155891 Помогоите сделать парсер Tony V Sun, 25 Apr 2010 12:34:27 +0400 Сообщения https://visavi.net/topics/8620/155891 всё...разобрался....ступил блин<img src="https://visavi.net/uploads/stickers/sad.gif" alt="sad"> <br> <pre class="prettyprint">&lt;?php &#64;set_time_limit(0); function un($file) { preg_match(&#039;|&lt;b&gt;Название&#58;&lt;/b&gt;.*htm&quot;&gt;(.*)&lt;/a&gt;|Uis&#039;, $file, $out); preg_match(&#039;|&lt;b&gt;Категория&#58;&lt;/b&gt;.*htm&quot;&gt;(.*)&lt;/a&gt;|Uis&#039;, $file, $out1); preg_match(&#039;|&lt;div style=&quot;text-align&#58; justify;&quot;&gt;(.*)&lt;/div&gt;|Uis&#039;, $file, $out2); $text = preg_replace(&#039;/&lt;script.*&lt;\/script&gt;/si&#039;, &#039;&#039;, $out2&#91;1]); $text = str_replace(&#039;.&#039;, &#039;. &#039;, $text); $text = str_replace(&#039;,&#039;, &#039;, &#039;, $text); $text = str_replace(&#039;&amp;nbsp;&#039;, &#039;&#039;, $text); $txt .= $out&#91;1].&quot;&lt;br/&gt;\r\n&quot;; $txt .= &#039;Категория&#58; &#039;.$out1&#91;1].&quot;&lt;br/&gt;\r\n&quot;; $txt .= $text.&quot;&lt;br/&gt;\r\n&quot;; return array(&#039;txt&#039; =&gt; $txt, &#039;name&#039; =&gt; $out&#91;1], &#039;local&#039; =&gt; $out1&#91;1]); } $mask=&#039;*.htm&#039;; // маска имён файлов $files = glob($mask); foreach ($files AS $file) { $file = file_get_contents($file); $dan = un($file); mkdir(&#039;new/&#039;.$dan&#91;&#039;local&#039;]); $fp = fopen(&#039;new/&#039;.$dan&#91;&#039;local&#039;].&#039;/&#039;.$dan&#91;&#039;name&#039;].&#039;.txt&#039;,&quot;w&quot;); fputs($fp, $dan&#91;&#039;txt&#039;]); fclose($fp); } ?&gt; </pre> https://visavi.net/topics/8620/155888 Помогоите сделать парсер Жека Sun, 25 Apr 2010 12:22:39 +0400 Сообщения https://visavi.net/topics/8620/155888 Есть 10 000 htm файлов. нужно вытащить из них тексты.<br> Сделал скрипт парсер на php, но в чём приход не врублю...<br> Если обрабатываю 10-20 файлов...норм всё...но как запускаю массово так всякая хрень лезит и файлы создаёт по 20 - 30 метров...<br> <pre class="prettyprint">&lt;?php &#64;set_time_limit(0); $mask=&#039;*.htm&#039;; // маска имён файлов $files = glob($mask); foreach ($files AS $file) { $file = file_get_contents($file); preg_match(&#039;|&lt;b&gt;Название&#58;&lt;/b&gt;.*htm&quot;&gt;(.*)&lt;/a&gt;|Uis&#039;, $file, $out); preg_match(&#039;|&lt;b&gt;Категория&#58;&lt;/b&gt;.*htm&quot;&gt;(.*)&lt;/a&gt;|Uis&#039;, $file, $out1); preg_match(&#039;|&lt;div style=&quot;text-align&#58; justify;&quot;&gt;(.*)&lt;/div&gt;|Uis&#039;, $file, $out2); $text = preg_replace(&#039;/&lt;script.*&lt;\/script&gt;/si&#039;, &#039;&#039;, $out2&#91;1]); $text = str_replace(&#039;.&#039;, &#039;. &#039;, $text); $text = str_replace(&#039;,&#039;, &#039;, &#039;, $text); $text = str_replace(&#039;&amp;nbsp;&#039;, &#039;&#039;, $text); $txt .= $out&#91;1].&quot;&lt;br/&gt;\r\n&quot;; $txt .= &#039;Категория&#58; &#039;.$out1&#91;1].&quot;&lt;br/&gt;\r\n&quot;; $txt .= $text.&quot;&lt;br/&gt;\r\n&quot;; mkdir($out1&#91;1]); $fp = fopen($out1&#91;1].&#039;/&#039;.$out&#91;1].&#039;.txt&#039;,&quot;w+&quot;); fputs($fp, $txt); fclose($fp); } ?&gt; </pre> https://visavi.net/topics/8620/155880 Помогоите сделать парсер Жека Sun, 25 Apr 2010 12:09:48 +0400 Сообщения https://visavi.net/topics/8620/155880