php - 爬網頁

php - 爬網頁

http://kingjoy1235.pixnet.net/blog/post/28598212-php%E6%8A%93%E5%8F%96%E7%B6%B2%E9%A0%81%E7%89%B9%E5%AE%9Adiv%E5%8D%80%E5%A1%8A%E5%8F%8A%E5%9C%96%E7%89%87

Jul 09 Thu 2009 14:01
php抓取網頁特定div區塊及圖片
分享: 7Headlines facebook PLURK twitter  
這幾天因為公司還沒啥事交待下來,所以我就一直在找我之前在找的資料

想不到還真的有厲害的大大做了出來

以下的文章都是擷取他blog的文章

非常感謝這位大大,讓我少了很多找資料的時間

網址「http://andy.diimii.com/2009/03/php%E6%8A%93%E5%8F%96%E7%B6%B2%E9%A0%81%E7%89%B9%E5%AE%9Adiv%E5%8D%80%E5%A1%8A%E5%8F%8A%E5%9C%96%E7%89%87/」

文章開始:

昨天有個朋友在問我說,php怎麼抓取網頁某個div區塊的內容。像funp推推王那樣每次推文都會顯示文章內的圖片,提供縮圖撰擇,又是怎麼做到的?其實這語法出乎意料的簡短…

1. 取得指定網頁內的所有圖片:測試

//-----程式碼開始-----//

<?php
//取得指定位址的內容,並儲存至text
$text=file_get_contents('http://andy.diimii.com/'); 

//取得所有img標籤,並儲存至二維陣列match
preg_match_all('#<img[^>]*>#i', $text, $match);

//印出match
print_r($match);
?>

//-----程式碼結束-----//

2. 取得指定網頁內的第一張圖片:測試

//-----程式碼開始-----//

<?php
//取得指定位址的內容,並儲存至text
$text=file_get_contents('http://andy.diimii.com/');

//取得第一個img標籤,並儲存至陣列match(regex語法與上述同義)
preg_match('/<img[^>]*>/Ui', $text, $match);

//印出match
print_r($match);
?>

//-----程式碼結束-----//

3. 取得指定網頁內的特定div區塊(藉由id判斷):測試

//-----程式碼開始-----//

<?php
//取得指定位址的內容,並儲存至text
$text=file_get_contents('http://andy.diimii.com/2009/01/seo%e5%8c%96%e7%9a%84%e9%97%9c%e9%8d%b5%e5%ad%97%e5%bb%a3%e5%91%8a%e9%80%a3%e7%b5%90/');

//去除換行及空白字元(序列化內容才需使用)
//$text=str_replace(array("\r","\n","\t","\s"), '', $text);   

//取出div標籤且id為PostContent的內容,並儲存至陣列match
preg_match('/<div[^>]*id="PostContent"[^>]*>(.*?) <\/div>/si',$text,$match);

//印出match[0]
print($match[0]);
?>

//-----程式碼結束-----//

4. 上述2及3的結合:測試

//-----程式碼開始-----//

<?php
//取得指定位址的內容,並儲存至text
$text=file_get_contents('http://andy.diimii.com/2009/01/seo%e5%8c%96%e7%9a%84%e9%97%9c%e9%8d%b5%e5%ad%97%e5%bb%a3%e5%91%8a%e9%80%a3%e7%b5%90/');   

//取出div標籤且id為PostContent的內容,並儲存至陣列match
preg_match('/<div[^>]*id="PostContent"[^>]*>(.*?) <\/div>/si',$text,$match);   

//取得第一個img標籤,並儲存至陣列match2
preg_match('/<img[^>]*>/Ui', $match[0], $match2); 

//印出match2[0]
print_r($match2[0]);
?>

//-----程式碼結束-----//