[Python crawler]爬蟲教學-Part2

2016-12-16 置頂文章

863
0
2016-12-23

上一篇介紹所抓取內容是直接從網頁原始碼就可以取得，但如果是Ajax或動態網頁，

很多時候要你要直接用get()是抓不到的，這種情況就要想辦法用動態載入把內容抓出來。

本篇所要教大家使用Selenium載入Ajax生成的頁面結果並抓取資料。

#事前準備

python2.7
package:Selenium
爬取網站:http://soccerdata.sports.qq.com/fixture/23.htm
爬取內容:抓取每場比賽之隊伍連結，EX:抓2016/1/05 用紅框框起來的西甲球隊網址，如下圖
這部份程式碼會較上一篇困難許多，有興趣可以去網頁熟悉一下控制鍵，而下面的程式碼就是要模擬並實作你click的這些按鍵

#程式碼

#-*-coding: utf-8 -*-
from selenium import selenium
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.keys import Keys
import time
import codecs
from BeautifulSoup import BeautifulSoup
from datetime import date
from datetime import datetime
#==============================Step 1
list_url=[]
days=input("Enter the day number:")
browser=webdriver.Firefox()
browser.get('http://soccerdata.sports.qq.com/fixture/23.htm')
soup=BeautifulSoup(browser.page_source)
for d in range(1,days+1):
    m1 = soup.findAll('td',{'class':'t_right'})
    m2 = soup.findAll('td',{'class':'t_left'})
    m3 =soup.findAll('tbody')
    for i in range(1,len(soup.findAll('tr'))): 
        m4=m3[0].findAll('tr')
        game_time=m4[i].findAll('td')[3].text.strip("\r\n")
        home_team_href=str([tag['href'] for tag in m1[i-1].findAll('a',{'href':True})])[3:-2]
        away_team_href=str([tag['href'] for tag in m2[i-1].findAll('a',{'href':True})])[3:-2]
        home_team_url="http://soccerdata.sports.qq.com"+str(home_team_href)
        away_team_url="http://soccerdata.sports.qq.com"+str(away_team_href)
        list_url.append(home_team_url)
        list_url.append(away_team_url)
    file_ = codecs.open(game_time+".txt","w",'utf-8')
    for url in list_url:
        file_.write(url+"\r\n")
    list_url=[]
#==============================Step 2       
    if d%7==0:    
        browser.find_element_by_xpath("//ul[@id='li_scroll']/li[4]/p[2]").click()
        soup=BeautifulSoup(browser.page_source)    
    if d%7==1:    
        browser.find_element_by_xpath("//ul[@id='li_scroll']/li[3]/p[2]").click()
        soup=BeautifulSoup(browser.page_source)       
    if d%7==2:
        browser.find_element_by_xpath("//ul[@id='li_scroll']/li[2]/p[2]").click()
        soup=BeautifulSoup(browser.page_source)      
    if d%7==3:
        browser.find_element_by_css_selector("p.schedule-riqi").click()
        soup=BeautifulSoup(browser.page_source)
    if d%7==4:
        browser.find_element_by_css_selector("span.jian_1").click()
        browser.find_element_by_xpath("//ul[@id='li_scroll']/li[7]/p[2]").click()
        soup=BeautifulSoup(browser.page_source)
    if d%7==5:
        browser.find_element_by_xpath("//ul[@id='li_scroll']/li[6]/p[2]").click()
        soup=BeautifulSoup(browser.page_source)
    if d%7==6:
        browser.find_element_by_xpath("//ul[@id='li_scroll']/li[5]/p[2]").click()
        soup=BeautifulSoup(browser.page_source)
file_.close()  
browser.close()

程式碼有點攏長，我會分成兩部份來說明

Step1:

1-6行程式碼: