終于到威望2了，發(fā)個(gè)用python寫的QA爬蟲腳本來看下有沒有Python愛好者

發(fā)帖6次被置頂0次被推薦0次質(zhì)量分1星回帖互動(dòng)59次歷史交流熱度7.44% 歷史交流深度0%

自學(xué)的不專業(yè)，寫的不規(guī)范可能錯(cuò)誤多，源碼發(fā)出來看下有沒有專業(yè)的或者愛好者來給點(diǎn)建議。這個(gè)的主要目的是找出客戶關(guān)心的點(diǎn)，通過詞頻先宏觀的看最關(guān)注點(diǎn)。
現(xiàn)在只是把內(nèi)容抓下來，要生成詞云的話還是得手動(dòng)復(fù)制到一些詞頻統(tǒng)計(jì)的網(wǎng)站。ANSWER文件會(huì)把一些不需要的東西也爬下來，懶得改了，因?yàn)橛X得QUETION才是重點(diǎn)。

import requests, threading, time

from bs4 import BeautifulSoup

from collections import Counter

from queue import Queue

import sys, os



def get_session():

    return requests.session()



# 獲取resp

def fetch(session, url):

    headers = {

        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',

        'refer': 'https://www.amazon.com/'

    }

    resp = session.get(url, headers=headers)

    return resp



# 獲取當(dāng)前的pages數(shù)

def get_pages(session, url):

    url = url.format(asin, 2)

    resp = fetch(session, url)

    soup = BeautifulSoup(resp.text, 'lxml')

    pages = soup.select('.a-pagination > li:nth-last-child(2) > a')[0].text

    return pages



# 獲取QA List

def get_qa(session, urlList):

    while urlList._qsize():

        url = urlList.get()

        resp = fetch(session, url)

        soup = BeautifulSoup(resp.text, 'lxml')

        group_qa = soup.select('.askTeaserQuestions > .a-fixed-left-grid.a-spacing-base > .a-fixed-left-grid-inner > .a-fixed-left-grid-col.a-col-right')

        for i in range(len(group_qa)):

            question = group_qa[i].select('.a-fixed-left-grid-col.a-col-right > a> span')[0].text.strip('\n').lstrip().rstrip()

            answer = group_qa[i].select('.a-fixed-left-grid.a-spacing-base .a-fixed-left-grid-col.a-col-right > span')[0].text

            # f.write(question + '\t' + answer + '\n')

            fq.write(question + '\n')

            fa.write(answer + '\n')



def main(url, asin):

    session = get_session()

    # 獲取當(dāng)前的頁數(shù)總數(shù)

    pages = int(get_pages(session, url))

    urlList = Queue() # 將要抓取的url存到queue中

    for i in range(pages):

        i += 1

        furl = url.format(asin, i)

        urlList.put(furl)

    # 抓取QA

    thread_list = 

    # 設(shè)置線程數(shù)

    thread_count = 15

    for _ in range(thread_count):

        t = threading.Thread(target=get_qa, args=(session, urlList))

        t.start()

        thread_list.append(t)

    for i in range(thread_count):

        thread_list[i].join()



# 已廢棄，原本想去除掉常用冠詞和人稱代詞后再統(tǒng)計(jì)詞頻的

def get_most_count(TEXT):

    for char in '\n\t.?-':

        TEXT = TEXT.replace(char, ' ')

    for char in ['the', 'I', 'to', 'you ', 'and ', 'a', 'these', 'it', 'they', 'with', 'have', 'can', 'be', 'at', 'of', 'are', 'them', 'Are']:

        TEXT = TEXT.replace(char, '')

    word_list = TEXT.split()

    print(Counter(word_list).most_common())



if __name__ == "__main__":

    os.chdir(sys.path[0])

    ### configuration ###

    # 改asin

    asin = 'B07DPJVN6P'

    us = 'https://www.amazon.com/'

    uk = 'https://www.amazon.co.uk/'

    # 改站點(diǎn)

    Marketplace = uk

    baseurl = Marketplace + 'ask/questions/asin/{}/{}/ref=ask_dp_iaw_ql_hza?isAnswered=true'

    fq = open('./questions.txt', 'w', encoding='utf-8') #存放question的文件夾

    fa = open('./answers.txt', 'w', encoding='utf-8') #存放question的文件夾

    start = time.time()

    # 開始運(yùn)行

    main(baseurl, asin)

    fq.close()

    fa.close()

    print('duration: %.2f' % (time.time() - start))

    # 計(jì)算詞頻

    # f = open('a.txt', 'r', encoding='utf-8')

    # get_most_count(f.read())

    # f.close()[/i][/i][/i]

要回復(fù)問題請(qǐng)先登錄或注冊(cè)

1、社區(qū)認(rèn)證答主免費(fèi)參與圍觀（限可公開的付費(fèi)提問），在帖主選擇中了答案后（即進(jìn)入公示期），才可以參與圍觀回帖并參與回帖交流互動(dòng)。即仍顯示為“到期時(shí)間……”的是尚未進(jìn)入公示期的，暫不能查看回帖內(nèi)容。

2、如果在懸賞結(jié)束后未及時(shí)看已圍觀的帖子內(nèi)容，可以通過社區(qū)用戶個(gè)人詳情頁列表中找到：點(diǎn)擊右上角“個(gè)人頭像”找到“圍觀記錄”，此處有所有圍觀帖列表，點(diǎn)擊進(jìn)入后即可查看。

3、常規(guī)用戶參與圍觀的基準(zhǔn)費(fèi)用，與有償提問的金額大小、圍觀的先后次序、圍觀的人數(shù)有關(guān)：
（1）提問獎(jiǎng)金越高，則圍觀基準(zhǔn)費(fèi)用越高；
（2）例如圍觀人數(shù)每增加5人，則圍觀基準(zhǔn)費(fèi)用增加0.5元。即越早參與圍觀，為圍觀支付的費(fèi)用相對(duì)就越少。

4、圍觀費(fèi)用10%支付給發(fā)起提問的帖主，40%納入提問獎(jiǎng)金并由被選中答案的答主共同分配，剩余費(fèi)用納入平臺(tái)管理和維護(hù)費(fèi)用。

5、優(yōu)秀的提問質(zhì)量可以吸引更多人參與圍觀，以共同分?jǐn)偢顿M(fèi)發(fā)帖的費(fèi)用支出。

6、私密懸賞帖（不公開懸賞答案的）目前僅限帖主、參與回帖互動(dòng)的答主（在答案選擇期前回帖的）、高活躍度威望值用戶，在該帖進(jìn)入公示期后可以查看該帖下的所有回帖。最佳答案選擇期后參與回帖的無法查看該帖的所有回帖。私密懸賞帖結(jié)束30天以后，「知無不言」社區(qū)可以選擇合適的內(nèi)容通過適當(dāng)?shù)那肋M(jìn)行推送。

7、現(xiàn)在您可以立即申請(qǐng)知識(shí)會(huì)(答主)權(quán)限。