社區(qū) 發(fā)現(xiàn) ChatGPT 如何用ChatGPT 和Python W...
如何用ChatGPT 和Python Web抓取亞馬遜產(chǎn)品數(shù)據(jù)做競(jìng)品分析


?
先到亞馬遜網(wǎng)站找到我們要分析產(chǎn)品的類目,我們需要獲取的數(shù)據(jù)是圖片,品名,評(píng)價(jià),價(jià)格。以廚房用品為例


?
總共有120個(gè)結(jié)果。就是這個(gè)細(xì)分產(chǎn)品下面有120個(gè)產(chǎn)品.
右鍵點(diǎn)擊這個(gè)產(chǎn)品頁(yè),檢查


?
當(dāng)我們鼠標(biāo)放到這個(gè)Div上面的話,左邊這里有一塊是變灰了,右邊手指的這塊Div,對(duì)應(yīng)的就是這個(gè)變灰的產(chǎn)品

?
如果另外換一個(gè)Div的話是這個(gè)產(chǎn)品

?
在不同的div里面這里的class name都是一樣的。我們把這個(gè)拷貝下來(lái)。


?
在前面加上div

?
接下來(lái)繼續(xù)回到產(chǎn)品頁(yè)。把鼠標(biāo)放在圖片上面,右鍵點(diǎn)擊。還是選擇檢查。把這個(gè)class的名字也拷貝下來(lái)


?
前面加上image。把鼠標(biāo)放在這個(gè)標(biāo)題上面

?
右鍵點(diǎn)擊,再檢查把這個(gè)span的這個(gè)class也拷貝下來(lái)。前面加span。繼續(xù)鼠標(biāo)放到評(píng)價(jià)上面,右鍵點(diǎn)擊,把這里span class這里也拷貝下來(lái)
最后右邊點(diǎn)擊價(jià)格,也是把這個(gè)span class記錄下來(lái)。

?
這五個(gè)做完以后,我們CTRL鍵+s鍵把我們這個(gè)網(wǎng)頁(yè)保存下來(lái)。

?
根據(jù)剛才找到的五個(gè)元素。我們給chat gpt發(fā)出指令讓他做三件事。
第一個(gè)使用PYTHON給我們編寫代碼,

?
第二個(gè)讀取我們剛才保存下來(lái)的亞馬遜的產(chǎn)品頁(yè)。
第三個(gè)在這個(gè)頁(yè)面里面一一對(duì)應(yīng)這5個(gè)元素,最后把這些匹配的數(shù)據(jù)保存到一個(gè)json文件

?
運(yùn)行一下
現(xiàn)在運(yùn)行一下然后看到左邊多了一個(gè)json的文件
?


?
我們打開看一下。這里數(shù)據(jù)已經(jīng)有了。這個(gè)是評(píng)級(jí)和價(jià)格。

?
這個(gè)代碼是可以復(fù)用的,轉(zhuǎn)到第二頁(yè)

同樣我們把第二頁(yè)保存下來(lái)

?
然后在這里把我們這個(gè)文件換一下,這個(gè)是2

?
這里輸出的文件我把名字改成data2.新輸出了一份文件

?
最后讓chatgpt幫我們把兩個(gè)json文件合并成一個(gè)csv文件

?
合并成功格式是csv

?
這邊如果有不懂的,歡迎大家交流。
23 個(gè)回復(fù)
Mdrsyen
贊同來(lái)自: SpikeNeverQuit 、 長(zhǎng)不高的小兔1 、 Hoolei 、 HHH123 、 發(fā)威的病貓 、 檸檬醬醬 、 Hope6666 、 太麻煩了 、 Corneille 、 farion 、 LAIYUHUI 、 丞相何故發(fā)笑 、 鏟屎大將軍 、 超級(jí)高手 、 穿行叟168 、 mackchen 、 舍我其誰(shuí) 、 哦幺發(fā)鈦猜 、 小小亞馬遜人 、 陳個(gè)李Greennn 更多 ?
?
但凡有點(diǎn)前置知識(shí)也不至于說出這種鬼話,這篇文章的前提就錯(cuò)了,亞馬遜壓根不禁止你爬商品頁(yè)面,只是禁止高頻率請(qǐng)求而已,不然你以為谷歌怎么搜得出商品頁(yè)面
亞馬遜自己寫的robot.txt:
https://www.amazon.com/robots.txt
?
像亞馬遜這種,簡(jiǎn)簡(jiǎn)單單request,加個(gè)等待時(shí)間就能自動(dòng)批量下網(wǎng)頁(yè)內(nèi)容了,十年前知乎怎么爬亞馬遜的,現(xiàn)在你也能爬