社區(qū) 發(fā)現(xiàn) ChatGPT 如何用ChatGPT 和Python W...
如何用ChatGPT 和Python Web抓取亞馬遜產(chǎn)品數(shù)據(jù)做競品分析


?
先到亞馬遜網(wǎng)站找到我們要分析產(chǎn)品的類目,我們需要獲取的數(shù)據(jù)是圖片,品名,評價,價格。以廚房用品為例


?
總共有120個結果。就是這個細分產(chǎn)品下面有120個產(chǎn)品.
右鍵點擊這個產(chǎn)品頁,檢查


?
當我們鼠標放到這個Div上面的話,左邊這里有一塊是變灰了,右邊手指的這塊Div,對應的就是這個變灰的產(chǎn)品

?
如果另外換一個Div的話是這個產(chǎn)品

?
在不同的div里面這里的class name都是一樣的。我們把這個拷貝下來。


?
在前面加上div

?
接下來繼續(xù)回到產(chǎn)品頁。把鼠標放在圖片上面,右鍵點擊。還是選擇檢查。把這個class的名字也拷貝下來


?
前面加上image。把鼠標放在這個標題上面

?
右鍵點擊,再檢查把這個span的這個class也拷貝下來。前面加span。繼續(xù)鼠標放到評價上面,右鍵點擊,把這里span class這里也拷貝下來
最后右邊點擊價格,也是把這個span class記錄下來。

?
這五個做完以后,我們CTRL鍵+s鍵把我們這個網(wǎng)頁保存下來。

?
根據(jù)剛才找到的五個元素。我們給chat gpt發(fā)出指令讓他做三件事。
第一個使用PYTHON給我們編寫代碼,

?
第二個讀取我們剛才保存下來的亞馬遜的產(chǎn)品頁。
第三個在這個頁面里面一一對應這5個元素,最后把這些匹配的數(shù)據(jù)保存到一個json文件

?
運行一下
現(xiàn)在運行一下然后看到左邊多了一個json的文件
?


?
我們打開看一下。這里數(shù)據(jù)已經(jīng)有了。這個是評級和價格。

?
這個代碼是可以復用的,轉到第二頁

同樣我們把第二頁保存下來

?
然后在這里把我們這個文件換一下,這個是2

?
這里輸出的文件我把名字改成data2.新輸出了一份文件

?
最后讓chatgpt幫我們把兩個json文件合并成一個csv文件

?
合并成功格式是csv

?
這邊如果有不懂的,歡迎大家交流。
23 個回復
Mdrsyen
贊同來自: SpikeNeverQuit 、 長不高的小兔1 、 Hoolei 、 HHH123 、 發(fā)威的病貓 、 檸檬醬醬 、 Hope6666 、 太麻煩了 、 Corneille 、 farion 、 LAIYUHUI 、 丞相何故發(fā)笑 、 鏟屎大將軍 、 超級高手 、 穿行叟168 、 mackchen 、 舍我其誰 、 哦幺發(fā)鈦猜 、 小小亞馬遜人 、 陳個李Greennn 更多 ?
?
但凡有點前置知識也不至于說出這種鬼話,這篇文章的前提就錯了,亞馬遜壓根不禁止你爬商品頁面,只是禁止高頻率請求而已,不然你以為谷歌怎么搜得出商品頁面
亞馬遜自己寫的robot.txt:
https://www.amazon.com/robots.txt
?
像亞馬遜這種,簡簡單單request,加個等待時間就能自動批量下網(wǎng)頁內容了,十年前知乎怎么爬亞馬遜的,現(xiàn)在你也能爬