社區(qū) 發(fā)現(xiàn) AI 硬核!亞馬遜AI作圖方案,結合Deeps...
硬核!亞馬遜AI作圖方案,結合Deepseek和Gemini,效率翻倍
先上價值觀,我覺得這套流程的意義在于節(jié)省,運營對比競品圖片的時間,同時把優(yōu)秀的圖片文字化,不用再花時間去想怎么表達。?
同時,減少了溝通成本。經(jīng)常做圖的朋友應該知道,和美工溝通是一件很痛苦的事情。他不懂你的品味,你不懂他的技術。
很多時候,運營只是覺得,這張圖的感覺很好,但是細說,又說不出哪里好。你給美工說,你要做出這種感覺,具體什么感覺呢,你自己體會。美工說我謝謝你啊。
那至少這一套東西出來后,大家再溝通會有一個共識,不會天馬行空了。
想法
言歸正傳,跑一次代碼要5-10分鐘,我用Claude做了一個流程圖,幫助理解。
1. 先把幾個競品ASIN的圖片下載下來
2. 讓AI視覺模型去分析競品圖片
3. 識別出內(nèi)容之后,用文本處理的方法提取特征。
4. 用Deepseek R1進行推理
5. 讓Gemini綜合所有信息,寫出文案。

剛開始,我是直接用視覺分析圖片,生成作圖方案。后來發(fā)現(xiàn),效果不太好。因為AI大模型就和人一樣,有的模型擅長視覺分析,有的模型擅長思考,有的模型擅長寫作。
如果競品分析內(nèi)容太多的話,只用一個大模型不太夠用。一是上下文長度不夠,大模型不能識別所有的競品圖片分析內(nèi)容。
二是視覺模型對于圖片分析比較擅長,但不擅長寫文字內(nèi)容。針對這種情況,視覺模型負責處理圖片識別,最后寫產(chǎn)品的方案時候,用另外一個擅長文字的大模型。
所以,測試了幾輪后,我確定了多模型組合的流程。
視覺模型:豆包模型,負責分析競品圖片。免費額度比較多,先用著吧。
推理模型:Deepseek R1,負責根據(jù)競品圖片的分析和特征,進行推理。成本低且效果上乘。
文案模型:Gemini pro,負責綜合競品圖片分析、R1的推理,寫出作圖方案。Gemini 2.0 pro 有200萬上下文,是目前所有大模型中,上下文最長的模型,非常適合輸出大量文本。

?
流程
競品圖片
用賣家精靈的主圖下載功能,把主圖下載,包括A+圖片。但是A+圖片太多,有的是大圖,有的是小圖,我沒有測試很多A+圖片。

?
階段1:視覺分析
用豆包視覺模型,分析一張圖片差不多10幾秒,一個ASIN的話,大概1分半。一開始還好,后面分析多了話,還是有點費時間的。
而且對于token的消耗也是很大,一張圖大概需要消耗6k以上的token。幾個ASIN下來,大幾萬的token就沒了。
一天下來,幾十萬token就沒了。好在現(xiàn)在有免費活動,不然還是有點費錢的。
由于太費token了,所以后面在這里加了一個檢查機制。如果本地已經(jīng)存在了分析結果,就跳過分析過程,這對于后期調(diào)提示詞還是節(jié)省了不少時間。

?
階段2:特征處理
這個階段需要把視覺分析的結果,提取特征,方便分析。不然一個ASIN的視覺分析結果,差不多有一千字,產(chǎn)品多的話,直接全給大模型的話,容易受到上下文限制。
特征處理中,我比較熟悉的是TF-IDF和Kmeans聚類,畢竟之前用過這一套處理關鍵詞。
我又讓AI多給了LDA的主題分析和詞頻統(tǒng)計。整體感覺,特征處理的部分的效果一般。
因為Cursor中也有上下文限制,全讓Claude改代碼的話,超過1000行就有點吃力了。目前這一整套代碼,差不多有2000行。
我還測試了AI embedding模型進行向量化,但是讓模型Input視覺分析的結果總是出bug,所以就先不折騰了。

?
階段3:Deepseek R1推理
拿到視覺模型的分析結果,和特征提取后,把這些內(nèi)容都給R1去推理。
R1 模型強在推理,在寫文案和上下文上,就很一般了。所以,這里只讓R1進行推理。

?
階段4:Gemini生成方案
Gemini的上下文很長,所以我把上面收集的所有內(nèi)容,全給gemini,包括視覺模型的分析界,特征處理,Deepseek R1的推理結果。
為了保證文案質量,使用目前Google最強的Gemini 2.0 pro 生成文案。
?

?
效果
這是視覺分析的結果,默認輸出json格式,再把它轉成csv格式,方便橫向對比競品圖。

?
這是特征詞分析,感覺一言難盡。。。

?
這是Deepseek的推理報告。確實需要先用推理模型過一下,直接生成的話,分析不了這么全面。

?
這是Gemini最終生成的作圖方案。采用了總-分的結構,先寫出了整體的設計策略,又細致的把每張圖的計劃寫出來。

?
從效果來說,大大節(jié)省了運營分析圖片的時間。對于運營的話,是絕無可能分析的這么細致。就一個視覺分析,就節(jié)省了足夠多的人工時間,更不用說,還有和美工的溝通成本。
優(yōu)化
其實有很多細節(jié)都可以優(yōu)化,但是我覺得已經(jīng)是1+1<2,提升可能不會很大,因為已經(jīng)做到了70分,可以節(jié)省了足夠多的人工。
我覺得可以優(yōu)化的地方:
1.視覺模型可以用阿里千問最新的模型,感覺會強一點,缺點是免費額度少。
2.特征處理可以再優(yōu)化,TF—IDF對語義識別沒有AI embedding模型強。
3.語言模型的提示詞可以再優(yōu)化。跑通邏輯,我就花了很多時間,所以在調(diào)提示詞上,時間就少了。

?
總結
再簡單回顧下整個流程,先是下載多個競品圖片,然后給視覺模型分析。再提取特征,給Deepseek推理。最后綜合所有內(nèi)容,讓Gemini寫出方案。
沒有AI coding,沒有Cursor,我是不可能完成到這個程度的。使用過程中,Claude很強,但Cursor在改超過1000行代碼的時候,經(jīng)常出bug卡頓。
AI在寫代碼的時候,會寫很多冗余。因為他會把所有情況考慮到,都做好備用方案。但是無形中,增加了代碼量,不好理解。
AI半自動輔助工作,一定會存在很長時間的。與其說AGI,不如說Agent AI。在相當長的時間內(nèi),這一定會是主旋律。
最后,代碼還是不會分享,因為這只會吸引更多的人來問我怎么安裝。。。
對于本次測試的文件,還是放到飛書文檔,找我領取。
另外,感興趣的朋友,可以把圖片或ASIN發(fā)給我,我來幫你測試效果。

16 個回復
匿名用戶
贊同來自: BeagleWerWer 、 堅持就是勝利 、 飄吧啊 、 Yuan888 、 白月光SSS 、 胖福他爹 、 小菜菜菜 、 煙雨2023 、 lzp1178 、 擁抱黑夜 、 小狗也得吃飯 、 felix0668 、 打大小冬瓜 、 Jay_ 、 子澤 、 迪麗鍋巴 、 起名很難系列 、 一顆蘆葦 、 困了就睡覺 、 假設我是好人 、 星期四只吃麥當勞 、 跨境小白66 、 NicoZzz 、 小白努力進階中 、 根深者茂 更多 ?