社區(qū) 發(fā)現(xiàn) Amazon 【運(yùn)營(yíng)技術(shù)探討】根據(jù)搜索引擎工作原理怎么...
【運(yùn)營(yíng)技術(shù)探討】根據(jù)搜索引擎工作原理怎么運(yùn)營(yíng)好一條listing-----(一)怎么寫(xiě)撰寫(xiě)listing?
?這個(gè)分析內(nèi)容是亞馬遜搜索算法的基本邏輯,其中有很多是搜索算法通用的內(nèi)容,我不懂亞馬遜A9的核心算法,除了寫(xiě)亞馬遜搜索算法團(tuán)隊(duì)的人沒(méi)人知道算法核心,就是為了討論一下,望別杠!
先看一下,買(mǎi)家搜索一個(gè)產(chǎn)品到最后購(gòu)買(mǎi)它,用戶(hù)和亞馬遜后臺(tái)的基本流程:??
?
?圖為人機(jī)交互過(guò)程
在第一階段中“調(diào)出所有符合條件的listing使用算法進(jìn)行打分排序”這個(gè)對(duì)新的listing進(jìn)行第一次的計(jì)算打分過(guò)程(沒(méi)有用戶(hù)瀏覽數(shù)據(jù),就沒(méi)有用戶(hù)體驗(yàn)分值)-----稱(chēng)新的listing數(shù)據(jù)搜集處理及第一次計(jì)算分值的過(guò)程為算法的靜態(tài)過(guò)程。
在第二階段中“根據(jù)用戶(hù)行為,使用算法對(duì)listing這次表現(xiàn)進(jìn)行打分,對(duì)結(jié)果重新排序,等待下一次調(diào)用-------(對(duì)用戶(hù)進(jìn)行評(píng)價(jià))”當(dāng)有了用戶(hù)體驗(yàn)以后,listing的分值=靜態(tài)分值(基礎(chǔ)分值)+動(dòng)態(tài)分值(用戶(hù)體驗(yàn)分)-------人機(jī)交互稱(chēng)這個(gè)過(guò)程為算法的動(dòng)態(tài)過(guò)程。
(一)靜態(tài)過(guò)程1)過(guò)程分析靜態(tài)過(guò)程大概如下:
數(shù)據(jù)收集→【文本轉(zhuǎn)換→解析→停止詞去除→詞干提取→信息提取】→分類(lèi)→索引創(chuàng)建→文檔統(tǒng)計(jì)→加權(quán)-正向索引-倒排索引
詳細(xì)點(diǎn)的解析在下面,有興趣的可以看一下,沒(méi)興趣的只看一下“加權(quán)-正向索引”就可以
1.listing數(shù)據(jù)收集:對(duì)新listing進(jìn)行打分第一步要有l(wèi)isting的打分內(nèi)容和傳統(tǒng)搜索引擎(Google,百度)使用爬蟲(chóng)收集相關(guān)文本相比,亞馬遜主要是通過(guò)賣(mài)家上傳的listing進(jìn)行收集listing內(nèi)容,用賣(mài)家填寫(xiě)的listing來(lái)進(jìn)行搜集信息,同時(shí)亞馬遜自己規(guī)定了大部分填寫(xiě)內(nèi)容和格式,文本搜集更加全面,對(duì)后續(xù)算法步驟更加友好。(正確的填寫(xiě)亞馬遜產(chǎn)品表格十分重要)如果這個(gè)產(chǎn)品頁(yè)面信息是未被收錄的,則會(huì)對(duì)這個(gè)產(chǎn)品進(jìn)行進(jìn)行收錄,如果發(fā)現(xiàn)這個(gè)產(chǎn)品頁(yè)面已經(jīng)有些更新,則會(huì)重新對(duì)該頁(yè)面進(jìn)行收錄。(收錄:把產(chǎn)品信息加入搜索引擎,可以通過(guò)關(guān)鍵詞搜索出來(lái)) ? ?
?
2.文本轉(zhuǎn)換:把人看的listing翻譯成機(jī)器看的listing
原始文本:Basic?Calculator:XXX?CD-8185?Office?and?Home?Style?Calculator–8-Digit–Educational?-?Suitable?for?School?and?Destop-use?(Purple)
解析后:Basic+Calculator%3A+XXX+CD-8185+Office+and+Home+Style+Calculator+%E2%80%93+8-Digit+%E2%80%93+Educational+-+Suitable+for+School+and+Destop-use+%28Purple%29
去停止詞詞干提取去除特殊符號(hào)等后:Basic+Calculator+XXX+CD-8185+Office+Home+Style+Calculator+8-Digit+Educational+Suitable+School+Destop-use+Purple
3.解析器(通俗說(shuō)法:分詞)搜索引擎中的解析器主要負(fù)責(zé)處理文檔中的文本詞素序列,這就涉及到分詞的問(wèn)題了,更好地理解詞與詞組的意思。
4.停止詞去除有一些詞在句子中只是讓句子更通順,并非起著非常重要的功能性上的作用,比如英文的“to”、“of”、“on”等,中文的“的”、“地”、“得”等。當(dāng)然也可能存在實(shí)際的價(jià)值,如“大地”中的“地”就是有一定價(jià)值的詞,不能當(dāng)做停止詞而被去除。
5.詞干提取針對(duì)于英文而言,需要提取詞的詞干,比如“fishing”提取fish。
6.信息的提取對(duì)于頁(yè)面上到底是與哪些詞相關(guān)的,哪個(gè)店鋪發(fā)布的,什么時(shí)間發(fā)布的,比如“Apple”到底是水果的意思還是iPhone公司相關(guān)產(chǎn)品的意思,需要對(duì)標(biāo)題,五點(diǎn),描述的內(nèi)容進(jìn)行拆分成眾多詞組,進(jìn)行理解這個(gè)產(chǎn)品頁(yè)面里面的apple到低是什么意思。(和類(lèi)目選擇相互印證,如果類(lèi)目錯(cuò)誤較大會(huì)有相關(guān)懲罰的,沒(méi)有搜索展示,做不了廣告等)
7.分類(lèi)分類(lèi)組件對(duì)頁(yè)面都打上歸屬標(biāo)簽,比如是關(guān)于體育的,還是關(guān)于IT的,亦或者是娛樂(lè)的。(理解的信息和類(lèi)目選擇相互印證,如果類(lèi)目錯(cuò)誤較大會(huì)有相關(guān)懲罰的,沒(méi)有搜索展示,做不了廣告等)
8.索引創(chuàng)建索引就是幫助程序進(jìn)行快速查找的。大家都用過(guò)新華字典。字典前邊的按照偏旁部首查字的部分就是索引。搜索引擎也一樣。
9.文檔統(tǒng)計(jì)文檔統(tǒng)計(jì)簡(jiǎn)單匯總和記錄詞、特征和文檔的統(tǒng)計(jì)信息。搜索引擎所擁有的文檔中出現(xiàn)的每一個(gè)單詞都擁有一個(gè)反轉(zhuǎn)列表。它記錄了這個(gè)單詞在多少文檔中出現(xiàn),分別是哪些文檔,每個(gè)文檔分部出現(xiàn)多少次,分別出現(xiàn)在什么位置等信息。為了提高搜索質(zhì)量,搜索引擎需要對(duì)文檔的不同部分分別處理,構(gòu)造反轉(zhuǎn)列表。每一部分的單詞都要被加入到這個(gè)詞屬于此部分的反轉(zhuǎn)列表里。
10.加權(quán)-正向索引加權(quán)是搜索引擎的排名非常重要,它是搜索引擎對(duì)頁(yè)面識(shí)別并處理后的初始權(quán)重,體現(xiàn)出了文檔中某些詞的相對(duì)重要性,而這個(gè)加權(quán)結(jié)果是通過(guò)搜索引擎檢索模型來(lái)確定下來(lái)的。
??
11.倒排索引倒排索引組件是搜索引擎的核心組件,是將文檔對(duì)應(yīng)多個(gè)索引項(xiàng)的形式,轉(zhuǎn)化成為索引項(xiàng)對(duì)應(yīng)多個(gè)文檔的形式,這種做法稱(chēng)之為建立倒排索引。?
?
?2)自己總結(jié)的撰寫(xiě)listing的思路
靜態(tài)過(guò)程主要是涉及撰寫(xiě)listing,而listing撰寫(xiě)主要是關(guān)鍵詞布局和相關(guān)性,推廣之前,關(guān)鍵詞布局主要在“標(biāo)題、五點(diǎn)、產(chǎn)品描述、ST”,推廣之后關(guān)鍵詞布局還要加上“QA和評(píng)論”
1.?關(guān)鍵詞的選擇:關(guān)鍵詞一般是選擇短的詞組,搜索量大,曝光量大,當(dāng)然競(jìng)爭(zhēng)也大,有一般就有特殊的選詞方法,選一個(gè)包含核心短詞組的長(zhǎng)尾關(guān)鍵詞,放到標(biāo)題里面,通過(guò)一段時(shí)間的高數(shù)據(jù)指標(biāo)提高核心短詞組的權(quán)重,最后優(yōu)化到核心短詞組為關(guān)鍵詞。2.?標(biāo)題:產(chǎn)品關(guān)鍵詞+修飾詞,重要的的關(guān)鍵詞放前面,從左到右排序,不要堆砌關(guān)鍵詞,注意語(yǔ)句通順,意思完整。惡意堆砌關(guān)鍵詞有可能被系統(tǒng)懲罰語(yǔ)句不通,影響用戶(hù)體驗(yàn)修飾詞不是沒(méi)有作用的,他可以起到引導(dǎo)推銷(xiāo),使消費(fèi)者進(jìn)入相對(duì)意境產(chǎn)品關(guān)鍵詞包含:核心關(guān)鍵詞,寬泛關(guān)鍵詞,長(zhǎng)尾關(guān)鍵詞,根據(jù)產(chǎn)品,習(xí)慣,當(dāng)前狀態(tài)不同,可以全用也可以組合著用,但必須要有一個(gè)核心關(guān)鍵詞,是曝光和轉(zhuǎn)化相對(duì)平衡。
3.?五點(diǎn):一般寫(xiě)關(guān)于產(chǎn)品核心賣(mài)點(diǎn)、尺寸、功能、特點(diǎn)、我們和同行的差異化賣(mài)點(diǎn)(特有的優(yōu)點(diǎn))等,我一定會(huì)寫(xiě)的是使用場(chǎng)景和售后,關(guān)于埋詞,核心關(guān)鍵詞埋在第一點(diǎn)里面,如果不好安排可以放到第二點(diǎn)里面,重要程度依次后排,通順的介紹產(chǎn)品是第一要?jiǎng)?wù),可以不埋那么多,沒(méi)有關(guān)系的。使用場(chǎng)景有代入感,增強(qiáng)購(gòu)買(mǎi)欲售后你不寫(xiě),F(xiàn)BA也會(huì)這么干的,寫(xiě)了還能增強(qiáng)信任感
4.?產(chǎn)品描述:主要寫(xiě)產(chǎn)品參數(shù)、包裝信息、溫馨提示和使用場(chǎng)景即可,通順?lè)侠贤忾喿x習(xí)慣,在合適的位置埋詞就行。
5.?ST:我一般是不寫(xiě),如果寫(xiě)的主要是寫(xiě)一些搜索框下拉詞,買(mǎi)家搜索使用頻率高,注意不要放入別人的品牌,不要重復(fù)即可6.?QA:會(huì)自己提前準(zhǔn)備幾條,在到貨之后,會(huì)每天安排1-2條,會(huì)在問(wèn)題和回答中都埋核心詞,其他詞看情況,如果產(chǎn)品銷(xiāo)售的國(guó)家使用多種語(yǔ)言,每種語(yǔ)言都會(huì)安排2條問(wèn)答,問(wèn)題內(nèi)容如果有同行的,一定要競(jìng)調(diào)一下,看一下消費(fèi)者關(guān)心的問(wèn)題,找出對(duì)我們有力的,上上去。
7.?評(píng)價(jià):會(huì)先埋核心關(guān)鍵詞,最后讓他出現(xiàn)在“Read?reviews?that?mention”
核心要點(diǎn):有同行的一定要競(jìng)調(diào)同行的,在小類(lèi)前十的選幾家抄就行,不要自己搞,出力不討好,等自己的listing能進(jìn)前20在個(gè)性化測(cè)試吧,不要一字不動(dòng)的抄,所有的搜索引擎都喜歡新的,原封不動(dòng)的抄會(huì)被降權(quán)的,自己做適當(dāng)修改就行。
3)有兩個(gè)話(huà)題:
1.?關(guān)于各個(gè)部分埋詞權(quán)重的排序:標(biāo)題、五點(diǎn)、產(chǎn)品描述、ST、評(píng)價(jià)、QA,有人驗(yàn)證過(guò)他們的排序嗎?怎么驗(yàn)證的?
猜測(cè):標(biāo)題>五點(diǎn)、產(chǎn)品描述、ST、進(jìn)入“Read?reviews?that?mention”的關(guān)鍵詞(這幾個(gè)近似相等,五點(diǎn)前面可能略高一點(diǎn))>QA
2.?假設(shè)標(biāo)題的權(quán)重是100,我們現(xiàn)在的習(xí)慣是多埋關(guān)鍵詞,那如果我少埋關(guān)鍵詞,會(huì)不會(huì)使我的關(guān)鍵詞詞組權(quán)重變高?(如果標(biāo)題是ABCDE權(quán)重為100,那關(guān)鍵詞BC權(quán)重為40,把標(biāo)題縮短為ABC,那BC的權(quán)重為66)這種假設(shè)有可能嗎?有人驗(yàn)證過(guò)嗎??
50 個(gè)回復(fù)
蕪湖666 - 精鋪小麥白帽可交流
贊同來(lái)自: 白玉京 、 夢(mèng)內(nèi)傾心 、 芒果琪子 、 天選打工仔 、 盧盧盧 、 Book思議的辣 、 leniania 、 Alice666666 、 穆凡曉曉 、 叫我張張 、 愿知世故卻不世故 、 light0 、 三木SANMU 、 魚(yú)魚(yú)非魚(yú) 、 Jia_玲 、 楊家菇娘888 、 星垂平野 、 小泥巴168 、 平凡人生 、 Joylee29 、 嬌妹兒 、 一顆芋頭aa 、 小陳的億點(diǎn)點(diǎn) 、 小蟲(chóng)子 、 筑一寧?kù)o之地 、 windrunner 、 張無(wú)趣 、 這家伙很懶呀 、 Adora1991 、 gundam157 、 魚(yú)罐頭 、 lgl1996 、 LyonYYYY 更多 ?
第二個(gè)問(wèn)題倒是可以通過(guò)測(cè)試驗(yàn)證一下,不過(guò)在產(chǎn)品整體上來(lái)說(shuō),短期是看不出效果的,因?yàn)橥ǔ.a(chǎn)品的關(guān)鍵詞,通過(guò)購(gòu)買(mǎi)的加權(quán)遠(yuǎn)超過(guò)單純的寫(xiě)關(guān)鍵詞權(quán)重,靜態(tài)上短詞組可能一開(kāi)始確實(shí)排名靠前,但是多一兩個(gè)詞的購(gòu)買(mǎi)加權(quán)會(huì)促使整權(quán)重超過(guò)短的詞組
2、太多的詞組埋詞讓抓取變得復(fù)雜,流量不精確,反而適得其反(流量多不轉(zhuǎn)化或者錯(cuò)誤的邏輯上面描述的原因),適當(dāng)?shù)脑~組(一定量精準(zhǔn)曝光)+適當(dāng)動(dòng)態(tài)轉(zhuǎn)化(精準(zhǔn)轉(zhuǎn)化),動(dòng)態(tài)的加權(quán)更利于鏈接的推廣,在平臺(tái)早期的疊加應(yīng)該是算法系統(tǒng)的不完善學(xué)習(xí)必經(jīng)路徑。