社區(qū) 發(fā)現(xiàn) Amazon 亞馬遜Review權(quán)重詳解!
亞馬遜Review權(quán)重詳解!
?
為了更好的找到Review權(quán)重的內(nèi)容,我換了一個(gè)思路去理解它,那就是如何甄別假評(píng)論。從這個(gè)角度出發(fā),我找到了一個(gè)網(wǎng)站旨在幫助消費(fèi)者還原產(chǎn)品的真實(shí)評(píng)分??偟膩碚f,這個(gè)網(wǎng)站和亞馬遜都在做同一件事,就是找出假評(píng)論且刪除它的影響。根據(jù)網(wǎng)站的數(shù)據(jù)可以試著去推出競(jìng)爭(zhēng)對(duì)手的上評(píng)方式,或者讓我們避免S單被抓。
?
評(píng)分的權(quán)重由每個(gè)評(píng)論者組成,將每個(gè)Reviewer的特征整合在一起會(huì)對(duì)我們很有啟發(fā)性,理解每個(gè)賬號(hào)的權(quán)重出發(fā)會(huì)幫助我們理解LISTING中評(píng)分的權(quán)重。
?
權(quán)重因素:
1.Easy Graders 易給高評(píng)分者
2.Overrepresented participation 過度參與的群組
3.Reviews on high volume days 在評(píng)論集中日評(píng)論
4.One-Hit Wonders 一次性評(píng)論者
5.Substantial repeated phrases 大量重復(fù)短語
6.Brand Loyalists 品牌粉絲
7.Brand Monogamists 品牌鐵桿粉
8.Incentivized reviews 帶鼓勵(lì)性質(zhì)的評(píng)論
9.Brand Repeaters 品牌重復(fù)購(gòu)買者
10.Take-Back Reviewers 被刪過評(píng)的用戶
11.Unverified purchases 未認(rèn)證購(gòu)買
12.Overrepresented word counts 評(píng)論字?jǐn)?shù)過度參與組
13.Substantial overlapping history 交叉購(gòu)買記錄
14.Never-Verified Reviewers 黑號(hào)
15.Same-Day Reviewers 都在一天留評(píng)用戶
?
One-Hit Wonders 一次性評(píng)論者:
?
這些賬戶寫了一篇評(píng)論,這意味著這些賬戶只評(píng)論了某個(gè)產(chǎn)品。無偏見的評(píng)論者往往是一個(gè)網(wǎng)站的長(zhǎng)期成員,他們一般不會(huì)只針對(duì)某個(gè)產(chǎn)品做出評(píng)論。如果某個(gè)產(chǎn)品有過多的一次性評(píng)論者,可以表明有操作評(píng)論的嫌疑。雖然有許多原因可能會(huì)導(dǎo)致某個(gè)產(chǎn)品中一次性評(píng)論者,但有幾個(gè)常見的原因包括:假號(hào)、或以某種方式誘導(dǎo)不寫評(píng)論的人群留評(píng)。
?
Take-Back Reviewers 被刪過評(píng)的用戶:
?
包括在歷史記錄中有刪除評(píng)論的評(píng)論者。這些評(píng)論者很可疑是因?yàn)樵u(píng)論內(nèi)容很可能是由于違反服務(wù)條款而被亞馬遜刪除。評(píng)論者以前曾被抓到操縱評(píng)論,不確定他們是否已停止違反規(guī)則。
還有一些刪評(píng)的原因:
1.買家自己想刪除。
2.品牌聯(lián)系到買家以刪除評(píng)論-通常為負(fù)面評(píng)論。
3.Amazon認(rèn)為其違反了規(guī)則,則可能會(huì)刪除評(píng)論-通常是正面評(píng)論。
4.發(fā)布評(píng)論后,平臺(tái)更改了規(guī)則導(dǎo)致刪除。 例如,在亞馬遜更新評(píng)論政策后,許多現(xiàn)有的誘導(dǎo)性評(píng)論被刪除。 另一個(gè)例子是,亞馬遜降低了每種產(chǎn)品的Vine評(píng)論上限,因此刪除了許多超過該限制的Vine評(píng)論。
?
Single-Day Reviewers 一天評(píng)論買家:
?
在一天內(nèi)發(fā)布了所有評(píng)論的買家被標(biāo)記為一天評(píng)論買家。這些買家的賬號(hào)存在疑問是因?yàn)樗麄儧]有像大多數(shù)人那樣留評(píng),也不排除心血來潮。
?
Substantial repeated phrases 大量重復(fù)短語:
?
如果使用重復(fù)短語的評(píng)論數(shù)量較多,則可能表明該評(píng)論不是自然創(chuàng)建的。 但是仍然有很多充分的理由說明重復(fù)出現(xiàn)一些短語,這些短語不一定表示評(píng)論有偏見。比如電子產(chǎn)品,很多買家都會(huì)提到產(chǎn)品的功能,這些詞的重復(fù)是很正常的。 但是,如果有幾位買家完全逐字地寫了相同的營(yíng)銷語言或者主觀性的詞,則可能表明這些買家是槍手。
?
Overrepresented participation 過度參與的群組:
?
1.賣家通過禮物或其他方式讓買家評(píng)論他們的產(chǎn)品。這會(huì)讓平時(shí)不寫評(píng)論的買家未為產(chǎn)品寫評(píng)論,從而導(dǎo)致少留評(píng)記錄的買家群體過多。
2.賣家找服務(wù)商刷,這將導(dǎo)致買家的結(jié)構(gòu)異常。
?
以上是Review權(quán)重的影響因素,還有一些解釋。網(wǎng)站的內(nèi)容都是英文,我簡(jiǎn)單的翻譯了一下,如果還存在某些概念的不解可以留評(píng)提問,如果好奇關(guān)于權(quán)重的一些計(jì)算方式那么我會(huì)找時(shí)間翻譯一些其他內(nèi)容。
?
影響權(quán)重的不僅僅是買家的賬號(hào),還有LISTING下評(píng)論的結(jié)構(gòu),包括句子、上評(píng)日期等。
更多的內(nèi)容可以參考這個(gè)網(wǎng)站:reviewmeta.com
?
4.27更新
?
評(píng)論詞數(shù)比較(其中一個(gè)維度)
?
通過算法可以發(fā)現(xiàn)買家操縱評(píng)論的痕跡。首先進(jìn)行每一篇評(píng)論的詞數(shù)比較,進(jìn)而識(shí)別出不符合常規(guī)的內(nèi)容。盡管買家評(píng)論的內(nèi)容不受個(gè)人偏見的影響,但通過這個(gè)算法來分析所有評(píng)論中的次數(shù)可以得出某些評(píng)論數(shù)組的異常情況,從而辨別出哪些評(píng)論內(nèi)容是虛假的。
?
正常情況下評(píng)論的詞數(shù)是完全隨機(jī)的,所以在LISTING下的評(píng)論應(yīng)該是處于一個(gè)合理的詞數(shù)分布:有的長(zhǎng),有的短,有的介于兩者之間。如果我們看到比正常情況下大很多比例的詞數(shù)組,那么就有操縱評(píng)論的嫌疑。
?
首先將產(chǎn)品的每一個(gè)評(píng)論放到一個(gè)詞數(shù)組。比如,一篇23字的評(píng)論屬于“21-25字統(tǒng)計(jì)組”,一篇109字的評(píng)論屬于“101-125字統(tǒng)計(jì)組”,一篇600字的評(píng)論屬于“201+字統(tǒng)計(jì)組”。從字?jǐn)?shù)定義我們的評(píng)論詞數(shù)組,僅僅一個(gè)產(chǎn)品的詞數(shù)分布并不能給我們有效的回答,進(jìn)而需要比較產(chǎn)品類目的所有評(píng)論的詞數(shù)分布作為一個(gè)預(yù)期分布,最后進(jìn)行比較。
?
一旦我們得到了產(chǎn)品的詞數(shù)分布和類目的預(yù)期詞數(shù)分布。我們通過比較這兩個(gè)分布并找到產(chǎn)品的詞數(shù)分布遠(yuǎn)高于類目的預(yù)期詞數(shù)分布的組。對(duì)于每一個(gè)數(shù)量較多的評(píng)論詞數(shù)組進(jìn)行顯著性檢驗(yàn),確保數(shù)據(jù)不受隨機(jī)因素或其他因素的影響,最終去判斷這個(gè)詞數(shù)組的真實(shí)情況。如果一個(gè)產(chǎn)品沒那么多的評(píng)論,我們就通過其他維度去避免隨機(jī)因素的影響。但如果這些詞數(shù)組的差異在統(tǒng)計(jì)學(xué)是顯著的,就是不符合假設(shè),就將此組標(biāo)記為占比過多詞數(shù)組。(用線性回歸和概率論去計(jì)算的邏輯)
?
有很多合理的解釋去解釋為什么一個(gè)產(chǎn)品會(huì)有一個(gè)詞數(shù)組分布不符合期望的詞數(shù)組分布。比如一個(gè)產(chǎn)品的爭(zhēng)議性很高或者用起來很復(fù)雜,那么它在201+詞數(shù)范圍會(huì)有很多評(píng)論?;蛘哂行┊a(chǎn)品設(shè)計(jì)的很簡(jiǎn)單,用起來也很簡(jiǎn)單,那么在50以下詞數(shù)范圍會(huì)有很多評(píng)論,就說USB數(shù)據(jù)線,能寫啥,這線又長(zhǎng)又細(xì)?你看這頭又方又正?
?
這就是為什么要將產(chǎn)品的詞數(shù)分布和類目的預(yù)期詞數(shù)分布進(jìn)行比較,而不是分析LISTING上的每個(gè)評(píng)論。不同產(chǎn)品的預(yù)期詞數(shù)分布都有很大的差異,所以要為每一類產(chǎn)品建立不同的預(yù)期模型對(duì)應(yīng)其類目的產(chǎn)品。
?
如果有產(chǎn)品不符合假設(shè)的詞數(shù)組,這里面肯定是有人為干預(yù)的因素。這些因素其實(shí)無法判斷是Postive還是Negative,但這些因素會(huì)造成評(píng)分出現(xiàn)偏差:
?
1.買家叫粉絲來寫,或者給禮物。那么為了要禮物的大多會(huì)隨便寫,那么在低詞數(shù)組會(huì)出現(xiàn)一個(gè)峰值。
?
2.買家組織“專業(yè)評(píng)論的人”寫又長(zhǎng)又詳細(xì)看起來很誠(chéng)實(shí)的評(píng)論,這會(huì)導(dǎo)致在較長(zhǎng)的詞數(shù)組出現(xiàn)一個(gè)峰值。
?
3.S單。無論自己的號(hào)還是中介,都會(huì)在數(shù)據(jù)上出現(xiàn)問題。典型的人工評(píng)論會(huì)一次又一次使用某幾個(gè)詞,有的為了節(jié)省時(shí)間就寫那么幾個(gè)詞,這些行為在數(shù)據(jù)上都會(huì)出現(xiàn)異常情況。
?
最后,報(bào)告會(huì)挑出LISTING中不合理的詞數(shù)組,如果超出了模型的預(yù)期,那么會(huì)標(biāo)記為Unnatural。此外,如果LISTING中詞數(shù)組很多,那么可以比較某個(gè)組的平均評(píng)分和其他組的平均評(píng)分,如果評(píng)分的差異不具備統(tǒng)計(jì)學(xué)意義或者說超出了合理范圍,那么這個(gè)LISTING組的評(píng)論可信度是非常低的。
?
4.28更新
?
(刀在廚子手里是廚具,在軍人手里是武器,對(duì)于嬰兒來說,刀沒有任何用處。)
?
包含重復(fù)短語的評(píng)論(其中一個(gè)維度)
?
判斷Review真實(shí)性的方法之一是分析LISTING中每個(gè)評(píng)論使用的短語。首先要意識(shí)到我們很難從單個(gè)評(píng)論的短語得出任何結(jié)論,但我們能匯總所有評(píng)論中的短語,然后去幫我們確認(rèn)哪些評(píng)論是可能有問題的。
?
重復(fù)短語測(cè)試的過程比其他測(cè)試要復(fù)雜一些,首先要為一個(gè)既定的產(chǎn)品編輯一個(gè)曾在多個(gè)評(píng)論中使用的短語列表,其次再去確認(rèn)哪些評(píng)論包含了這些短語,最后將他們的平均評(píng)分和不包含這些短語的評(píng)論的平均評(píng)分進(jìn)行比較。
?
在編輯重復(fù)短語列表的方面,我們首先要找到一個(gè)LISTING下多個(gè)不同評(píng)論中出現(xiàn)3個(gè)及以上單詞組成的短語,另外設(shè)置一個(gè)公式確保內(nèi)容的實(shí)質(zhì)性。比如三個(gè)字的短語'it was the'不具備任何意義,但'excelled all expectances'是具備實(shí)質(zhì)性的。公式考慮了短語的長(zhǎng)度、復(fù)雜性和所用單詞的類型,確保列表中的每個(gè)短語不是日常英語中常用的哪些介詞、不定冠詞和代詞之類的。
?
一旦我們有了重復(fù)短語的列表,那么就要檢查每一個(gè)評(píng)論,看看他們是否(以及頻率)使用這些短語。我們給每個(gè)評(píng)論一個(gè)權(quán)重,從詞數(shù)、重復(fù)短語數(shù)量和短語的實(shí)質(zhì)性方面入手。低分表示該評(píng)論中很少或沒有使用重復(fù)短語,超過某個(gè)分值的評(píng)論會(huì)被標(biāo)記為使用重復(fù)短語。
?
如果有很多評(píng)論使用某個(gè)重復(fù)短語,這些評(píng)論可能會(huì)是有問題的。首先對(duì)某些重復(fù)短語的使用是很正常的,不能直接說明問題,具體的內(nèi)容還是要根據(jù)自己的判斷。比如,我們經(jīng)常看到買家提到某個(gè)產(chǎn)品的功能,這很正常,這是編寫一條詳細(xì)評(píng)論的必備內(nèi)容。但是,如果一群買家一字不差的完全重復(fù)使用某種營(yíng)銷短語或主觀性語言,那么這些評(píng)論是有人為操縱的嫌疑的。
?
為了確定這些評(píng)論的屬性,我們要將所有帶有重復(fù)短語的評(píng)論分組并確定它們的總體百分比。如果看到有一部分的評(píng)論中有重復(fù)短語,那并不會(huì)馬上判定為是有問題的,但過多的評(píng)論是會(huì)引起嫌疑的。接下來,我們要去對(duì)比有重復(fù)短語的評(píng)論是否比沒有重復(fù)短語的評(píng)論有更高的平均評(píng)分,如果有,我們就要檢驗(yàn)這個(gè)差異是否符合原假設(shè)。可以通過一個(gè)公式來計(jì)算數(shù)據(jù),這個(gè)公式包含了總評(píng)分和重復(fù)短語評(píng)分的差異,通過數(shù)學(xué)模型去判斷這種差異的合理性。如果有重復(fù)詞評(píng)論的評(píng)分比沒用重復(fù)詞的評(píng)分高很多,且不符合原假設(shè),那么可以認(rèn)為這個(gè)重復(fù)詞組的評(píng)分是有人為操縱的嫌疑的。(顯著性檢驗(yàn))
8 個(gè)回復(fù)
ljb555 - 入行很多很多年的老菜鳥
贊同來自: 十三爺 、 Avalanche 、 開發(fā)老晴 、 wangfei1032 、 祝你明天爆單 、 Dirtytc 、 潛水咸魚等待翻身 、 小麥家一枚 、 跨境拆遷戶 更多 ?