社區(qū) 發(fā)現(xiàn) Amazon 亞馬遜Review權(quán)重詳解!
亞馬遜Review權(quán)重詳解!
?
為了更好的找到Review權(quán)重的內(nèi)容,我換了一個思路去理解它,那就是如何甄別假評論。從這個角度出發(fā),我找到了一個網(wǎng)站旨在幫助消費者還原產(chǎn)品的真實評分??偟膩碚f,這個網(wǎng)站和亞馬遜都在做同一件事,就是找出假評論且刪除它的影響。根據(jù)網(wǎng)站的數(shù)據(jù)可以試著去推出競爭對手的上評方式,或者讓我們避免S單被抓。
?
評分的權(quán)重由每個評論者組成,將每個Reviewer的特征整合在一起會對我們很有啟發(fā)性,理解每個賬號的權(quán)重出發(fā)會幫助我們理解LISTING中評分的權(quán)重。
?
權(quán)重因素:
1.Easy Graders 易給高評分者
2.Overrepresented participation 過度參與的群組
3.Reviews on high volume days 在評論集中日評論
4.One-Hit Wonders 一次性評論者
5.Substantial repeated phrases 大量重復(fù)短語
6.Brand Loyalists 品牌粉絲
7.Brand Monogamists 品牌鐵桿粉
8.Incentivized reviews 帶鼓勵性質(zhì)的評論
9.Brand Repeaters 品牌重復(fù)購買者
10.Take-Back Reviewers 被刪過評的用戶
11.Unverified purchases 未認(rèn)證購買
12.Overrepresented word counts 評論字?jǐn)?shù)過度參與組
13.Substantial overlapping history 交叉購買記錄
14.Never-Verified Reviewers 黑號
15.Same-Day Reviewers 都在一天留評用戶
?
One-Hit Wonders 一次性評論者:
?
這些賬戶寫了一篇評論,這意味著這些賬戶只評論了某個產(chǎn)品。無偏見的評論者往往是一個網(wǎng)站的長期成員,他們一般不會只針對某個產(chǎn)品做出評論。如果某個產(chǎn)品有過多的一次性評論者,可以表明有操作評論的嫌疑。雖然有許多原因可能會導(dǎo)致某個產(chǎn)品中一次性評論者,但有幾個常見的原因包括:假號、或以某種方式誘導(dǎo)不寫評論的人群留評。
?
Take-Back Reviewers 被刪過評的用戶:
?
包括在歷史記錄中有刪除評論的評論者。這些評論者很可疑是因為評論內(nèi)容很可能是由于違反服務(wù)條款而被亞馬遜刪除。評論者以前曾被抓到操縱評論,不確定他們是否已停止違反規(guī)則。
還有一些刪評的原因:
1.買家自己想刪除。
2.品牌聯(lián)系到買家以刪除評論-通常為負(fù)面評論。
3.Amazon認(rèn)為其違反了規(guī)則,則可能會刪除評論-通常是正面評論。
4.發(fā)布評論后,平臺更改了規(guī)則導(dǎo)致刪除。 例如,在亞馬遜更新評論政策后,許多現(xiàn)有的誘導(dǎo)性評論被刪除。 另一個例子是,亞馬遜降低了每種產(chǎn)品的Vine評論上限,因此刪除了許多超過該限制的Vine評論。
?
Single-Day Reviewers 一天評論買家:
?
在一天內(nèi)發(fā)布了所有評論的買家被標(biāo)記為一天評論買家。這些買家的賬號存在疑問是因為他們沒有像大多數(shù)人那樣留評,也不排除心血來潮。
?
Substantial repeated phrases 大量重復(fù)短語:
?
如果使用重復(fù)短語的評論數(shù)量較多,則可能表明該評論不是自然創(chuàng)建的。 但是仍然有很多充分的理由說明重復(fù)出現(xiàn)一些短語,這些短語不一定表示評論有偏見。比如電子產(chǎn)品,很多買家都會提到產(chǎn)品的功能,這些詞的重復(fù)是很正常的。 但是,如果有幾位買家完全逐字地寫了相同的營銷語言或者主觀性的詞,則可能表明這些買家是槍手。
?
Overrepresented participation 過度參與的群組:
?
1.賣家通過禮物或其他方式讓買家評論他們的產(chǎn)品。這會讓平時不寫評論的買家未為產(chǎn)品寫評論,從而導(dǎo)致少留評記錄的買家群體過多。
2.賣家找服務(wù)商刷,這將導(dǎo)致買家的結(jié)構(gòu)異常。
?
以上是Review權(quán)重的影響因素,還有一些解釋。網(wǎng)站的內(nèi)容都是英文,我簡單的翻譯了一下,如果還存在某些概念的不解可以留評提問,如果好奇關(guān)于權(quán)重的一些計算方式那么我會找時間翻譯一些其他內(nèi)容。
?
影響權(quán)重的不僅僅是買家的賬號,還有LISTING下評論的結(jié)構(gòu),包括句子、上評日期等。
更多的內(nèi)容可以參考這個網(wǎng)站:reviewmeta.com
?
4.27更新
?
評論詞數(shù)比較(其中一個維度)
?
通過算法可以發(fā)現(xiàn)買家操縱評論的痕跡。首先進行每一篇評論的詞數(shù)比較,進而識別出不符合常規(guī)的內(nèi)容。盡管買家評論的內(nèi)容不受個人偏見的影響,但通過這個算法來分析所有評論中的次數(shù)可以得出某些評論數(shù)組的異常情況,從而辨別出哪些評論內(nèi)容是虛假的。
?
正常情況下評論的詞數(shù)是完全隨機的,所以在LISTING下的評論應(yīng)該是處于一個合理的詞數(shù)分布:有的長,有的短,有的介于兩者之間。如果我們看到比正常情況下大很多比例的詞數(shù)組,那么就有操縱評論的嫌疑。
?
首先將產(chǎn)品的每一個評論放到一個詞數(shù)組。比如,一篇23字的評論屬于“21-25字統(tǒng)計組”,一篇109字的評論屬于“101-125字統(tǒng)計組”,一篇600字的評論屬于“201+字統(tǒng)計組”。從字?jǐn)?shù)定義我們的評論詞數(shù)組,僅僅一個產(chǎn)品的詞數(shù)分布并不能給我們有效的回答,進而需要比較產(chǎn)品類目的所有評論的詞數(shù)分布作為一個預(yù)期分布,最后進行比較。
?
一旦我們得到了產(chǎn)品的詞數(shù)分布和類目的預(yù)期詞數(shù)分布。我們通過比較這兩個分布并找到產(chǎn)品的詞數(shù)分布遠高于類目的預(yù)期詞數(shù)分布的組。對于每一個數(shù)量較多的評論詞數(shù)組進行顯著性檢驗,確保數(shù)據(jù)不受隨機因素或其他因素的影響,最終去判斷這個詞數(shù)組的真實情況。如果一個產(chǎn)品沒那么多的評論,我們就通過其他維度去避免隨機因素的影響。但如果這些詞數(shù)組的差異在統(tǒng)計學(xué)是顯著的,就是不符合假設(shè),就將此組標(biāo)記為占比過多詞數(shù)組。(用線性回歸和概率論去計算的邏輯)
?
有很多合理的解釋去解釋為什么一個產(chǎn)品會有一個詞數(shù)組分布不符合期望的詞數(shù)組分布。比如一個產(chǎn)品的爭議性很高或者用起來很復(fù)雜,那么它在201+詞數(shù)范圍會有很多評論。或者有些產(chǎn)品設(shè)計的很簡單,用起來也很簡單,那么在50以下詞數(shù)范圍會有很多評論,就說USB數(shù)據(jù)線,能寫啥,這線又長又細?你看這頭又方又正?
?
這就是為什么要將產(chǎn)品的詞數(shù)分布和類目的預(yù)期詞數(shù)分布進行比較,而不是分析LISTING上的每個評論。不同產(chǎn)品的預(yù)期詞數(shù)分布都有很大的差異,所以要為每一類產(chǎn)品建立不同的預(yù)期模型對應(yīng)其類目的產(chǎn)品。
?
如果有產(chǎn)品不符合假設(shè)的詞數(shù)組,這里面肯定是有人為干預(yù)的因素。這些因素其實無法判斷是Postive還是Negative,但這些因素會造成評分出現(xiàn)偏差:
?
1.買家叫粉絲來寫,或者給禮物。那么為了要禮物的大多會隨便寫,那么在低詞數(shù)組會出現(xiàn)一個峰值。
?
2.買家組織“專業(yè)評論的人”寫又長又詳細看起來很誠實的評論,這會導(dǎo)致在較長的詞數(shù)組出現(xiàn)一個峰值。
?
3.S單。無論自己的號還是中介,都會在數(shù)據(jù)上出現(xiàn)問題。典型的人工評論會一次又一次使用某幾個詞,有的為了節(jié)省時間就寫那么幾個詞,這些行為在數(shù)據(jù)上都會出現(xiàn)異常情況。
?
最后,報告會挑出LISTING中不合理的詞數(shù)組,如果超出了模型的預(yù)期,那么會標(biāo)記為Unnatural。此外,如果LISTING中詞數(shù)組很多,那么可以比較某個組的平均評分和其他組的平均評分,如果評分的差異不具備統(tǒng)計學(xué)意義或者說超出了合理范圍,那么這個LISTING組的評論可信度是非常低的。
?
4.28更新
?
(刀在廚子手里是廚具,在軍人手里是武器,對于嬰兒來說,刀沒有任何用處。)
?
包含重復(fù)短語的評論(其中一個維度)
?
判斷Review真實性的方法之一是分析LISTING中每個評論使用的短語。首先要意識到我們很難從單個評論的短語得出任何結(jié)論,但我們能匯總所有評論中的短語,然后去幫我們確認(rèn)哪些評論是可能有問題的。
?
重復(fù)短語測試的過程比其他測試要復(fù)雜一些,首先要為一個既定的產(chǎn)品編輯一個曾在多個評論中使用的短語列表,其次再去確認(rèn)哪些評論包含了這些短語,最后將他們的平均評分和不包含這些短語的評論的平均評分進行比較。
?
在編輯重復(fù)短語列表的方面,我們首先要找到一個LISTING下多個不同評論中出現(xiàn)3個及以上單詞組成的短語,另外設(shè)置一個公式確保內(nèi)容的實質(zhì)性。比如三個字的短語'it was the'不具備任何意義,但'excelled all expectances'是具備實質(zhì)性的。公式考慮了短語的長度、復(fù)雜性和所用單詞的類型,確保列表中的每個短語不是日常英語中常用的哪些介詞、不定冠詞和代詞之類的。
?
一旦我們有了重復(fù)短語的列表,那么就要檢查每一個評論,看看他們是否(以及頻率)使用這些短語。我們給每個評論一個權(quán)重,從詞數(shù)、重復(fù)短語數(shù)量和短語的實質(zhì)性方面入手。低分表示該評論中很少或沒有使用重復(fù)短語,超過某個分值的評論會被標(biāo)記為使用重復(fù)短語。
?
如果有很多評論使用某個重復(fù)短語,這些評論可能會是有問題的。首先對某些重復(fù)短語的使用是很正常的,不能直接說明問題,具體的內(nèi)容還是要根據(jù)自己的判斷。比如,我們經(jīng)??吹劫I家提到某個產(chǎn)品的功能,這很正常,這是編寫一條詳細評論的必備內(nèi)容。但是,如果一群買家一字不差的完全重復(fù)使用某種營銷短語或主觀性語言,那么這些評論是有人為操縱的嫌疑的。
?
為了確定這些評論的屬性,我們要將所有帶有重復(fù)短語的評論分組并確定它們的總體百分比。如果看到有一部分的評論中有重復(fù)短語,那并不會馬上判定為是有問題的,但過多的評論是會引起嫌疑的。接下來,我們要去對比有重復(fù)短語的評論是否比沒有重復(fù)短語的評論有更高的平均評分,如果有,我們就要檢驗這個差異是否符合原假設(shè)??梢酝ㄟ^一個公式來計算數(shù)據(jù),這個公式包含了總評分和重復(fù)短語評分的差異,通過數(shù)學(xué)模型去判斷這種差異的合理性。如果有重復(fù)詞評論的評分比沒用重復(fù)詞的評分高很多,且不符合原假設(shè),那么可以認(rèn)為這個重復(fù)詞組的評分是有人為操縱的嫌疑的。(顯著性檢驗)
8 個回復(fù)
ljb555 - 入行很多很多年的老菜鳥
贊同來自: 十三爺 、 Avalanche 、 開發(fā)老晴 、 wangfei1032 、 祝你明天爆單 、 Dirtytc 、 潛水咸魚等待翻身 、 小麥家一枚 、 跨境拆遷戶 更多 ?