社區(qū) 發(fā)現(xiàn) Amazon 亞馬遜Review權(quán)重詳解!
亞馬遜Review權(quán)重詳解!
?
為了更好的找到Review權(quán)重的內(nèi)容,我換了一個(gè)思路去理解它,那就是如何甄別假評(píng)論。從這個(gè)角度出發(fā),我找到了一個(gè)網(wǎng)站旨在幫助消費(fèi)者還原產(chǎn)品的真實(shí)評(píng)分??偟膩?lái)說(shuō),這個(gè)網(wǎng)站和亞馬遜都在做同一件事,就是找出假評(píng)論且刪除它的影響。根據(jù)網(wǎng)站的數(shù)據(jù)可以試著去推出競(jìng)爭(zhēng)對(duì)手的上評(píng)方式,或者讓我們避免S單被抓。
?
評(píng)分的權(quán)重由每個(gè)評(píng)論者組成,將每個(gè)Reviewer的特征整合在一起會(huì)對(duì)我們很有啟發(fā)性,理解每個(gè)賬號(hào)的權(quán)重出發(fā)會(huì)幫助我們理解LISTING中評(píng)分的權(quán)重。
?
權(quán)重因素:
1.Easy Graders 易給高評(píng)分者
2.Overrepresented participation 過(guò)度參與的群組
3.Reviews on high volume days 在評(píng)論集中日評(píng)論
4.One-Hit Wonders 一次性評(píng)論者
5.Substantial repeated phrases 大量重復(fù)短語(yǔ)
6.Brand Loyalists 品牌粉絲
7.Brand Monogamists 品牌鐵桿粉
8.Incentivized reviews 帶鼓勵(lì)性質(zhì)的評(píng)論
9.Brand Repeaters 品牌重復(fù)購(gòu)買者
10.Take-Back Reviewers 被刪過(guò)評(píng)的用戶
11.Unverified purchases 未認(rèn)證購(gòu)買
12.Overrepresented word counts 評(píng)論字?jǐn)?shù)過(guò)度參與組
13.Substantial overlapping history 交叉購(gòu)買記錄
14.Never-Verified Reviewers 黑號(hào)
15.Same-Day Reviewers 都在一天留評(píng)用戶
?
One-Hit Wonders 一次性評(píng)論者:
?
這些賬戶寫(xiě)了一篇評(píng)論,這意味著這些賬戶只評(píng)論了某個(gè)產(chǎn)品。無(wú)偏見(jiàn)的評(píng)論者往往是一個(gè)網(wǎng)站的長(zhǎng)期成員,他們一般不會(huì)只針對(duì)某個(gè)產(chǎn)品做出評(píng)論。如果某個(gè)產(chǎn)品有過(guò)多的一次性評(píng)論者,可以表明有操作評(píng)論的嫌疑。雖然有許多原因可能會(huì)導(dǎo)致某個(gè)產(chǎn)品中一次性評(píng)論者,但有幾個(gè)常見(jiàn)的原因包括:假號(hào)、或以某種方式誘導(dǎo)不寫(xiě)評(píng)論的人群留評(píng)。
?
Take-Back Reviewers 被刪過(guò)評(píng)的用戶:
?
包括在歷史記錄中有刪除評(píng)論的評(píng)論者。這些評(píng)論者很可疑是因?yàn)樵u(píng)論內(nèi)容很可能是由于違反服務(wù)條款而被亞馬遜刪除。評(píng)論者以前曾被抓到操縱評(píng)論,不確定他們是否已停止違反規(guī)則。
還有一些刪評(píng)的原因:
1.買家自己想刪除。
2.品牌聯(lián)系到買家以刪除評(píng)論-通常為負(fù)面評(píng)論。
3.Amazon認(rèn)為其違反了規(guī)則,則可能會(huì)刪除評(píng)論-通常是正面評(píng)論。
4.發(fā)布評(píng)論后,平臺(tái)更改了規(guī)則導(dǎo)致刪除。 例如,在亞馬遜更新評(píng)論政策后,許多現(xiàn)有的誘導(dǎo)性評(píng)論被刪除。 另一個(gè)例子是,亞馬遜降低了每種產(chǎn)品的Vine評(píng)論上限,因此刪除了許多超過(guò)該限制的Vine評(píng)論。
?
Single-Day Reviewers 一天評(píng)論買家:
?
在一天內(nèi)發(fā)布了所有評(píng)論的買家被標(biāo)記為一天評(píng)論買家。這些買家的賬號(hào)存在疑問(wèn)是因?yàn)樗麄儧](méi)有像大多數(shù)人那樣留評(píng),也不排除心血來(lái)潮。
?
Substantial repeated phrases 大量重復(fù)短語(yǔ):
?
如果使用重復(fù)短語(yǔ)的評(píng)論數(shù)量較多,則可能表明該評(píng)論不是自然創(chuàng)建的。 但是仍然有很多充分的理由說(shuō)明重復(fù)出現(xiàn)一些短語(yǔ),這些短語(yǔ)不一定表示評(píng)論有偏見(jiàn)。比如電子產(chǎn)品,很多買家都會(huì)提到產(chǎn)品的功能,這些詞的重復(fù)是很正常的。 但是,如果有幾位買家完全逐字地寫(xiě)了相同的營(yíng)銷語(yǔ)言或者主觀性的詞,則可能表明這些買家是槍手。
?
Overrepresented participation 過(guò)度參與的群組:
?
1.賣家通過(guò)禮物或其他方式讓買家評(píng)論他們的產(chǎn)品。這會(huì)讓平時(shí)不寫(xiě)評(píng)論的買家未為產(chǎn)品寫(xiě)評(píng)論,從而導(dǎo)致少留評(píng)記錄的買家群體過(guò)多。
2.賣家找服務(wù)商刷,這將導(dǎo)致買家的結(jié)構(gòu)異常。
?
以上是Review權(quán)重的影響因素,還有一些解釋。網(wǎng)站的內(nèi)容都是英文,我簡(jiǎn)單的翻譯了一下,如果還存在某些概念的不解可以留評(píng)提問(wèn),如果好奇關(guān)于權(quán)重的一些計(jì)算方式那么我會(huì)找時(shí)間翻譯一些其他內(nèi)容。
?
影響權(quán)重的不僅僅是買家的賬號(hào),還有LISTING下評(píng)論的結(jié)構(gòu),包括句子、上評(píng)日期等。
更多的內(nèi)容可以參考這個(gè)網(wǎng)站:reviewmeta.com
?
4.27更新
?
評(píng)論詞數(shù)比較(其中一個(gè)維度)
?
通過(guò)算法可以發(fā)現(xiàn)買家操縱評(píng)論的痕跡。首先進(jìn)行每一篇評(píng)論的詞數(shù)比較,進(jìn)而識(shí)別出不符合常規(guī)的內(nèi)容。盡管買家評(píng)論的內(nèi)容不受個(gè)人偏見(jiàn)的影響,但通過(guò)這個(gè)算法來(lái)分析所有評(píng)論中的次數(shù)可以得出某些評(píng)論數(shù)組的異常情況,從而辨別出哪些評(píng)論內(nèi)容是虛假的。
?
正常情況下評(píng)論的詞數(shù)是完全隨機(jī)的,所以在LISTING下的評(píng)論應(yīng)該是處于一個(gè)合理的詞數(shù)分布:有的長(zhǎng),有的短,有的介于兩者之間。如果我們看到比正常情況下大很多比例的詞數(shù)組,那么就有操縱評(píng)論的嫌疑。
?
首先將產(chǎn)品的每一個(gè)評(píng)論放到一個(gè)詞數(shù)組。比如,一篇23字的評(píng)論屬于“21-25字統(tǒng)計(jì)組”,一篇109字的評(píng)論屬于“101-125字統(tǒng)計(jì)組”,一篇600字的評(píng)論屬于“201+字統(tǒng)計(jì)組”。從字?jǐn)?shù)定義我們的評(píng)論詞數(shù)組,僅僅一個(gè)產(chǎn)品的詞數(shù)分布并不能給我們有效的回答,進(jìn)而需要比較產(chǎn)品類目的所有評(píng)論的詞數(shù)分布作為一個(gè)預(yù)期分布,最后進(jìn)行比較。
?
一旦我們得到了產(chǎn)品的詞數(shù)分布和類目的預(yù)期詞數(shù)分布。我們通過(guò)比較這兩個(gè)分布并找到產(chǎn)品的詞數(shù)分布遠(yuǎn)高于類目的預(yù)期詞數(shù)分布的組。對(duì)于每一個(gè)數(shù)量較多的評(píng)論詞數(shù)組進(jìn)行顯著性檢驗(yàn),確保數(shù)據(jù)不受隨機(jī)因素或其他因素的影響,最終去判斷這個(gè)詞數(shù)組的真實(shí)情況。如果一個(gè)產(chǎn)品沒(méi)那么多的評(píng)論,我們就通過(guò)其他維度去避免隨機(jī)因素的影響。但如果這些詞數(shù)組的差異在統(tǒng)計(jì)學(xué)是顯著的,就是不符合假設(shè),就將此組標(biāo)記為占比過(guò)多詞數(shù)組。(用線性回歸和概率論去計(jì)算的邏輯)
?
有很多合理的解釋去解釋為什么一個(gè)產(chǎn)品會(huì)有一個(gè)詞數(shù)組分布不符合期望的詞數(shù)組分布。比如一個(gè)產(chǎn)品的爭(zhēng)議性很高或者用起來(lái)很復(fù)雜,那么它在201+詞數(shù)范圍會(huì)有很多評(píng)論?;蛘哂行┊a(chǎn)品設(shè)計(jì)的很簡(jiǎn)單,用起來(lái)也很簡(jiǎn)單,那么在50以下詞數(shù)范圍會(huì)有很多評(píng)論,就說(shuō)USB數(shù)據(jù)線,能寫(xiě)啥,這線又長(zhǎng)又細(xì)?你看這頭又方又正?
?
這就是為什么要將產(chǎn)品的詞數(shù)分布和類目的預(yù)期詞數(shù)分布進(jìn)行比較,而不是分析LISTING上的每個(gè)評(píng)論。不同產(chǎn)品的預(yù)期詞數(shù)分布都有很大的差異,所以要為每一類產(chǎn)品建立不同的預(yù)期模型對(duì)應(yīng)其類目的產(chǎn)品。
?
如果有產(chǎn)品不符合假設(shè)的詞數(shù)組,這里面肯定是有人為干預(yù)的因素。這些因素其實(shí)無(wú)法判斷是Postive還是Negative,但這些因素會(huì)造成評(píng)分出現(xiàn)偏差:
?
1.買家叫粉絲來(lái)寫(xiě),或者給禮物。那么為了要禮物的大多會(huì)隨便寫(xiě),那么在低詞數(shù)組會(huì)出現(xiàn)一個(gè)峰值。
?
2.買家組織“專業(yè)評(píng)論的人”寫(xiě)又長(zhǎng)又詳細(xì)看起來(lái)很誠(chéng)實(shí)的評(píng)論,這會(huì)導(dǎo)致在較長(zhǎng)的詞數(shù)組出現(xiàn)一個(gè)峰值。
?
3.S單。無(wú)論自己的號(hào)還是中介,都會(huì)在數(shù)據(jù)上出現(xiàn)問(wèn)題。典型的人工評(píng)論會(huì)一次又一次使用某幾個(gè)詞,有的為了節(jié)省時(shí)間就寫(xiě)那么幾個(gè)詞,這些行為在數(shù)據(jù)上都會(huì)出現(xiàn)異常情況。
?
最后,報(bào)告會(huì)挑出LISTING中不合理的詞數(shù)組,如果超出了模型的預(yù)期,那么會(huì)標(biāo)記為Unnatural。此外,如果LISTING中詞數(shù)組很多,那么可以比較某個(gè)組的平均評(píng)分和其他組的平均評(píng)分,如果評(píng)分的差異不具備統(tǒng)計(jì)學(xué)意義或者說(shuō)超出了合理范圍,那么這個(gè)LISTING組的評(píng)論可信度是非常低的。
?
4.28更新
?
(刀在廚子手里是廚具,在軍人手里是武器,對(duì)于嬰兒來(lái)說(shuō),刀沒(méi)有任何用處。)
?
包含重復(fù)短語(yǔ)的評(píng)論(其中一個(gè)維度)
?
判斷Review真實(shí)性的方法之一是分析LISTING中每個(gè)評(píng)論使用的短語(yǔ)。首先要意識(shí)到我們很難從單個(gè)評(píng)論的短語(yǔ)得出任何結(jié)論,但我們能匯總所有評(píng)論中的短語(yǔ),然后去幫我們確認(rèn)哪些評(píng)論是可能有問(wèn)題的。
?
重復(fù)短語(yǔ)測(cè)試的過(guò)程比其他測(cè)試要復(fù)雜一些,首先要為一個(gè)既定的產(chǎn)品編輯一個(gè)曾在多個(gè)評(píng)論中使用的短語(yǔ)列表,其次再去確認(rèn)哪些評(píng)論包含了這些短語(yǔ),最后將他們的平均評(píng)分和不包含這些短語(yǔ)的評(píng)論的平均評(píng)分進(jìn)行比較。
?
在編輯重復(fù)短語(yǔ)列表的方面,我們首先要找到一個(gè)LISTING下多個(gè)不同評(píng)論中出現(xiàn)3個(gè)及以上單詞組成的短語(yǔ),另外設(shè)置一個(gè)公式確保內(nèi)容的實(shí)質(zhì)性。比如三個(gè)字的短語(yǔ)'it was the'不具備任何意義,但'excelled all expectances'是具備實(shí)質(zhì)性的。公式考慮了短語(yǔ)的長(zhǎng)度、復(fù)雜性和所用單詞的類型,確保列表中的每個(gè)短語(yǔ)不是日常英語(yǔ)中常用的哪些介詞、不定冠詞和代詞之類的。
?
一旦我們有了重復(fù)短語(yǔ)的列表,那么就要檢查每一個(gè)評(píng)論,看看他們是否(以及頻率)使用這些短語(yǔ)。我們給每個(gè)評(píng)論一個(gè)權(quán)重,從詞數(shù)、重復(fù)短語(yǔ)數(shù)量和短語(yǔ)的實(shí)質(zhì)性方面入手。低分表示該評(píng)論中很少或沒(méi)有使用重復(fù)短語(yǔ),超過(guò)某個(gè)分值的評(píng)論會(huì)被標(biāo)記為使用重復(fù)短語(yǔ)。
?
如果有很多評(píng)論使用某個(gè)重復(fù)短語(yǔ),這些評(píng)論可能會(huì)是有問(wèn)題的。首先對(duì)某些重復(fù)短語(yǔ)的使用是很正常的,不能直接說(shuō)明問(wèn)題,具體的內(nèi)容還是要根據(jù)自己的判斷。比如,我們經(jīng)??吹劫I家提到某個(gè)產(chǎn)品的功能,這很正常,這是編寫(xiě)一條詳細(xì)評(píng)論的必備內(nèi)容。但是,如果一群買家一字不差的完全重復(fù)使用某種營(yíng)銷短語(yǔ)或主觀性語(yǔ)言,那么這些評(píng)論是有人為操縱的嫌疑的。
?
為了確定這些評(píng)論的屬性,我們要將所有帶有重復(fù)短語(yǔ)的評(píng)論分組并確定它們的總體百分比。如果看到有一部分的評(píng)論中有重復(fù)短語(yǔ),那并不會(huì)馬上判定為是有問(wèn)題的,但過(guò)多的評(píng)論是會(huì)引起嫌疑的。接下來(lái),我們要去對(duì)比有重復(fù)短語(yǔ)的評(píng)論是否比沒(méi)有重復(fù)短語(yǔ)的評(píng)論有更高的平均評(píng)分,如果有,我們就要檢驗(yàn)這個(gè)差異是否符合原假設(shè)??梢酝ㄟ^(guò)一個(gè)公式來(lái)計(jì)算數(shù)據(jù),這個(gè)公式包含了總評(píng)分和重復(fù)短語(yǔ)評(píng)分的差異,通過(guò)數(shù)學(xué)模型去判斷這種差異的合理性。如果有重復(fù)詞評(píng)論的評(píng)分比沒(méi)用重復(fù)詞的評(píng)分高很多,且不符合原假設(shè),那么可以認(rèn)為這個(gè)重復(fù)詞組的評(píng)分是有人為操縱的嫌疑的。(顯著性檢驗(yàn))
8 個(gè)回復(fù)
ljb555 - 入行很多很多年的老菜鳥(niǎo)
贊同來(lái)自: 十三爺 、 Avalanche 、 開(kāi)發(fā)老晴 、 wangfei1032 、 祝你明天爆單 、 Dirtytc 、 潛水咸魚(yú)等待翻身 、 小麥家一枚 、 跨境拆遷戶 更多 ?