人類并非可靠的決策者;他們的判斷受到不相關(guān)因素嚴(yán)重影響,比如當(dāng)時(shí)的情緒。我們將這種隨機(jī)變量稱為“判斷噪聲”。對(duì)很多公司的利潤而言,噪聲都是一筆隱形成本。
研究表明,在股票估價(jià)、鑒定房地產(chǎn)、審判罪犯、評(píng)估工作表現(xiàn)以及審計(jì)財(cái)務(wù)報(bào)表等很多任務(wù)中,專家的決策十分不穩(wěn)定。不可避免的結(jié)論是,專業(yè)人士經(jīng)常做出與自己、同事以及他們聲稱所遵循的規(guī)則大相徑庭的決策。
人們?cè)缫阎?,?jiǎn)單統(tǒng)計(jì)學(xué)算法做出的預(yù)測(cè)和決策往往比專家更準(zhǔn)確,哪怕專家能獲得比算法更多的信息。但鮮有人知的是,算法的關(guān)鍵優(yōu)勢(shì)在于沒有噪聲:與人類不同,輸入相同信息,公式得出的結(jié)果也相同。因?yàn)榉€(wěn)定,哪怕是簡(jiǎn)單甚至有瑕疵的算法,也比人類專家的準(zhǔn)確性高。
噪聲VS.偏見
當(dāng)人們考慮判斷和決策中的差錯(cuò)時(shí),想到的總是社會(huì)性偏見,比如對(duì)少數(shù)族裔的成見、自負(fù)等認(rèn)知偏差以及盲目樂觀。而被我們稱作“噪聲”的無用變量屬于一種不同的差錯(cuò)。
為了理解兩者區(qū)別,你可以想想浴室的體重秤。如果讀數(shù)太高或太低,我們可以說,體重秤出現(xiàn)了偏差。如果你的體重取決于腳的位置,那么可以說體重秤有噪聲。如果體重秤的顯示總是比準(zhǔn)確體重少4磅,那么就存在嚴(yán)重偏差,但沒有噪聲。如果兩次稱重時(shí)顯示不同的重量,那么體重秤存在噪聲。很多計(jì)量差錯(cuò)既包括偏差也包括噪聲。
為了能更直觀地展示這種區(qū)別,請(qǐng)看下圖。圖中展示了4人團(tuán)隊(duì),每人射擊一次的打靶訓(xùn)練結(jié)果。
A隊(duì)很準(zhǔn)確:所有隊(duì)員都打中靶心,彈孔離得很近。而另3支隊(duì)伍都各有各的不準(zhǔn)。
B隊(duì)有噪聲:彈孔在靶心四周,但彼此很分散。
C隊(duì)有偏差:彈孔都沒有擊中靶心,但彼此離得很近。
D隊(duì)既有偏差也有噪聲。
正如A隊(duì)和B隊(duì)所示,在沒有偏差時(shí),噪聲增多常會(huì)影響準(zhǔn)確性。當(dāng)偏差存在時(shí),噪聲增多反而可能歪打正著,比如D隊(duì)的情況。當(dāng)然沒有組織愿意靠運(yùn)氣取勝。噪聲通常不受歡迎,有時(shí)甚至具有災(zāi)難性。
顯然,弄清員工決策時(shí)的偏差和噪聲情況,對(duì)組織幫助很大,但很難直接收集相關(guān)信息。在評(píng)估這些差錯(cuò)時(shí)會(huì)出現(xiàn)不同問題。其中一大問題是,決策帶來的結(jié)果只有在未來才能看到(如果產(chǎn)生了結(jié)果的話)。比如信貸員往往要在數(shù)年后才能發(fā)現(xiàn)他們批準(zhǔn)的貸款結(jié)果如何。他們幾乎從不知道自己拒絕申請(qǐng)者的后續(xù)情況。
“噪聲”審查
噪聲審查的意義不在于出報(bào)告,目的是提高決策質(zhì)量。只有部門leader能夠接受不理想的結(jié)果,并有所行動(dòng)時(shí),審查才能成功。如果高管能將這種調(diào)查看作自己的分內(nèi)事,目標(biāo)更易達(dá)成。
近期,我們幫助兩家金融服務(wù)機(jī)構(gòu)進(jìn)行了噪聲審查。我們研究的兩個(gè)團(tuán)隊(duì)擁有非常不同的職責(zé)和專業(yè)知識(shí),但它們都需要評(píng)估較為復(fù)雜的材料,決定往往涉及數(shù)十萬美元。我們?cè)趦杉覚C(jī)構(gòu)中都遵循了同樣規(guī)則。
首先,我們讓相關(guān)專業(yè)團(tuán)隊(duì)的負(fù)責(zé)人整理出若干個(gè)現(xiàn)實(shí)項(xiàng)目的文件以供評(píng)估。為防止實(shí)驗(yàn)信息外泄,整個(gè)過程在同天完成。員工被要求用半天時(shí)間分析2到4個(gè)項(xiàng)目。他們將按常規(guī)估算出每個(gè)項(xiàng)目的錢數(shù)。為防止串通,參與者不知道本調(diào)查與可靠性有關(guān)。。
我們?yōu)槊總€(gè)項(xiàng)目設(shè)計(jì)了噪聲指數(shù),對(duì)下面這個(gè)問題做出了解答:“兩個(gè)隨機(jī)選擇的員工做出的判斷相差多大?”我們將該差異量化為他們平均值的百分比。比如兩個(gè)員工對(duì)同一項(xiàng)目的估值為600美元和1000美元,他們估算的平均值就是800美元,他們估值的差距是400美元,所以兩人的噪聲指數(shù)就是50%。我們用同樣方法計(jì)算了所有員工配對(duì)的估值,然后計(jì)算出了每個(gè)項(xiàng)目的平均噪聲指數(shù)。
審查前的訪問中,兩家機(jī)構(gòu)的高管表示他們預(yù)計(jì)專業(yè)員工決策的差異在5%到10%左右——關(guān)乎判斷力,他們認(rèn)為這個(gè)范圍可以接受。但結(jié)果令人震驚。A機(jī)構(gòu)6個(gè)項(xiàng)目的噪聲指數(shù)從34%到62%不等,平均為48%。機(jī)構(gòu)B的4個(gè)項(xiàng)目噪聲指數(shù)為46%到70%,平均為60%??赡芰钊耸氖牵ぷ鹘?jīng)驗(yàn)并沒有降噪的作用。在具有5年或以上工作經(jīng)驗(yàn)的專業(yè)員工中,平均差異為:A機(jī)構(gòu)46%,B機(jī)構(gòu)62%。
沒有人想到結(jié)果如此。但因?yàn)樗麄儗?duì)該審查負(fù)責(zé),兩個(gè)機(jī)構(gòu)的高管都接受了結(jié)論:專業(yè)員工的判斷不可靠,且無法容忍其嚴(yán)重程度。所有高管很快同意,采取措施控制局面。因?yàn)閷彶榻Y(jié)果與之前對(duì)專業(yè)判斷不可靠的研究結(jié)果一致,我們并未感到驚訝。我們主要困惑的是,兩個(gè)機(jī)構(gòu)之前都沒有意識(shí)到可靠性的問題。
在商業(yè)世界其實(shí)幾乎沒人關(guān)注噪聲問題;我們發(fā)現(xiàn),專業(yè)判斷力被作為問題提出,讓受眾很驚訝。是什么讓公司沒有意識(shí)到員工的判斷力有噪聲呢?答案能從兩個(gè)常見現(xiàn)象中找到:富有經(jīng)驗(yàn)的專業(yè)員工對(duì)自己的判斷信心足;對(duì)同事的專業(yè)水平評(píng)價(jià)也很高。這兩點(diǎn)加起來,導(dǎo)致對(duì)共識(shí)估計(jì)過高。
當(dāng)被問及同事的想法時(shí),專業(yè)員工預(yù)計(jì),其他人的判斷和自己差不多,實(shí)際遠(yuǎn)非如此。當(dāng)然多數(shù)情況下,有經(jīng)驗(yàn)的專業(yè)員工不關(guān)心其他人的想法,默認(rèn)自己給出的是答案。噪聲隱于無形的一個(gè)原因是,人們?cè)谏钪胁粫?huì)去思考他們做出每個(gè)決策的可行替換選項(xiàng)。
期待他人同意你的意見有時(shí)是合理的,尤其是當(dāng)判斷力十分老練,成為一種本能的時(shí)候。比如,高段位的象棋手和司機(jī)經(jīng)過練習(xí),判斷可近乎。大師級(jí)棋手評(píng)判棋局,會(huì)對(duì)當(dāng)前形勢(shì)給出類似的判斷,比如白方皇后有危險(xiǎn),或者黑方國王防守薄弱。駕駛也同理,如果我們不默認(rèn)周圍的司機(jī)和我們?cè)诼房诤铜h(huán)島做出的判斷一致,無法想象交通會(huì)有多么危險(xiǎn)。達(dá)到高度的技術(shù)鮮有或沒有噪聲。達(dá)到象棋和駕駛的高水平技術(shù)須在可預(yù)測(cè)的環(huán)境中練習(xí)多年,做出的行動(dòng)須及時(shí)和清晰的回應(yīng)。
可遺憾的是,專業(yè)人士很難有這樣的行動(dòng)環(huán)境。多數(shù)工作中,人們學(xué)習(xí)判斷的渠道來自上級(jí)和同事的解釋和評(píng)論——與從自己的錯(cuò)誤中學(xué)習(xí)相比,可靠度大打折扣。長期工作經(jīng)驗(yàn)總會(huì)增加人們對(duì)判斷的自信,但如果沒有迅速反饋,自信不能保證準(zhǔn)確或達(dá)成共識(shí)。
一言以蔽之,只要做出判斷,就會(huì)產(chǎn)生噪聲,而且噪聲往往比你想象得嚴(yán)重。一般來說,專業(yè)員工和他們的leader都無法準(zhǔn)確估測(cè)出他們判斷力的可靠性。獲得準(zhǔn)確評(píng)估的辦法是進(jìn)行噪聲審查。至少在有些情況下,噪聲嚴(yán)重到了需要采取行動(dòng)的地步。
降低噪音
解決噪聲根本的辦法是,以正式規(guī)則“算法”,來取代人工判斷。算法利用項(xiàng)目相關(guān)數(shù)據(jù)進(jìn)行預(yù)測(cè)或決策。
過去60年間,人們?cè)跀?shù)百場(chǎng)競(jìng)賽中比拼算法的準(zhǔn)確性,競(jìng)賽題目從預(yù)測(cè)癌癥病人壽命到畢業(yè)生成功率。在大約一半的研究中,算法比人類專家更準(zhǔn)確,而在另一半研究中與人類平手。即便是平手,實(shí)際上也說明算法勝出,因?yàn)樗詢r(jià)比更高。
當(dāng)然很多情況下,算法并不實(shí)際。當(dāng)輸入數(shù)據(jù)異常,或很難形成統(tǒng)一形式的編碼時(shí),規(guī)則就很難應(yīng)用。如果判斷或決策涉及多層面或者需要與另一方談判,也不太適合應(yīng)用算法。即使當(dāng)原則上可以應(yīng)用算法時(shí),組織出于種種考慮,有時(shí)也不愿實(shí)施算法。以軟件取代現(xiàn)有員工的過程十分痛苦,除非被取代的員工有更享受的工作可做,不然他們會(huì)抵制算法。
但在條件合適時(shí),開發(fā)和實(shí)施算法驚人的簡(jiǎn)單。常見的看法是,算法需要對(duì)大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。例如,我們?cè)L問的大多數(shù)人認(rèn)為,開發(fā)預(yù)測(cè)商業(yè)貸款違約的公式,需要數(shù)千份貸款申請(qǐng)及其結(jié)果的數(shù)據(jù)。但很少有人知道,不需要任何結(jié)果數(shù)據(jù),只需少量項(xiàng)目的輸入信息,就能開發(fā)出足夠的算法。因?yàn)榛诔WR(shí)性論證,我們將這種不需要結(jié)果數(shù)據(jù)的預(yù)測(cè)性公式稱為“論證規(guī)則”(reasoned rules)。
制定論證規(guī)則首先要選擇若干(約6到8個(gè))肯定與預(yù)測(cè)結(jié)果相關(guān)的變量。如果得出結(jié)果是貸款違約,資產(chǎn)和負(fù)債要包括在變量中。下一步是直接在預(yù)測(cè)公式中賦予這些變量同樣權(quán)重,確定它們明顯的方向(比如資產(chǎn)是有利的,負(fù)債是不利的)。然后就可以通過幾種簡(jiǎn)單計(jì)算,制定規(guī)則。
大量研究得出了驚人結(jié)論:很多情景下,論證規(guī)則與利用結(jié)果數(shù)據(jù)形成的統(tǒng)計(jì)模型準(zhǔn)確性相當(dāng)。標(biāo)準(zhǔn)統(tǒng)計(jì)模型集合預(yù)測(cè)性變量,這些變量的權(quán)重由它們與所預(yù)測(cè)結(jié)果的關(guān)系,以及變量彼此間的關(guān)系決定。然而很多情況下,這些權(quán)重統(tǒng)計(jì)上既不穩(wěn)定,現(xiàn)實(shí)中也不重要。將權(quán)重平均分給所選變量的簡(jiǎn)單規(guī)則依舊有效。為各變量平均分配權(quán)重,而且不依靠結(jié)果數(shù)據(jù)的算法在很多應(yīng)用領(lǐng)域都被證實(shí)成功,例如人員選拔、大選預(yù)測(cè)、足球賽預(yù)測(cè)等等。
總之,如果你計(jì)劃利用算法降噪,那么不需要等待結(jié)果數(shù)據(jù)出來。利用常識(shí)選擇變量,并遵照可能的簡(jiǎn)單規(guī)則組合變量,就能大有收獲。
當(dāng)然,無論應(yīng)用哪種算法,人需要掌握控制權(quán)。算法需要隨項(xiàng)目數(shù)量進(jìn)行監(jiān)督和調(diào)整。管理者還要留意個(gè)人決定,并在局勢(shì)很清晰時(shí)具有否決算法。重要的是,高管應(yīng)該決定如何把算法的結(jié)果轉(zhuǎn)化為行動(dòng)。算法能告訴你,所有申請(qǐng)中,哪些候選貸款是前5%,哪些是末10%,但需要有人決定怎么處理這些信息。
對(duì)拍板的專業(yè)員工而言,算法有時(shí)是一種信息的中間來源。例如,public safety assessment公式被開發(fā)用來幫助美法官?zèng)Q定在等待審判期間被告能否被保釋。在肯塔基州使用該公式的6個(gè)月內(nèi),審前釋放被告的犯罪率降低了15%,而審前釋放的人數(shù)百分比增加了。這里顯然人類法官要有決定權(quán):如果公正交由公式?jīng)Q定,輿論肯定嘩然。
盡管這個(gè)建議可能令人不適,但研究顯示,人類雖然能為公式提供有用信息,但算法在決策上表現(xiàn)更佳。如果避免差錯(cuò)是評(píng)判標(biāo)準(zhǔn),應(yīng)強(qiáng)烈建議管理者,只有在極其特殊情況下,才能否決算法的結(jié)論。
建立判斷規(guī)則
任何專業(yè)判斷產(chǎn)生噪聲時(shí),都應(yīng)考慮以算法取代人工決策。但在多數(shù)情況下,這種辦法太極端,或者不現(xiàn)實(shí)。替代方法之一是,采取改善一致性的流程,其手段是:保證職責(zé)相同的員工使用類似方法尋找信息,將信息整合到項(xiàng)目概念中,并將概念轉(zhuǎn)化為決策。
培訓(xùn)無疑至關(guān)重要,但經(jīng)過集體培訓(xùn)的專業(yè)員工可能放任自己,自說自話。為避免類似放任,公司有時(shí)組織圓桌會(huì)議,把決策者聚在一起審查項(xiàng)目。遺憾的是,多數(shù)圓桌會(huì)議的組織方式過于簡(jiǎn)單,以至于很難達(dá)成一致,因?yàn)榕c會(huì)者很快會(huì)一邊倒向首先提出的意見或自信發(fā)言者的意見。為防止這種“偽共識(shí)”,每名圓桌與會(huì)者都應(yīng)該獨(dú)立研究項(xiàng)目,形成他們要辯護(hù)的意見,然后在會(huì)議前就把意見提交給團(tuán)隊(duì)leader。這樣的圓桌會(huì)議才能有效提供噪聲審查,還可以增添小組討論環(huán)節(jié),讓大家探討不同意見。
作為圓桌會(huì)議的替代或補(bǔ)充選項(xiàng),應(yīng)該給專業(yè)員工提供方便使用的工具,比如清單和仔細(xì)設(shè)計(jì)的問題,以便指導(dǎo)他們收集項(xiàng)目信息,做出中間判斷,并做出決定。每一階段中都會(huì)發(fā)生的變數(shù),公司能夠也應(yīng)該測(cè)試出工具能降噪的程度。
如今,公眾對(duì)“偏差”這個(gè)術(shù)語的了解程度,還停留在認(rèn)為它和“差錯(cuò)”能夠互換。而“噪聲”比偏差還要難理解得多,但并不鮮見,企業(yè)為之付出的代價(jià)也不會(huì)更少。(劉錚箏 |譯 王晨 |校 鈕鍵軍 |編輯)
丹尼爾 ·卡內(nèi)曼是普林斯頓大學(xué)尤金 ·希金斯心理學(xué)榮譽(yù)退休教授。他因與阿莫斯 ·特沃斯基(Amos Tversky)合著關(guān)于認(rèn)知偏差的研究,在2002 年獲得諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。安德魯 ·羅森菲爾德是The Greatest Good Group(TGG集團(tuán))CEO 和執(zhí)行合伙人。琳娜 ·甘迪和湯姆 ·布萊澤是TGG 集團(tuán)董事總經(jīng)理。
公司名稱:陜西宏興物流快運(yùn)有限公司
公司地址:西安市未央?yún)^(qū)豐產(chǎn)路相家巷東26號(hào)宏興物流園
大宗業(yè)務(wù)電話:86693300 (多線電話)
業(yè)務(wù)電話:84629119、89107773
投訴:84629118
公眾號(hào) | 手機(jī)站 | 小程序 |