做決策時(shí)，尤其是重要決策，算法絕對(duì)比人靠譜得多

當(dāng)前位置：首頁 > 資訊動(dòng)態(tài) > 行業(yè)動(dòng)態(tài)

做決策時(shí)，尤其是重要決策，算法絕對(duì)比人靠譜得多

2018-09-04

次

人類并非可靠的決策者；他們的判斷受到不相關(guān)因素嚴(yán)重影響，比如當(dāng)時(shí)的情緒。我們將這種隨機(jī)變量稱為“判斷噪聲”。對(duì)很多公司的利潤而言，噪聲都是一筆隱形成本。

研究表明，在股票估價(jià)、鑒定房地產(chǎn)、審判罪犯、評(píng)估工作表現(xiàn)以及審計(jì)財(cái)務(wù)報(bào)表等很多任務(wù)中，專家的決策十分不穩(wěn)定。不可避免的結(jié)論是，專業(yè)人士經(jīng)常做出與自己、同事以及他們聲稱所遵循的規(guī)則大相徑庭的決策。

人們?cè)缫阎?，?jiǎn)單統(tǒng)計(jì)學(xué)算法做出的預(yù)測(cè)和決策往往比專家更準(zhǔn)確，哪怕專家能獲得比算法更多的信息。但鮮有人知的是，算法的關(guān)鍵優(yōu)勢(shì)在于沒有噪聲：與人類不同，輸入相同信息，公式得出的結(jié)果也相同。因?yàn)榉€(wěn)定，哪怕是簡(jiǎn)單甚至有瑕疵的算法，也比人類專家的準(zhǔn)確性高。

噪聲VS.偏見

當(dāng)人們考慮判斷和決策中的差錯(cuò)時(shí)，想到的總是社會(huì)性偏見，比如對(duì)少數(shù)族裔的成見、自負(fù)等認(rèn)知偏差以及盲目樂觀。而被我們稱作“噪聲”的無用變量屬于一種不同的差錯(cuò)。

為了理解兩者區(qū)別，你可以想想浴室的體重秤。如果讀數(shù)太高或太低，我們可以說，體重秤出現(xiàn)了偏差。如果你的體重取決于腳的位置，那么可以說體重秤有噪聲。如果體重秤的顯示總是比準(zhǔn)確體重少4磅，那么就存在嚴(yán)重偏差，但沒有噪聲。如果兩次稱重時(shí)顯示不同的重量，那么體重秤存在噪聲。很多計(jì)量差錯(cuò)既包括偏差也包括噪聲。

為了能更直觀地展示這種區(qū)別，請(qǐng)看下圖。圖中展示了4人團(tuán)隊(duì)，每人射擊一次的打靶訓(xùn)練結(jié)果。

A隊(duì)很準(zhǔn)確：所有隊(duì)員都打中靶心，彈孔離得很近。而另3支隊(duì)伍都各有各的不準(zhǔn)。

B隊(duì)有噪聲：彈孔在靶心四周，但彼此很分散。

C隊(duì)有偏差：彈孔都沒有擊中靶心，但彼此離得很近。

D隊(duì)既有偏差也有噪聲。

正如A隊(duì)和B隊(duì)所示，在沒有偏差時(shí)，噪聲增多常會(huì)影響準(zhǔn)確性。當(dāng)偏差存在時(shí)，噪聲增多反而可能歪打正著，比如D隊(duì)的情況。當(dāng)然沒有組織愿意靠運(yùn)氣取勝。噪聲通常不受歡迎，有時(shí)甚至具有災(zāi)難性。

顯然，弄清員工決策時(shí)的偏差和噪聲情況，對(duì)組織幫助很大，但很難直接收集相關(guān)信息。在評(píng)估這些差錯(cuò)時(shí)會(huì)出現(xiàn)不同問題。其中一大問題是，決策帶來的結(jié)果只有在未來才能看到（如果產(chǎn)生了結(jié)果的話）。比如信貸員往往要在數(shù)年后才能發(fā)現(xiàn)他們批準(zhǔn)的貸款結(jié)果如何。他們幾乎從不知道自己拒絕申請(qǐng)者的后續(xù)情況。

“噪聲”審查

噪聲審查的意義不在于出報(bào)告，目的是提高決策質(zhì)量。只有部門leader能夠接受不理想的結(jié)果，并有所行動(dòng)時(shí)，審查才能成功。如果高管能將這種調(diào)查看作自己的分內(nèi)事，目標(biāo)更易達(dá)成。

近期，我們幫助兩家金融服務(wù)機(jī)構(gòu)進(jìn)行了噪聲審查。我們研究的兩個(gè)團(tuán)隊(duì)擁有非常不同的職責(zé)和專業(yè)知識(shí)，但它們都需要評(píng)估較為復(fù)雜的材料，決定往往涉及數(shù)十萬美元。我們?cè)趦杉覚C(jī)構(gòu)中都遵循了同樣規(guī)則。

首先，我們讓相關(guān)專業(yè)團(tuán)隊(duì)的負(fù)責(zé)人整理出若干個(gè)現(xiàn)實(shí)項(xiàng)目的文件以供評(píng)估。為防止實(shí)驗(yàn)信息外泄，整個(gè)過程在同天完成。員工被要求用半天時(shí)間分析2到4個(gè)項(xiàng)目。他們將按常規(guī)估算出每個(gè)項(xiàng)目的錢數(shù)。為防止串通，參與者不知道本調(diào)查與可靠性有關(guān)。。

我們?yōu)槊總€(gè)項(xiàng)目設(shè)計(jì)了噪聲指數(shù)，對(duì)下面這個(gè)問題做出了解答：“兩個(gè)隨機(jī)選擇的員工做出的判斷相差多大？”我們將該差異量化為他們平均值的百分比。比如兩個(gè)員工對(duì)同一項(xiàng)目的估值為600美元和1000美元，他們估算的平均值就是800美元，他們估值的差距是400美元，所以兩人的噪聲指數(shù)就是50％。我們用同樣方法計(jì)算了所有員工配對(duì)的估值，然后計(jì)算出了每個(gè)項(xiàng)目的平均噪聲指數(shù)。

審查前的訪問中，兩家機(jī)構(gòu)的高管表示他們預(yù)計(jì)專業(yè)員工決策的差異在5％到10％左右——關(guān)乎判斷力，他們認(rèn)為這個(gè)范圍可以接受。但結(jié)果令人震驚。A機(jī)構(gòu)6個(gè)項(xiàng)目的噪聲指數(shù)從34％到62％不等，平均為48％。機(jī)構(gòu)B的4個(gè)項(xiàng)目噪聲指數(shù)為46％到70％，平均為60％?？赡芰钊耸氖牵ぷ鹘?jīng)驗(yàn)并沒有降噪的作用。在具有5年或以上工作經(jīng)驗(yàn)的專業(yè)員工中，平均差異為：A機(jī)構(gòu)46％，B機(jī)構(gòu)62％。

沒有人想到結(jié)果如此。但因?yàn)樗麄儗?duì)該審查負(fù)責(zé)，兩個(gè)機(jī)構(gòu)的高管都接受了結(jié)論：專業(yè)員工的判斷不可靠，且無法容忍其嚴(yán)重程度。所有高管很快同意，采取措施控制局面。因?yàn)閷彶榻Y(jié)果與之前對(duì)專業(yè)判斷不可靠的研究結(jié)果一致，我們并未感到驚訝。我們主要困惑的是，兩個(gè)機(jī)構(gòu)之前都沒有意識(shí)到可靠性的問題。

在商業(yè)世界其實(shí)幾乎沒人關(guān)注噪聲問題；我們發(fā)現(xiàn)，專業(yè)判斷力被作為問題提出，讓受眾很驚訝。是什么讓公司沒有意識(shí)到員工的判斷力有噪聲呢？答案能從兩個(gè)常見現(xiàn)象中找到：富有經(jīng)驗(yàn)的專業(yè)員工對(duì)自己的判斷信心足；對(duì)同事的專業(yè)水平評(píng)價(jià)也很高。這兩點(diǎn)加起來，導(dǎo)致對(duì)共識(shí)估計(jì)過高。

當(dāng)被問及同事的想法時(shí)，專業(yè)員工預(yù)計(jì)，其他人的判斷和自己差不多，實(shí)際遠(yuǎn)非如此。當(dāng)然多數(shù)情況下，有經(jīng)驗(yàn)的專業(yè)員工不關(guān)心其他人的想法，默認(rèn)自己給出的是答案。噪聲隱于無形的一個(gè)原因是，人們?cè)谏钪胁粫?huì)去思考他們做出每個(gè)決策的可行替換選項(xiàng)。

期待他人同意你的意見有時(shí)是合理的，尤其是當(dāng)判斷力十分老練，成為一種本能的時(shí)候。比如，高段位的象棋手和司機(jī)經(jīng)過練習(xí)，判斷可近乎。大師級(jí)棋手評(píng)判棋局，會(huì)對(duì)當(dāng)前形勢(shì)給出類似的判斷，比如白方皇后有危險(xiǎn)，或者黑方國王防守薄弱。駕駛也同理，如果我們不默認(rèn)周圍的司機(jī)和我們?cè)诼房诤铜h(huán)島做出的判斷一致，無法想象交通會(huì)有多么危險(xiǎn)。達(dá)到高度的技術(shù)鮮有或沒有噪聲。達(dá)到象棋和駕駛的高水平技術(shù)須在可預(yù)測(cè)的環(huán)境中練習(xí)多年，做出的行動(dòng)須及時(shí)和清晰的回應(yīng)。

可遺憾的是，專業(yè)人士很難有這樣的行動(dòng)環(huán)境。多數(shù)工作中，人們學(xué)習(xí)判斷的渠道來自上級(jí)和同事的解釋和評(píng)論——與從自己的錯(cuò)誤中學(xué)習(xí)相比，可靠度大打折扣。長期工作經(jīng)驗(yàn)總會(huì)增加人們對(duì)判斷的自信，但如果沒有迅速反饋，自信不能保證準(zhǔn)確或達(dá)成共識(shí)。

一言以蔽之，只要做出判斷，就會(huì)產(chǎn)生噪聲，而且噪聲往往比你想象得嚴(yán)重。一般來說，專業(yè)員工和他們的leader都無法準(zhǔn)確估測(cè)出他們判斷力的可靠性。獲得準(zhǔn)確評(píng)估的辦法是進(jìn)行噪聲審查。至少在有些情況下，噪聲嚴(yán)重到了需要采取行動(dòng)的地步。

降低噪音

解決噪聲根本的辦法是，以正式規(guī)則“算法”，來取代人工判斷。算法利用項(xiàng)目相關(guān)數(shù)據(jù)進(jìn)行預(yù)測(cè)或決策。

過去60年間，人們?cè)跀?shù)百場(chǎng)競(jìng)賽中比拼算法的準(zhǔn)確性，競(jìng)賽題目從預(yù)測(cè)癌癥病人壽命到畢業(yè)生成功率。在大約一半的研究中，算法比人類專家更準(zhǔn)確，而在另一半研究中與人類平手。即便是平手，實(shí)際上也說明算法勝出，因?yàn)樗詢r(jià)比更高。

當(dāng)然很多情況下，算法并不實(shí)際。當(dāng)輸入數(shù)據(jù)異常，或很難形成統(tǒng)一形式的編碼時(shí)，規(guī)則就很難應(yīng)用。如果判斷或決策涉及多層面或者需要與另一方談判，也不太適合應(yīng)用算法。即使當(dāng)原則上可以應(yīng)用算法時(shí)，組織出于種種考慮，有時(shí)也不愿實(shí)施算法。以軟件取代現(xiàn)有員工的過程十分痛苦，除非被取代的員工有更享受的工作可做，不然他們會(huì)抵制算法。

但在條件合適時(shí)，開發(fā)和實(shí)施算法驚人的簡(jiǎn)單。常見的看法是，算法需要對(duì)大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。例如，我們?cè)L問的大多數(shù)人認(rèn)為，開發(fā)預(yù)測(cè)商業(yè)貸款違約的公式，需要數(shù)千份貸款申請(qǐng)及其結(jié)果的數(shù)據(jù)。但很少有人知道，不需要任何結(jié)果數(shù)據(jù)，只需少量項(xiàng)目的輸入信息，就能開發(fā)出足夠的算法。因?yàn)榛诔ＷR(shí)性論證，我們將這種不需要結(jié)果數(shù)據(jù)的預(yù)測(cè)性公式稱為“論證規(guī)則”（reasoned rules）。

制定論證規(guī)則首先要選擇若干（約6到8個(gè)）肯定與預(yù)測(cè)結(jié)果相關(guān)的變量。如果得出結(jié)果是貸款違約，資產(chǎn)和負(fù)債要包括在變量中。下一步是直接在預(yù)測(cè)公式中賦予這些變量同樣權(quán)重，確定它們明顯的方向（比如資產(chǎn)是有利的，負(fù)債是不利的）。然后就可以通過幾種簡(jiǎn)單計(jì)算，制定規(guī)則。

大量研究得出了驚人結(jié)論：很多情景下，論證規(guī)則與利用結(jié)果數(shù)據(jù)形成的統(tǒng)計(jì)模型準(zhǔn)確性相當(dāng)。標(biāo)準(zhǔn)統(tǒng)計(jì)模型集合預(yù)測(cè)性變量，這些變量的權(quán)重由它們與所預(yù)測(cè)結(jié)果的關(guān)系，以及變量彼此間的關(guān)系決定。然而很多情況下，這些權(quán)重統(tǒng)計(jì)上既不穩(wěn)定，現(xiàn)實(shí)中也不重要。將權(quán)重平均分給所選變量的簡(jiǎn)單規(guī)則依舊有效。為各變量平均分配權(quán)重，而且不依靠結(jié)果數(shù)據(jù)的算法在很多應(yīng)用領(lǐng)域都被證實(shí)成功，例如人員選拔、大選預(yù)測(cè)、足球賽預(yù)測(cè)等等。

總之，如果你計(jì)劃利用算法降噪，那么不需要等待結(jié)果數(shù)據(jù)出來。利用常識(shí)選擇變量，并遵照可能的簡(jiǎn)單規(guī)則組合變量，就能大有收獲。

當(dāng)然，無論應(yīng)用哪種算法，人需要掌握控制權(quán)。算法需要隨項(xiàng)目數(shù)量進(jìn)行監(jiān)督和調(diào)整。管理者還要留意個(gè)人決定，并在局勢(shì)很清晰時(shí)具有否決算法。重要的是，高管應(yīng)該決定如何把算法的結(jié)果轉(zhuǎn)化為行動(dòng)。算法能告訴你，所有申請(qǐng)中，哪些候選貸款是前5％，哪些是末10％，但需要有人決定怎么處理這些信息。

對(duì)拍板的專業(yè)員工而言，算法有時(shí)是一種信息的中間來源。例如，public safety assessment公式被開發(fā)用來幫助美法官?zèng)Q定在等待審判期間被告能否被保釋。在肯塔基州使用該公式的6個(gè)月內(nèi)，審前釋放被告的犯罪率降低了15％，而審前釋放的人數(shù)百分比增加了。這里顯然人類法官要有決定權(quán)：如果公正交由公式?jīng)Q定，輿論肯定嘩然。

盡管這個(gè)建議可能令人不適，但研究顯示，人類雖然能為公式提供有用信息，但算法在決策上表現(xiàn)更佳。如果避免差錯(cuò)是評(píng)判標(biāo)準(zhǔn)，應(yīng)強(qiáng)烈建議管理者，只有在極其特殊情況下，才能否決算法的結(jié)論。

建立判斷規(guī)則

任何專業(yè)判斷產(chǎn)生噪聲時(shí)，都應(yīng)考慮以算法取代人工決策。但在多數(shù)情況下，這種辦法太極端，或者不現(xiàn)實(shí)。替代方法之一是，采取改善一致性的流程，其手段是：保證職責(zé)相同的員工使用類似方法尋找信息，將信息整合到項(xiàng)目概念中，并將概念轉(zhuǎn)化為決策。

培訓(xùn)無疑至關(guān)重要，但經(jīng)過集體培訓(xùn)的專業(yè)員工可能放任自己，自說自話。為避免類似放任，公司有時(shí)組織圓桌會(huì)議，把決策者聚在一起審查項(xiàng)目。遺憾的是，多數(shù)圓桌會(huì)議的組織方式過于簡(jiǎn)單，以至于很難達(dá)成一致，因?yàn)榕c會(huì)者很快會(huì)一邊倒向首先提出的意見或自信發(fā)言者的意見。為防止這種“偽共識(shí)”，每名圓桌與會(huì)者都應(yīng)該獨(dú)立研究項(xiàng)目，形成他們要辯護(hù)的意見，然后在會(huì)議前就把意見提交給團(tuán)隊(duì)leader。這樣的圓桌會(huì)議才能有效提供噪聲審查，還可以增添小組討論環(huán)節(jié)，讓大家探討不同意見。

作為圓桌會(huì)議的替代或補(bǔ)充選項(xiàng)，應(yīng)該給專業(yè)員工提供方便使用的工具，比如清單和仔細(xì)設(shè)計(jì)的問題，以便指導(dǎo)他們收集項(xiàng)目信息，做出中間判斷，并做出決定。每一階段中都會(huì)發(fā)生的變數(shù)，公司能夠也應(yīng)該測(cè)試出工具能降噪的程度。

如今，公眾對(duì)“偏差”這個(gè)術(shù)語的了解程度，還停留在認(rèn)為它和“差錯(cuò)”能夠互換。而“噪聲”比偏差還要難理解得多，但并不鮮見，企業(yè)為之付出的代價(jià)也不會(huì)更少。（劉錚箏 |譯王晨 |校鈕鍵軍 |編輯）

丹尼爾 ·卡內(nèi)曼是普林斯頓大學(xué)尤金 ·希金斯心理學(xué)榮譽(yù)退休教授。他因與阿莫斯 ·特沃斯基（Amos Tversky）合著關(guān)于認(rèn)知偏差的研究，在2002 年獲得諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。安德魯 ·羅森菲爾德是The Greatest Good Group（TGG集團(tuán)）CEO 和執(zhí)行合伙人。琳娜 ·甘迪和湯姆 ·布萊澤是TGG 集團(tuán)董事總經(jīng)理。