达莱尔·哈夫:统计陷阱
《統計陷阱》(How to Lie with Statistics)的核心論點在於揭露統計資料如何被運用於誤導甚至欺騙大眾,並提供讀者辨識這些「統計陷阱」的工具與方法。作者 Darrell Huff 及其譯者與校對者都強調,在資訊爆炸的現代社會,統計資料無處不在,但這些資料的呈現方式往往經過刻意的選擇或處理,導致其表面看似客觀科學,實則充滿陷阱,足以扭曲事實、影響決策。
主要論點可以歸納為以下幾個層面:
- 統計資料常被濫用以達成特定目的: 書中開宗明義引述 Disraeli 的話「有 3 種謊言:謊言,糟糕透頂的謊言和統計資料」,直指統計資料的不可信賴性。譯者序也提到在資訊爆炸的年代,報紙、雜誌、電視、廣播中的資訊良莠不齊,統計資料常因主客觀原因被濫用而無法真實描述事實,反而對讀者形成誤導。無論是商業廣告、媒體報導、公司年報、民意調查甚至學術研究,統計資料都可能被操縱,以推銷產品、影響輿論、美化財務、證明理論或贏得選舉等。這種濫用不一定總是惡意欺騙,有時也源於無知,但結果都是扭曲事實。
-
統計欺騙有多種具體技巧和方法: 本書的結構(從第一章到第九章)本身就系統性地列舉了統計資料被操縱或誤導的各種手段。這些技巧針對統計流程的不同環節,從資料的收集、選擇到呈現:
- 有偏的樣本(Biased Sample): 這是統計欺騙的基礎之一。如果用來得出結論的樣本不具有代表性,那麼結論就無法推廣到整體。例如,只調查耶魯大學畢業生中的成功人士來計算平均收入,忽略了那些未能取得聯繫或不願回應的低收入者;或者民意調查的樣本未能涵蓋所有類型的選民(如 Literary Digest 的電話/雜誌訂戶樣本),導致結果偏頗。譯者序中的旅遊消費習慣調查例子也說明,僅以城市居民樣本來代表「全國」消費者是不合理的。隱性的樣本偏誤(如調查員選擇看起來更容易配合的受訪者)同樣會影響結果。
- 精心挑選的平均數(Well-Chosen Average): 「平均數」一詞有多種含義(均值、中位數、眾數)。在資料分佈不對稱時(例如收入分佈),不同的平均數會產生截然不同的數值。選擇有利於自身目的的平均數來呈現(如使用算術平均數誇大收入水平,或使用中位數/眾數強調低收入群體數量),而不指明類型,是常見的誤導手法。這使得同一個數據集可以被用來支持完全相反的結論。
- 沒有披露的數據(Missing Data): 統計資料的誤導性往往在於其「沒有說出來」的部分。樣本容量過小(例如多克斯牙膏僅 12 人測試,或只涉及少數病人的早期醫學實驗)會導致結論的偶然性很高,缺乏統計顯著性;缺少資料的變異範圍或分佈信息(如平均氣溫沒有最高最低溫),會掩蓋潛在的極端情況;缺少比較基期或對照組(如增加的病例數未與總人口或未接受治療組比較)會讓數字失去意義。普查局報告可能提供精確度和誤差範圍,但許多其他來源的統計資料則省略了這些關鍵信息。
- 毫無意義的工作(Meaningless Work): 將具有顯著誤差的統計量當作精確無誤的指標使用,或者誇大小的、不具有統計學意義的差異。例如,智力測驗結果(IQ)帶有誤差範圍,智商相近的兩個人僅憑數字差異無法判斷誰更聰明;雜誌讀者調查中僅幾個百分點的差異可能遠小於抽樣誤差,卻被編輯當作指導方針。這類問題的根源在於未能認識到抽樣和測量固有的不確定性。
- 驚人的統計圖形與平面圖形(Startling Statistical Graphs & Pictographs): 視覺呈現是放大統計欺騙效果的有力工具。透過操縱圖形的縱軸刻度(不從零開始或壓縮/拉伸刻度),原本平緩的趨勢可以看起來驚人地陡峭。使用象形圖(Pictographs)時,如果符號的大小是根據數量的線性變化來 scaling(如高度加倍),視覺上感受到的面積或體積變化(四倍或八倍)會遠大於實際的數量變化,形成強烈的、被誇大的印象。
- 不相匹配的資料(Unmatched Data): 提出一個主張,卻用看似相關但實際測量的是不同事物的數據來支持。例如,用試管內殺菌效果來證明藥物治療感冒的療效,用人們對就業機會的「看法」來推斷實際的就業機會平等狀況,或者比較不同群體(如海軍士兵與城市居民)的死亡率來證明參軍更安全,而忽略了群體本身的差異性。這種手法是「說的是 A,證明的是 B」。
- 相關關係與因果關係(Correlation and Causation): 將兩個事物同時發生或變動的相關性錯誤地解讀為因果關係,而忽略了可能存在的第三個共同原因或因果方向相反的可能性。例如,抽煙與學習成績差可能都源於社交傾向或家庭背景;某些疾病發病率與地理位置(如牛奶消費區)的相關性,可能與當地居民的壽命長短等因素有關。相關只是觀察到的現象,因果關係需要更嚴謹的證明,但統計資料常將相關當作因果來呈現。
- 統計操縱的其他手法(Other Manipulation Techniques): 除了上述特定類型,書中還提到其他操縱方式,例如利用地圖的面積來呈現與面積無關的統計量(如收入或支出)以造成視覺誤導;使用小數點增加數字的精確感,即使數據來源並不精確;錯誤地計算百分比變化或直接加總不同基數的百分比;混淆百分比和百分點。這些都是通過技術性細節來模糊真相。
- 偷換了概念(Changing the Subject/Concept): 這是一種特殊的「不相匹配」。它指在統計報告或分析過程中,悄悄改變了所討論概念的定義或範圍,導致前後數據看似可比實則不然。例如,將增加的報告病例數(可能由於診斷或記錄方式改變)誤認為實際發病率的提高;將人們的「口頭報告」數據(如洗澡頻率或年齡)當作真實行為或實際情況;改變統計定義(如農場的定義)導致數量的變化。
-
批判性地閱讀統計資料需要系統化的質疑方法: 既然統計陷阱如此普遍,讀者需要建立一套防禦機制。本書在最後一章提出了「對統計資料提出的五個問題」,作為辨識真偽、理解真相的實用框架。這五個問題要求讀者深入思考統計資料的來源、方法、內容和合理性:
- 「誰說的?」: 質疑資料的來源。來源是否有潛在的利益衝突、偏見或特定立場?是獨立研究還是受委託的報告?了解來源的背景有助於評估其可信度。
- 「如何知道的?」: 質疑資料的收集方法。樣本是如何選取的?樣本量有多大?資料是透過什麼途徑獲得的(問卷、測量、記錄)?是否存在潛在的測量誤差或偏差?方法是否嚴謹?
- 「是否遺漏了什麼?」: 質疑資料呈現的完整性。是否缺少關鍵數據(如樣本量、變異範圍、比較基數、對照組)?只呈現了部分有利的數據而忽略了其他?是否有重要的背景資訊未提供?
- 「是否偷換了概念?」: 質疑資料所代表的含義。統計數據測量的是否確實是報告中所聲稱的概念?相關性是否被當作因果關係?定義是否在過程中發生了變化?數字所代表的實際情況是什麼?
- 「資料是否有意義?」: 質疑資料的整體合理性。根據常識、已知事實或其他來源的資訊,這些數據和結論是否說得通?聲稱的精確性是否合理?外推的趨勢是否過於武斷?
《統計陷阱》的核心主旨是提醒讀者警惕表面光鮮的統計數字,因為它們極易被操縱和誤用。本書通過揭示各種常見的統計欺騙手法,並提供一套系統性的質疑方法(「五個問題」),旨在提升讀者的統計識讀能力,使其能夠批判性地評估所接觸到的統計資料,從而避免落入「統計陷阱」,做出更明智的判斷。這也體現了譯者序中提到的「掌握書中的工具是防止受騙的可行方法」,以及培根所說「抱着懷疑的態度開始,那麼他必將獲得肯定的結論」的求真精神。
comments
comments for this post are closed