社群媒體語言中的人格、性別與年齡：開放詞彙分析

1. 導論與概述

本研究是計算語言學與心理學交叉領域的一項里程碑式調查。研究團隊透過分析來自75,000名Facebook用戶、前所未見的7億個單詞、片語和主題實例資料集，開創性地採用開放詞彙方法，以理解社群媒體上的語言如何與人類的基本屬性：人格、性別和年齡產生關聯。這項工作超越了傳統預先定義的詞類分析（如LIWC），讓資料本身揭示區分個人和群體的語言標記。

其核心前提是，在Facebook等平台上產生的大量、有機的語言資料，為人類心理學提供了獨特的視角。研究證明，這種數據驅動的方法能夠揭示表面效度關聯（例如，身處高海拔地區的人討論山脈）、複製已知的心理學發現（例如，神經質與「沮喪」等詞彙相關），最重要的是，能夠產生關於人類行為的新假設，這些假設並非研究者預先設想的。

2. 研究方法與資料

本研究的方法論嚴謹性是其貢獻的關鍵組成部分。它將大規模資料收集與創新的分析技術相結合。

2.1 資料收集與參與者

該資料集在當時規模龐大：

參與者： 75,000名志願者。
資料來源： Facebook狀態更新與訊息。
文字量： 超過1,540萬條訊息，產生7億個可分析的語言實例（單詞、片語、主題）。
心理測量： 參與者完成了標準人格測驗（例如，大五人格量表），為分析提供了真實標籤。

2.2 開放詞彙方法

這是本研究的核心創新。與測試預定義詞類假設（例如，「負面情緒詞彙」）的封閉詞彙方法不同，開放詞彙方法是探索性且數據驅動的。演算法掃描整個語料庫，以識別與目標變數（例如，高神經質）在統計上相關的任何語言特徵——單詞、多詞片語或潛在主題。這消除了研究者在選擇特徵時的偏見，並允許發現意想不到的語言模式。

2.3 差異化語言分析 (DLA)

DLA是此處使用的開放詞彙方法的具體實現。其運作方式如下：

特徵擷取： 自動從語料庫中識別所有n-gram（詞序列）和潛在主題。
相關性計算： 計算每個語言特徵與感興趣的人口統計/心理變數之間的關聯強度。
排序與詮釋： 根據關聯強度對特徵進行排序，以識別特定群體或特質最具區別性的標記。

3. 主要發現與結果

該分析對語言使用的心理學提供了豐富而細緻的見解。

3.1 語言與人格特質

研究發現語言與大五人格特質之間存在強烈關聯：

神經質： 與「沮喪」、「焦慮」等詞彙以及「厭倦了」等片語相關，表明對負面情緒和壓力源的關注。
外向性： 與社交詞彙（「派對」、「太棒了」、「愛」）、感嘆詞（「哈哈」、「哇」）以及對社交活動的提及相關。
經驗開放性： 與美學和智識詞彙（「藝術」、「哲學」、「宇宙」）以及複雜詞彙的使用相關。
親和性： 以親社會語言（「我們」、「謝謝你」、「美好的」）和較少使用髒話為標誌。
嚴謹性： 與成就導向的詞彙（「工作」、「計畫」、「成功」）相關，較少提及即時滿足（例如，「今晚」、「喝酒」）。

3.2 語言中的性別差異

研究證實並細化了已知的性別差異：

女性使用更多情緒詞彙、社交詞彙和人稱代名詞（「我」、「你」、「我們」）。
男性使用更多物件指稱、髒話和非個人化主題（運動、政治）。
值得注意的洞見： 男性在提及「妻子」或「女朋友」時更可能使用所有格「我的」，而女性在提及「丈夫」或「男朋友」時並未顯示相同模式。這暗示了在表達關係所有權方面存在細微差異。

3.3 與年齡相關的語言模式

語言使用隨著年齡增長而系統性地變化：

年輕成年人： 更多提及社交活動、夜生活和科技（「手機」、「網路」）。
年長成年人： 增加對家庭、健康和工作相關事務的討論。整體上更常使用正面情緒詞彙。
這些發現與社會情緒選擇理論相符，該理論認為動機優先順序會隨著年齡而轉變。

4. 技術細節與架構

4.1 數學基礎

DLA的核心涉及計算語言特徵 $f$（例如，一個單詞）與二元或連續屬性 $a$（例如，性別或神經質分數）之間的點間互資訊 (PMI) 或相關係數。對於二元屬性：

$PMI(f, a) = \log \frac{P(f, a)}{P(f)P(a)}$

其中 $P(f, a)$ 是特徵與屬性共同出現的聯合機率（例如，單詞「太棒了」出現在外向者的訊息中），而 $P(f)$ 和 $P(a)$ 是邊際機率。然後根據PMI或相關分數對特徵進行排序，以識別群體 $a$ 最具區別性的標記。

對於可能用於產生「主題實例」的主題建模，則採用了潛在狄利克雷分配 (LDA) 等技術。LDA將每個文件建模為 $K$ 個主題的混合，並將每個主題建模為單詞上的分佈。單詞 $w$ 在文件 $d$ 中的機率由下式給出：

$P(w|d) = \sum_{k=1}^{K} P(w|z=k) P(z=k|d)$

其中 $z$ 是一個潛在主題變數。這些被發現的主題隨後成為DLA中的特徵。

4.2 分析架構範例

案例：識別高嚴謹性的語言標記

資料準備： 根據嚴謹性分數的中位數，將75,000名參與者分為兩組（高嚴謹性 vs. 低嚴謹性）。
特徵生成： 處理所有Facebook訊息以擷取：
- 單詞（單字詞）：「工作」、「計畫」、「完成」。
- 雙詞片語（兩個詞的片語）：「我的工作」、「下週」、「要做」。
- 主題（透過LDA）：例如，主題23：{工作: 0.05, 專案: 0.04, 截止日期: 0.03, 團隊: 0.02, ...}。
統計檢定： 對每個特徵進行卡方檢定或計算PMI，以比較其在「高嚴謹性」組與「低嚴謹性」組中的頻率。
結果詮釋： 根據關聯強度對特徵進行排序。「高嚴謹性」的頂級特徵可能包括「工作」、「計畫」、「已完成」、雙詞片語「我的目標」，以及與組織和成就相關的LDA主題的高載荷。這些特徵共同描繪出嚴謹個體的語言足跡的數據驅動圖像。

5. 結果與資料視覺化

雖然原始PDF可能不包含圖表，但可以透過關鍵視覺化方式來理解結果：

特質的文字雲/長條圖： 顯示與每個大五人格特質最強烈相關的前20-30個單詞的視覺化圖表。例如，外向性的長條圖會顯示「派對」、「愛」、「太棒了」、「美好時光」的高頻率長條。
性別比較熱力圖： 一個矩陣，顯示男性和女性對詞類（情緒、社交、物件）的差異化使用，突顯鮮明對比。
年齡軌跡圖： 折線圖，顯示某些詞類（例如，社交詞彙、未來導向詞彙、健康詞彙）的相對頻率如何隨著參與者年齡的變化而改變。
相關性網絡圖： 一個網絡圖，將人格特質與相關單詞和片語的集群連結起來，視覺化地展示心理學與詞彙之間的複雜映射關係。

驗證的龐大規模本身就是一個關鍵結果：在7億個語言實例中觀察到的模式提供了強大的統計檢定力和穩健性。

6. 批判性分析觀點

核心洞見： Schwartz等人2013年的論文不僅僅是一項研究；它是一種典範轉移。它成功地將社群媒體的「大數據」武器化，以解決心理學的一個基本問題——透過可觀察的行為來測量人格等潛在構念。核心洞見是，我們的數位足跡是我們內在自我的高保真行為記錄。該論文證明，透過應用一個足夠強大、不可知論的透鏡（開放詞彙分析），你可以以驚人的準確度解碼該記錄，超越刻板印象，揭示細微的、常常是反直覺的語言特徵。

邏輯流程： 其邏輯優雅而直接：1) 獲取與黃金標準心理測量資料（Facebook + 人格測驗）相關聯的大規模真實世界文本語料庫。2) 拋棄預定義詞典的理論束縛。3) 讓機器學習演算法在整個語言景觀中搜尋統計訊號。4) 詮釋最強的訊號，這些訊號範圍從顯而易見的（神經質的人說「沮喪」）到精妙絕倫的（所有格代名詞的性別化使用）。從資料規模到方法創新再到新發現的流程，既具說服力又可複製。

優點與缺陷： 其巨大的優勢在於其探索能力。與封閉詞彙研究（例如，使用LIWC）只能確認或否定預先存在的假設不同，這種方法能夠產生假設。它是一個發現引擎。這與電腦視覺等領域所倡導的數據驅動理念一致，正如在CycleGAN論文（Zhu等人，2017）中看到的無監督圖像特徵發現，模型在沒有人為強加標籤的情況下學習表徵。然而，其缺陷正是其優勢的鏡像：詮釋風險。發現「滑雪」與低神經質之間的相關性，並不意味著滑雪導致情緒穩定；它可能是一個虛假關聯，或反映了第三變數（年齡、地理位置）。該論文雖然意識到這一點，但卻為過度詮釋打開了大門。此外，其對2013年Facebook資料的依賴，引發了對其推廣到其他平台（Twitter、TikTok）和現代網路用語的普遍性問題。

可行動的見解： 對研究者而言，指令很明確：將開放詞彙方法作為理論驅動研究的補充工具。用它來產生假設，然後透過對照研究進行驗證。對產業而言，其影響是巨大的。這種方法是現代心理圖譜分析用於定向廣告、內容推薦甚至風險評估（例如，在保險或金融領域）的骨幹。可行的見解是為你的專有文本資料——客戶評論、支援票證、內部溝通——建立類似的流程，以發現隱藏的區隔化和行為預測因子。然而，必須極度謹慎地處理倫理問題。從語言推斷親密心理特質的能力是一把雙刃劍，需要強大的治理框架來防止操縱和偏見，這是AI Now Institute等機構的研究人員在後續評論中強調的擔憂。

7. 未來應用與方向

此處建立的開放詞彙框架催生了眾多研究和應用途徑：

心理健康分流： 在社群媒體上開發被動的、基於語言的篩檢工具，以識別有抑鬱、焦慮或自殺意念風險的個體，實現早期干預。
個人化教育與教練： 根據從用戶寫作中推斷出的個性和學習風格的語言標記，量身定制教育內容、職業建議或健康教練。
動態人格評估： 超越靜態測驗，透過分析電子郵件、訊息或文件寫作風格，對人格狀態和隨時間的變化進行持續、環境性的評估。
跨文化心理學： 將DLA應用於不同語言的社群媒體資料，以發現哪些人格-語言關聯是普遍的，哪些是文化特定的。
與多模態資料整合： 下一個前沿是將語言分析與其他數位足跡——圖像偏好、音樂聆聽歷史、社交網絡結構——相結合，以創建更豐富的多模態心理模型，這是世界幸福計畫等後續工作的方向。
倫理AI與去偏見： 使用這些技術來審計和減輕AI系統中的偏見。透過理解語言模型如何將某些方言或語音模式與刻板印象屬性相關聯，開發者可以努力去偏見訓練資料和演算法。

8. 參考文獻

Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L., Ramones, S. M., Agrawal, M., ... & Ungar, L. H. (2013). Personality, gender, and age in the language of social media: The open-vocabulary approach. PLoS ONE, 8(9), e73791.
Pennebaker, J. W., Boyd, R. L., Jordan, K., & Blackburn, K. (2015). The development and psychometric properties of LIWC2015. University of Texas at Austin.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). （作為另一個領域中無監督、數據驅動特徵發現的範例引用）。
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022. （基礎主題建模技術）。
AI Now Institute. (2019). Disability, Bias, and AI. New York University. （關於演算法剖析中的倫理與偏見的批判性觀點）。
Eichstaedt, J. C., et al. (2021). Facebook language predicts depression in medical records. Proceedings of the National Academy of Sciences, 118(9). （後續心理健康應用工作的範例）。