你今天和人工智慧互動過嗎?答案可能是肯定的,而且很多次。如果您使用過社交媒體、閱讀或撰寫電子郵件、查看天氣應用程式、聽音樂或在線預訂計程車,那麼您確實與人工智慧系統進行了交互。這篇文章也是如此:除非有人給你發了一個直接鏈接,否則你可能是通過推薦系統(一種人工智慧)找到的。一個又一個里程碑,人工智慧已經成為我們日常生活的一部分,甚至塑造了我們的生活方式。人類和 AI 之間的交互已經經歷了許多反覆運算,本文將探討其中的一些反覆運算。
人工智慧被廣泛認為是在1956年 達特茅斯夏季研究項目之後成立的,在此期間,幾位科學家和數學家集思廣益,討論如何創造一種可以像人類一樣思考的機器。從那時起(甚至更早),人類和人工決策長期以來一直是多個領域研究人員感興趣的話題。諾貝爾獎獲得者赫伯特·西蒙(Herbert Simon)提出了 有限理性的概念。他的理論指出,作為決策者,人類的理性是有限的,傾向於不選擇最優選項,而是選擇在其上下文中充分的選擇。西蒙本人是人工智慧領域的首批先驅之一。他與他人共同創建了 邏輯理論家,該計算機程序被認為是第一個人工智慧。基於搜索樹和邏輯過程, 邏輯理論家 能夠證明 38 個數學定理。
大腦的生物結構一直是人工智慧發展的靈感來源。例如,兩位獲得諾貝爾獎的神經生理學家 Hubel 和 Wiesel 在貓的視覺皮層方面的工作啟發了卷積神經網路 (CNN) 的結構,這是一種廣泛用於圖像處理的神經網路,用於預測圖像內容等目的。他們的研究表明,當呈現各種線條時,視覺皮層的細胞會根據它們的傾斜度、角度和顏色發出不同的發射。CNN使用濾波器進行模式識別,即它們允許特定的神經元識別圖元塊中的特定模式(邊緣、角度等)。
長期以來,人們一直對創建一個可以像人類一樣思考的系統感興趣。但是,這個專案的核心問題,“機器能思考嗎?”,儘管它很複雜,但有爭議,被更簡單的問題所取代,例如:“ 機器能做我們(作為思考實體)能做的事情嗎?””為了回答後者,艾倫·圖靈(Alan Turing)提出了後來被稱為“圖靈測試”的測試,該測試旨在評估人們是否可以區分人類生成的討論和機器生成的討論。
本文提出了另一種評估人工智慧“理性”決策的方法。它的作者想要確定不同版本的大型語言模型(LLM)是否容易出現與人類相同的非理性決策。他們向演算法展示了一組廣泛用於評估人類決策的認知測試,例如認知反射測試,這是一種心理測試,用於評估一個人克服不正確的“直覺”反應並進行進一步反思的能力。結果顯示,“'達芬奇'家族的模型(GPT-3 和 GPT-3.5)顯示出有界或啟發式推理的跡象,並且通常表現不佳的人類參與者。另一方面,正如論文中報導的那樣,與人類參與者的樣本相比,最近的模型(ChatGPT 和 GPT-4)表現出超人的表現”
人工智慧已被應用於不同領域,作為一種有前途的工具,可以幫助決策者做出更好的決策。換句話說,這項技術可以幫助我們根據解釋來自環境的數據做出客觀的決策,因此,可以幫助人類決策者超越決策過程中的任何啟發式方法。
讓我們將醫療領域視為一個用例。每天必須處理大量資訊並執行多項任務(有時是並行執行的),醫生可能會精神疲憊, 他們的分析可能會有偏見。例如,它們可能會受到 確認偏差的影響。當我們以確認我們信念的方式選擇和解釋資訊時,就會發生這種偏見。
這可能導致醫生誤解醫學分析,並專注於確認他們選擇的診斷的要素。 已經出現了幾種基於人工智慧的解決方案 來幫助進行醫療診斷。通過圖像識別、分類和自然語言處理等,人工智慧可以分析不同的醫療數據點,試圖帶來更“客觀”的醫療診斷。
儘管有人說人工智慧可以完善決策過程,成為一個能夠在短時間內分析大量數據的客觀高效的決策者,但一切都並不像聽起來那麼完美。事實上,人工智慧本身也可能是有偏見的。
AI 模型可能會因用於其訓練的數據集而產生偏差,例如,當數據集在其預測類之間不平衡時。考慮一個旨在預測消費者是否會流失(停止與公司開展業務)的模型 - 在這裡,模型需要預測一個二元變數,如果流失,則為 1,否則為 0。數據科學家將在每個時間步的每個用戶端可用數據的歷史記錄上訓練這樣的模型,指示用戶端是否流失。根據設計,訓練數據包含的零多於一,從客戶訂閱日到客戶流失日,每天都會跟蹤客戶。在此流失日之外,所有其他日期都將標記為零。如果零比一多得多,也就是說,如果模型幾乎無法感知和學習任何流失活動行為,它將很難預測流失何時發生——它甚至可能永遠不會在任何時候預測任何人的流失行為。
由於存在有助於超越人類認知偏見的解決方案,因此也有一些良好的做法可以應用於克服人工智慧偏見。在上述示例中,消除演算法偏差的一種方法是平衡數據,例如,僅選擇目標變數設置為0的幾個觀測值,或者創建目標變數設置為1的合成觀測值。
偏差也可能來自其他方面:模型可能過於複雜,導致訓練數據集過度擬合,這意味著它學習了很多關於它的特殊性,包括“嘈雜”的方面,並且不能擴展到未觀察到的行為。模型正則化是一種技術,它通過懲罰回歸模型中的雜訊變數權重以及在神經網路的訓練過程中丟棄或關閉某些神經元來説明防止過度擬合。
基於數據的偏見的一個問題是它可以反映人類的偏見和刻板印象。該模型可以學習像我們一樣解釋世界並記錄它。自然語言處理是用於處理和解釋書面內容的機器學習技術。該技術使用嵌入,即將文檔中的單詞轉換為可由機器解釋的向量。一旦呈現向量,機器就可以學習不同單詞之間的關係,從而創建不同的上下文。例如,它可以瞭解到巴黎對法國的重要性與東京對日本的意義相同。Word2vec 是一種創建此類嵌入的流行演算法。 在這篇論文中,研究人員使用這種演算法嵌入了來自谷歌新聞的300萬個單詞的語料庫。 結果顯示嵌入中存在與性別相關的工作偏差,如下圖所示。
通過演算法,與“他”或“她”性別相關的頂級極端工作。圖來自引用的論文。
換句話說,該演算法將某些工作與特定性別聯繫起來。如果以原始方式使用,這種訓練有素的演算法可能會進一步加劇性別差異,例如,通過為尋找新機會的人提供不平等的工作機會。本文和許多文獻提出了處理演算法中檢測到的基於人類的偏見和刻板印象的技術,例如識別捕獲偏見(如性別偏見)的變數(或維度,在嵌入的情況下)並消除它們。上面引用的論文中提到的另一種技術是平衡特定性別的維度,即創建一個性別中立的詞嵌入新維度。必須定期進行此類檢查,尤其是在敏感領域,以避免生成增強這些刻板印象的內容。
人類經常與之交互的另一種人工智慧是推薦系統。顧名思義,推薦系統是用於根據以前消費的內容為使用者推薦新選項的演算法。例如,在一個音樂平臺上,根據我一直在聽的內容以及我的個人資料,將向我展示大量可用曲目中的特定標題,這可能與其他使用者在同一平臺上獲得的建議不同。
社交媒體也是如此——建議的內容符合一個人的興趣,因此可以提高一個人與平台的互動。然而,不斷接觸符合自己興趣的內容可能會引發偏見問題,因為它可能會增強確認偏見。如前所述,當我們以確認我們先前信念的方式選擇和解釋資訊時,就會發生這種偏見。這裡可以提出的擔憂是,當我們消費符合我們先前興趣的內容時,推薦系統會提出符合這些興趣的內容,儘管演算法可能會建議隨機內容供使用者探索,但後者可能傾向於忽略它們,只消費符合他們先前偏見的內容,從而強化它們。這種效應被稱為 回音室。有趣的是,回音室效應是激烈辯論的對象,因為關於致力於這種現象的研究是否足以證實它的存在,意見不一......以及這種行為是由於演算法的先入之見還是人類決策的本質。
本文結束了我們探討決策過程的系列文章。我們希望您喜歡您的閱讀,並希望它説明您瞭解決策的複雜性和吸引力,以及決策科學可以證明的影響力。
不要猶豫,訂閱我們的 Tea O'Clock 時事通訊,隨時瞭解 55 →時事通訊中新文章的發佈和最新市場趨勢。
在我們的月度時事通訊《Tea O'Clock》中發現所有最新新聞、文章、網路研討會重播和 55 項活動。