发表于2024-12-14
搜尋引擎沒告訴你的事 [The Filter Bubble: What the Internet Is Hiding from You] pdf epub mobi txt 电子书 下载
伊萊·帕理澤(Eli Pariser)
網路民運組織MoveOn.org的前執行長﹐現任理事長﹐會員五百萬人﹐是網路政治的先鋒。他目前是羅斯福伉儷學會的資深研究員﹐也與人合創Avaaz.org﹐是全球規模最大的公民社團之一。他執筆的評論曾刊登在《華盛頓郵報》﹑《洛杉磯時報》﹑《華爾街日報》的民意論壇版。他為本書所作的演講可見於TED talk網站。
譯者簡介
宋瑛堂
台大外文系學士,台大新聞所碩士,曾任China Post記者、副採訪主任、Student Post主編等職。譯作包括《賴瑞金傳奇》、《馭電人》、《大騙局》、《數位密碼》、《斷背山》、《人魔崛起》、《冷月》、《藍色駭客》、《永遠的園丁》、《蘭花賊》、《野獸花園》等書。
在我認識的人當中﹐對數位科技與民主程序交互作用有所研究的人裡面﹐伊萊.帕理澤不僅是見解最精闢的一個﹐他的歷練也無人能出其右。《搜尋引擎的秘密》說明電腦程式如何限制網友的眼界﹐如何更能預測網友的反應。只要你關心人類在數位世界何去何從﹐你就應該閱讀本書--亞馬遜對你推薦的書單如果漏掉這本書﹐你就更應該詳讀。」
——《大腦操縱:行銷不能說的祕密》作者/道格拉斯﹒洛西可夫
第一章
衝高關聯度
一九九四年春天,尼克拉斯﹒尼葛洛龐帝(Nicholas Negroponte)坐在麻省理工的媒體實驗室裡,邊寫字邊思考著。他是媒體實驗室的創辦人,集結了年輕的晶片設計師、虛擬實境美術師、機器人設計師,一同潛心創建未來的電子產品與工具。然而,尼葛洛龐帝思索的問題比較單純,是廣大民眾天天自問的一句話﹕該看哪一臺的節目?
在一九九○年代中期,電視即時播放的頻道有幾百臺,全年無休,但多數節目不是慘不忍睹,就是無聊透頂﹕廚房用品的購物節目、當紅一曲歌王合唱團的MV、卡通、影劇新聞。對任何一位視聽人而言,有意思的資訊可能僅佔極小的比例。
隨著頻道數目增加,常用的瀏覽頻道方式是愈來愈難以負荷。只有五臺的時候,找節目很輕鬆,但頻道增加到五百臺時,挑節目就不容易了。頻道數激增到五千的時候,搜尋五臺的老方法根本不管用。
但是尼葛洛龐帝並不擔心。人類還沒有被頻道擊垮,應變之道即將出爐。「電視未來的關鍵在於,」他寫道,「不應該再把電視當成電視看待,」而是開始將電視視為有內建智慧的器具。消費者需要的是能自行操控的遙控器。這種自動化的助手有頭腦,能從視聽人收看的內容當中學習,能捕捉與視聽人相關的節目。「今天的電視機能讓你控制亮度、音量、頻道,」尼葛洛龐帝敲著鍵盤。「明天應該能讓你調整鹹濕度和政治傾向。」
只調整電視,不夠吧?在尼葛洛龐帝憧憬的未來世界裡,這一種智慧型的仲介是到處都有,能替人類解決電視頻道太多之類的難題。智慧型仲介猶如個人專屬的總管,守在門口,只讓你最愛看的節目和主題過關。「想像一下,」尼葛洛龐帝寫道,「未來你的介面仲介能閱讀全地球的通訊社、報紙的新聞,能為你捕捉所有廣電節目,進而為你訂做一份摘要。這一類的報紙只印一份…可稱為《我的日報》。」
他愈深入思考這問題,愈覺得有道理。數位時代的資訊氾濫成災,對應之道是聰明、個人化、內建的編輯程式。事實上,這種智慧型仲介不一定局限在電視——他向新科技雜誌《連線》總編建議,「電腦運算界將來明確的走向是智慧型仲介。」
在舊金山,傑容?藍尼爾(Jaron Lanier)以惶恐的態度回應他的論點。藍尼爾是虛擬實境的始祖之一,從一九八○年代起,他一直致力於拉近電腦與人類之間的距離。在他看來,智慧型仲介的言論是荒誕不經。「你們的腦筋全秀斗了嗎?」他在個人網站上寫道,對象是《連線》雜誌型的讀者群。「『智慧型仲介』的概念既離譜又邪惡……。智慧型仲介恐將決定(網際網路)會比電視好幾倍,或是爛到不行。」
藍尼爾深信,由於智慧型仲介終究不是真人,這種裝置會強迫人類以彆扭、失真的方式和仲介互動。「仲介會把你有興趣的事物歸納成一個近似卡通的模式,你透過仲介的眼睛看見的世界將會是一個卡通版的世界,」他寫道。
另外存在的一個問題是,仲介如果要做得盡善盡美,一定非過濾掉所有廣告不可。然而,由於網路商業的活水是廣告,這些公司似乎不可能推出這種殘害利潤的仲介來自戕。藍尼爾寫道,比較有可能的推論是,這種仲介效忠的對象不只一個,是可以買通的仲介。「它們效勞的對象並不明確。」
藍尼爾的論點明確而振聾發聵。可惜的是,這話雖然在網路新聞群組引發一些回響,網路初期的軟體大公司卻不為所動。這些公司信服的是尼葛洛龐帝的邏輯﹕能設法從數位乾草堆裡過濾出金塊的公司,一定能在未來勝出。這些公司看得出,隨著每人接觸到的資訊種類趨近於無限多,注意力當機的時代即將來臨。想賺錢的公司必須叫用戶專心。而在注意力貧乏的世界,讓消費者專心的上策是提供精準的資訊,最好能條條切中個人的癖好、慾望、需求。在矽谷公司的走廊和資料中心裡,當時的熱門關鍵詞是﹕關聯度(relevance)。
當時大家急著推出「智慧型」產品。在位於瑞德蒙(Redmond)的總部,微軟公佈了一種作業系統Bob,依據的全是智慧型仲介的概念,而搞笑的logo竟然神似比爾﹒蓋茲,令人不寒而慄。在庫博蒂諾(Cupertino),幾乎在蘋果推出iPhone整整十年之前,蘋果的牛頓全新上市,標榜的是「個人桌面助理」,主打的賣點是﹕智慧型仲介正潛伏在米黃色的機殼下為你賣命。
然而,智慧型新產品上市之後卻慘敗。網路聊天群組和電郵通訊團中,有一群人以嘲諷Bob為嗜好。消費者受不了Bob。《PC世界》雜誌將Bob列為史上最爛科技產品的前二十五名。蘋果的牛頓也好不到哪裡去﹕雖然蘋果耗資一億餘美元開發牛頓,上市半年的銷售量卻吃癟。用戶只需和一九九○年代中期的智慧型仲介互動一下,就能認清真相﹕智慧型產品沒有那麼聰明。
如今,事隔十年的演變,智慧型仲介依然不見蹤影,令人覺得尼葛洛龐帝倡導的智慧型仲介革命失敗了。每天起床後,我們並沒有吩咐電子管家代為關照今日行程和喜好。
但這並不表示智慧型仲介不存在。它們只是被藏起來了。個人智慧型仲介潛藏在我們點閱的每一個網站底下。它們的智能是逐日增長,功能也愈來愈強,能針對我們的特質和興趣累積更多的資訊。誠如藍尼爾的預測,智慧型仲介不只效忠我們,也為Google等軟體大公司效勞,在提供資訊的同時散佈廣告。這些仲介雖然缺乏Bob那張卡通臉,我們的網路活動受它們操控的比例卻愈來愈高。
一九九五年,提供個人關聯度的競賽才剛開跑。把網際網路塑造成今日這種面貌的因素,或許正是各家競逐關聯度的趨勢。
約翰.厄文(John Irving)問題
只要善用關聯度的效力,財源便能滾滾而來,最早領悟這道理的人之一是亞馬遜執行長傑夫﹒貝佐斯(Jeff Bezos)。從一九九四年起,他的願景是讓網路書店「回歸小書商的時代,店員對顧客的認識很深,會向顧客建議﹕『我知道你喜歡約翰﹒厄文的書。最近有個新作者出書,我覺得他的風格和約翰﹒厄文非常接近,』貝佐斯對傳記作家說。說起來很容易,顧客一大票湧現時,店員怎麼一個個推薦?貝佐斯認為,亞馬遜需要成為「一種擅長人工智慧的小公司,」而公司運用的演算法能即時讓顧客和圖書配對。
在一九九四年,資訊新秀貝佐斯在華爾街上班,一家創投公司想在蓬勃發展的網路尋求商機,請貝佐斯探尋做生意的點子。貝佐斯做事講求方法,為創投團隊列舉二十種理論上能在網路上賣的商品,例如音樂、服飾、電子產品,也逐一鑽研這些產業的奧秘。一開始,圖書事業在他的名單上吊車尾,但他最後彙整資料時卻發現,開書店是二十行業當中最適合上網的一種。
書籍合適在網路上銷售的原因有以下幾個。第一,出版業的權力不集中,最大的書商蘭燈只掌握一成的市場。如果有哪一家出版社不願和他合作,出版社多的是,他另找願意合作的對象並不難。原因之二是,傳統書店以外的圖書銷售量已經佔大多數。和其他商品比較起來,顧客上網買書的適應期比較短。此外,不同於服飾的是,買書不需要試穿試戴。然而,網路書店的點子之所以誘人,最主要的原因是書太多了,一九九四年市面流通的書籍高達三百萬種,讓為數三十萬的CD瞠乎其後。這麼多的書,單一的實體書店絕對無法胃納,網路書店卻有辦法全部上架。
貝佐斯向上司提出這項研究心得時,創投卻興趣缺缺,認為賣書在資訊時代顯得好落伍。但這份商機一直在貝佐斯腦中縈繞。如果上網開一家書店,能上架的書籍是無限多,而且能提供顧客更親近、更貼心的經驗,這些優點讓邊境(Borders)或邦諾(Barnes & Noble)等連鎖大書店難以望其項背。
貝佐斯把亞馬遜的目標訂在強化發掘佳作的過程。他想創造的是一間個人化的書店,能協助讀者發現好書,能將好書介紹給讀者。問題是,如何達成這個目標?
貝佐斯開始從機器學習(machine learning)的角度來思考。機器學習是艱深的學問,但從一九五○年代開始,麻省理工和加大柏克萊等研究機構的工程師和科學家已開始鑽研。他們將這領域的學問稱為「控制論」(cybernetics)。這單字的發明人是柏拉圖,原意是一個能自我制衡、調節的體系,民主便是一例。對早期的控制論學家而言,最振奮人心的事莫過於創造能根據意見來自我調整的系統。接下來數十年間,控制論學家研究不少出演算法和理論,為亞馬遜的成長奠定基礎。
一九九○年,全錄的帕洛亞托研究中心(PARC)的一組研究員活用控制論思考,用來解決一種新問題。PARC的創舉常被外界推廣上市,例如圖形使用者介面(GUI)和滑鼠就是PARC的創舉。和當年走在時代尖端的科技人一樣,PARC的研究員也是最早使用電郵的一群人,收發的電郵數以百計。電郵很實用,沒錯,但缺點很快就浮現了。只寫一封信,可以向無限多的對象發送,而且費用是零,不用過多久,無用的訊息會如潮水湧現,會把用戶淹得無法呼吸。
為避免被上漲的洪流淹沒,PARC團隊開始研發一種名為協同過濾(collaborative filtering)的程序。他們將這種程序命名為織錦(Tapestry)。織錦程式能觀察用戶應付大批電郵的行為,看用戶打開哪些電郵,回覆哪幾封,刪除的電郵有哪些,然後運用這些資訊來調整收件匣裡的電郵順序。用戶時常點閱的電郵會被挪到上面,經常被刪除或不點閱的電郵則被壓到底下。本質上,協同過濾能節省時間,用戶不必在成堆的電郵中選閱,可以依賴程式在收件匣事先篩選。
織錦程式這麼好用,當然不只能應用在電郵上。開發織錦的研究員寫道﹕「本程式能應付友方傳來的任何一種電子文件。電子郵件只是一例。通訊社的新聞和網際網路新聞也屬於這一類。」
織錦程式將協同過濾介紹給全世界,但在一九九○年,世人對它不太感興趣。當年的網民只有幾百萬人,生態體系仍小,資訊沒有多到無法分類,頻寬也沒有大到無所不下載的程度。因此,多年來,協同過濾的使用者只有軟體研究人員和閒著沒事做的大學生。在一九九四年,如果你列出幾張你愛聽的專輯,寄給,系統會回信建議相關作品和樂評。根據該網站的說法,「每隔一小時,伺服器會處理所有來信,必要時發出回信。」這系統是串流音樂網Pandora理念的始祖,是窄頻時代的個人化音樂服務。
一九九五年亞馬遜開張之後,隨之而起的是一片新氣象。打從一開始,亞馬遜就將個人化服務內建於書店,一面觀察用戶購買哪些書,一面利用PARC發明的協同過濾法,即時提出建議書單。(「你想買《無師自通西洋劍指南》?要不要搭配一本《醒來全盲﹕眼傷訴訟大全》?」)追蹤顧客購買行為一段時間後,亞馬遜可以歸納出哪些用戶的品味相近。(「書性和你相似的讀者買了本週新書《西洋劍就位﹗》」)向亞馬遜買書的人愈多,個人化的段數就愈高。
一九九七年,亞馬遜書店的顧客總數突破一百萬。六個月之後,顧客數目成長至兩百萬。到了二○○一年,亞馬遜首度發表淨營收季報,成為最早證明網路金礦豐沛的公司之一。
亞馬遜能否複製街角小書店的人情味,見仁見智,但個人化程式卻相當有效。究竟個人化為亞馬遜帶來多少營收,亞馬遜的主管是守口如瓶,但主管在說明亞馬遜的成長過程時,經常提及個人化程式是成功的一大要素。
亞馬遜對用戶資料的追求是不遺餘力:你用Kindle讀書時,被你劃線的句子、被你翻閱的篇章、是否從頭讀到尾或略讀,這些資料全數自動傳回到亞馬遜的伺服器,可以用來向你推薦下一本書。你在沙灘上用Kindle閱讀電子書,隔天登入亞馬遜的網站,亞馬遜能針對你剛讀過的電子書,以不著痕跡的方式調整網站內容。如果你花了很多時間閱讀詹姆斯.派特森(James Patterson)最新作品,卻只瀏覽一下那本新上市的節食指南,亞馬遜網站呈現給你的讀物會以大眾驚悚小說居多,養生保健的書籍會比較少。
亞馬遜的用戶對個人化已經太熟悉了,該網站現在使用逆向操作的手法來多賺一點錢。在實體的書店裡,出版社可以付費讓書籍陳列在吸睛的位置,卻無法收買店員的意見。但是,一如藍尼爾的預測,收買演算法是易如反掌的事﹕只要塞給亞馬遜的鈔票夠多,你的書就能獲得亞馬遜軟體的推薦——冒充成「客觀」推薦,呈現給讀者。多數顧客根本無法辨別「客觀」的真偽。
亞馬遜證明了關聯度能幫助公司稱霸商場,但在網路資訊汪洋中如何淘金?兩位史丹福研究生應用機器學習的原理,後來回答了這個問題。
點擊訊號
在貝佐斯的新公司逐漸起飛之際,Google創辦人賴瑞﹒佩吉和謝爾蓋﹒布林(Sergey Brin)仍在史丹福大學忙著攻讀博士學位。他們知道亞馬遜有多成功——在一九九七年,網路泡沫鬧得沸沸揚揚,亞馬遜至少就市值而言具有數十億的身價。佩吉和布林是數學天才,佩吉對人工智慧的學問特別執著。但他們研究的主軸是﹕演算法可以提昇行銷效率,但在篩選多如牛毛的網站時,能不能也用演算法來代勞?
佩吉寫出一套奇特的演算法,而身為宅男的他喜歡一語雙關,所以把自己的姓加進這套演算法的名稱﹕PageRank。當年多數搜尋引擎根據關鍵字來分類網站,面對用戶鍵入的一個字,很難理解哪一網頁對用戶的關聯度最大。在一九九七年提出的一份論文中,布林和佩吉把苗頭對準四大搜尋引擎,嘲諷其中三家連自己的網站也搜尋不到。「由於稍微相關的文件可能有幾十萬條,」他們寫道,「我們希望『關聯度』的概念只涵蓋好上加好的文件。」
佩吉理解到,網際網路具有連結的架構,多數搜尋引擎只運用到表層的資料,其實可供開採的資料還有很多。A網頁如果連結到B網頁,等於是對B網頁「投一票」。在史丹福大學,佩吉見到教授計算論文被引用的次數,可用來概略衡量論文的重要性。他理解到,網頁好比學術論文,被其他網頁引用的次數愈多——例如雅虎的首頁——「重要性」應該比較大,被其他網頁投一票的網頁應該比較重要。佩吉強調,此一過程「善用了網路架構中的民主特質。」
在當時,Google活在google.stanford.edu的網站上,布林和佩吉深信,Google應該屬於非營利事業,拒登廣告。「我們認為,搜尋引擎如果有廠商資助,本質上會對廠商偏心,會偏離消費者的需求,」他們寫道。「搜尋引擎愈精良,所需的廣告就愈少,消費者不需要廣告就能找到他們想要的東西……。我們相信,廣告引來的誘因太龐雜,搜尋引擎如果要做得更加精進,必須保持透明,必須駐足在學術領域。」
但當他們釋出試用版以後,網站流量是垂直上昇。Google真好用——甫一推出,立即成為網際網路的最佳搜尋網站。不久後,轉型為營利事業的誘惑排山倒海而來,令兩個二十幾歲的創辦人招架不住。
在Google的神話故事當中,讓Google稱霸全球的功臣首推PageRank。我猜,Google喜歡這種說法,是因為聽起來簡單明瞭﹕故事結局是搜尋引擎轟動全世界,起源則是創辦人之一的一項巧思創舉。但從一開始,PageRank只是Google工程的一小部份。布林和佩吉當時已經理解出這一點﹕關聯度的關鍵——整理網路上大批資料的解決之道——是……蒐集更多資料。
布林和佩吉注重的不僅是網頁之間連結。一個連結出現在網頁上的位置、連結的大小、網頁存在的時間長短,全是他們關心的重點。這幾年來,Google開始將這些附在資料上的線索稱為〔訊號〕。
從一開始,佩吉和布林知道,在最重要的訊號當中,有些訊號會由搜尋引擎的使用者提供。如果用戶搜尋「賴瑞﹒佩吉」,然後點選第二條結果,這也算投了一票﹕此舉暗示,對這位用戶而言,第二條結果的關聯度大於第一條。他們將這種訊號稱為〔點擊訊號〕。佩吉和布林寫道,「在最有意思的研究中,有一部份將涉及運用現代網路系統現存的大批使用資料……這一類資料非常難以取得,主因是這種資料被公認是商機。」不久後,他們坐擁的資料庫之大,在全球是數一數二。
Google對資料的胃口很大。一碰到資料,布林和佩吉決心照單保存。搜尋引擎找過的每一網頁,每一用戶的每一次點擊,Google全記錄下來。不久,Google的伺服器裡無所不包,收集了網路疆土大部份的即時頁庫存檔。Google從這些資料當中東挑西撿,自信能從中發掘更多線索、更多訊號,可用來進一步改良搜尋結果。Google的搜尋品質部門具有一種軍方機密行動的味道,常規是儘量不見來賓,嚴守秘密。
「想把搜尋引擎的效力發揮到極致的話,」佩吉喜歡說,「必須教搜尋引擎明白使用者的語義,讓搜尋引擎精準找出使用者的目標。」Google不想列出幾千頁搜尋結果,只願列出一條,也就是用戶最想要的答案。但是,某一條答案對用戶A或許是完美的答案,對用戶B就不一定是十全十美。如果我輸入「panthers」,我大概想找「美洲豹」的資料,假如搜尋者換成是美式足球迷,他想找的可能是卡羅萊納黑豹隊。搜尋引擎若想提供完美的關聯度,必須先瞭解每位用戶的興趣,必須先知道我對美式足球是一竅不通,必須先認識我這個人。
認識用戶的的難題在於,如果取得的資料不夠充份,也無法理解個別用戶關心的是什麼樣的事物。瞭解他人的語義是一門高深的學問——想徹底明瞭,必須先摸清對方長時間以來的行為。
用什麼方式來認識用戶呢?二○○四年,Google想出一套創新的策略,開始推出另一種功能,提供用戶非登入不可的服務。廣受網民愛用的電郵Gmail,就屬於Google最早推出的這一類服務。媒體的焦點放在Gmail印在側邊欄的廣告,但Google開放這項服務的動機不可能只想賺廣告費。由於電郵用戶非登入不可,Google可以自由探勘廣大的資料,也就是用戶每天收發的億萬份電郵。這麼一來,Google左手握著用戶的
搜尋引擎沒告訴你的事 [The Filter Bubble: What the Internet Is Hiding from You] 电子书 下载 mobi epub pdf txt
搜尋引擎沒告訴你的事 [The Filter Bubble: What the Internet Is Hiding from You] pdf epub mobi txt 电子书 下载