2012年1月30日

Watson (3)


(比賽場地的 IBM 研究中心)

最後還是介紹一下比賽結果 (雖然大部分人應該都知道了),不能虎頭蛇尾;上集提到,第一天比賽結束,人類並未居下風,電腦與 Rutter 共同以 5000 分領先,Jennings 則是 2000 分。

第二天賽事最大差別是有 "Daily Double" 題,藏於各類題目中,選手可主動尋找此類題型,接受挑戰,答對可加上你投注的分數,答錯即倒扣相同分數;依往例,這規則往往會讓最終比分形成巨大差距,或出現大逆轉。


( 很有哏的動新聞報導影片 )




可於網路上觀看第二天比賽過程

第二天的音樂題,幾乎都是有明確答案的事實型題目,Watson 答對了這類別的所有問題,例如 :

音樂迷對這位匈牙利人的超技練習曲充滿熱情 (Music fans wax rhapsodic about this Hungarian's "Transcendental Etudes")。

答案是李斯特 (Franz Liszt),對 Watson 而言,這是最簡單的搜尋,它只需搜尋曲名與國家,很快便能找到出現最多的連結即作曲者姓名。


大部分事實性題目都是問人名,例如 :

《刺蝟和狐狸》是這位俄羅斯伯爵的歷史觀隨筆 ("The Hedgehog and the Fox" is an essay on this Russian count's view of history)。

答案是托爾斯泰 (Leo Tolstoy),這種題目也難不了 Watson,在它的資料庫中,與《刺蝟和狐狸》連結最多的人名一定是托爾斯泰。這些題目,人類參賽者未必不知,他們只是在按鈴上輸給了 Watson。


伴隨著很大的影響力,這位三一學院的年輕人於 1669 年獲得 Lucas 數學教授講座 (With much "gravity", this young fellow of Trinity became the Lucasian Professor of Mathematics in 1669)

答案是牛頓,這題賣弄了 "gravity" 的雙關語,Watson 肯定不懂,但不影響它找出答案。


1626年,對他來說是 "失樂園",那年他被暫時驅逐出基督學院 (In 1626 it was "Paradise Lost" when he was "rusticated" (temporarily expelled) from Christ's College)

答案是約翰彌爾頓,這題也有 "Paradise Lost" 的雙關語,但 Watson 答不出,照理說《失樂園》是彌爾頓最著名作品,Watson 不應查不到,IBM 專家認為,Watson 可能被題目中的 it 與 he 搞混了,不知這題問的標的是什麼。


( 舉例來說,若題目改成 : "In 1626 he dropped into “Paradise Lost” when he was “rusticated” from Christ’s College",電腦會較易理解問的是人,這是人腦比電腦彈性的地方。)


醫學題部分,Watson 也幾乎橫掃所有題目。

你只是有點僵硬,你不會有這種痛苦的蚊子傳播關節疾病的。它有一個非洲史瓦西里語的名字 (You're just a little stiff! You don't have this painful mosquito-borne joint illness with a Swahili name)。

答案是登革熱 (Dengue Fever),IBM 團隊會很高興看到這結果,醫療診斷就是 Watson 未來被設定的工作之一,它通過了處女秀考驗。


Watson 也找到第一個 Daily Double 題目,下注 6435 元,數字令全場都笑了,這是它內建演算法算出的精確數字,通常人類選手都是以千為單位下注。

彭布羅克和伊曼紐學院的小禮堂是這位建築師設計的 (The chapels at Pembroke & Emmanuel Colleges were designed by this architect)。

答案是 Christopher Wren,這是事實題,沒有懸念,對 Watson 毫無難度。這對人類選手是很不好消息,因他們賭的就是 Watson 會在 Daily Double 答錯而被倒扣。


接下來的 Daily Double 題,Watson 賭了 1246 分,還是很奇怪的分數。

這個古老的 "Lion of Nimrud" 於2003年在這城市的國家博物館被偷 (一起被偷的還有很多其他東西) (The ancient "Lion of Nimrud" went missing from this city's National Museum in 2003 (along with a lot of other stuff))。

答案是巴格達,Watson「猜」對了,巴格達雖是它的第一備選答案,但信心度只有 32 %;若是搶答題,這樣的信心水準 Watson 可能選擇不按鈴,不過這是 Daily Double,只有它能回答。


這天也有三人都答錯的題目。

2010 年 5 月,五幅價值 1.25 億美金的布拉克、馬諦斯與其他三位畫家的畫離開了巴黎博物館,這五幅是什麼時期的畫 ? (In May 2010 5 paintings worth $125 million by Braque, Matisse & 3 others left Paris' Museum of this art period)。

答案是現代藝術時期,這題三位都答錯了,對 Watson 而言,這題很難理解,它答「畢卡索」,完全不相關;這是所謂的遞迴問題,Watson 需知道這些畫家有哪些畫,然後哪些畫被偷,最後才是畫的時期,且題目還隱藏了三位畫家姓名;若題目直接給出畫的名稱,就成為 Watson 的送分題了。

(馬諦斯著名的作品)


畫家 Titian 關於哪位西班牙國王的畫像於 1987 年時在槍口下從阿根廷一家博物館被偷走 (A Titian portrait of this Spanish king was stolen at gunpoint from an Argentine museum in 1987)。

答案是飛利浦二世,這也是遞迴問題,三位選手全部答錯,可見對於迂迴的題目,Watson 與人類一樣沒輒。

(義大利文藝復興時期的畫家 Titian 作品)


第二天比賽至尾聲,Watson 已遙遙領先,最後來到 "Final Jeopardy",由主持人先公佈題目類型,選手需押注一個分數,才公佈題目,三分鐘後都要回答,不搶答,若答對即加上押注分,答錯倒扣,這是落後者翻盤的最後機會。


這天主持人給的題目類型是「美國城市」,兩位美國選手最擅長的,Jennings 與 Rutter 都賭上自己所有分數 (2200 與 5000),他們期望領先的 Watson 會傻傻地下重注,然後答錯倒扣,結果 Watson 保守地只押注 947 分,很聰明的演算法。

這城市的最大機場以二戰英雄命名,它的第二大機場則以二戰戰役命名 (Its largest airport is named for a World War II hero, its second largest for a World War II battle)。

答案是芝加哥,芝加哥最大機場是 O’Hare,第二大機場是中途島 (Midway),O’Hare 是二戰美國空軍英雄。

(芝加哥 O'Hara 機場,2005 年之前是全球起降最繁忙機場)


( "Final Jeopardy" 的過程 )




Jennings 與 Rutter 都輕鬆答對了,Watson 的答案卻是 "What is Toronto ???????",許多問號與 14 % 的信心水準,顯示它找不到答案。這題引起許多討論,似乎 Watson 只根據題目回答,卻不知前提「美國城市」的作用是什麼 (多倫多是加拿大城市);另一原因是,這場比賽後,大家才知道美國有 7 個小城叫 Toronto。

( 美國俄亥俄州的 Toronto )


( 這笑話會被笑很久,漫畫中的病人尋求診斷建議,Watson 還在 "What is Toronto" )


第二天比賽還有小插曲,有個題目「Kasparov (棋王) 為 "The Complete Hedgehog" 寫序,談到這種比賽中的防守策略」,答案是西洋棋,但 Watson 毫無反應,原因是這題在題目看板上出現的位置錯了,導致 Watson 不知接下來要作什麼,最後決定此題不算。這令 IBM 團隊覺得可惜,畢竟這題帶有人工智慧傳承的時代意義。

( 美國漫畫,「深藍」在電視前幫 Watson 加油 )


第二天比完,似乎勝負已定,Watson 的分數是 35734,Rutter 是 10400,Jennings 4400 (Watson 鬧笑話的多倫多,只有倒扣 947 分)。

( 壹傳媒報導第二日比賽結果的新聞 )




兩位人類參賽者表示,Watson 按鈴的速度實在太快了,根本無法匹敵,Jennings 位置靠近 Watson 的機械按鈴手指,他說他後來一聽 Watson 按鈴,就聯想到電影魔鬼終結者。


IBM 的退休董事長帕米沙諾則激動地說,「或許我們該把它設定得弱一點 !」



最後一天,Jennings 與 Rutter 的獲勝策略只剩一招,盡量挑高分題,且要搶答成功,最好能選中 Daily Double,然後孤注一擲全部梭哈,讓分數加倍而逆轉。

網路上可觀看第三天比賽過程

來看第三天一些特別的題目 :

每 5 年選舉一次,它有來自 7 個組織的 736 名成員 (Elected every 5 years, it has 736 members from 7 parties)。

答案是歐洲議會 (EU Parliament),Watson 答對這題令人激賞,因題目中的資訊只有數字,幾乎沒有具意義的名詞,但它還是藉數字組合找到了。


至 2010 年,克羅埃西亞和馬其頓還只是歐盟申請國,而這國家是唯一歐盟中的前南斯拉夫共和國 (As of 2010, Croatia & Macedonia are candidates but this is the only former Yugoslav republic in the EU)。

答案是斯洛維尼亞 (Slovenia),Watson 答塞爾維亞,斯洛維尼亞只在它的備選答案排第三,它很可能被克羅埃西亞與馬其頓混淆了,題目中這兩國其實與答案毫無關係,這也是電腦不如人腦處,它無法分辨雜訊。

(斯洛維尼亞首都 Ljubljana)


這天有猜演員的題目 (列出多部片名,猜共同演員),Watson 一題也沒搶到,兩位人類選手平分了這些分數。例如 :

Rocky II, III & IV (洛基)

答案是席維斯史特龍 (Sylvester Stallone),這題未免也太簡單。


Million Dollar Baby & Unforgiven

答案是克林伊斯威特 (Clint Eastwood)


這類別 Watson 不擅長的原因可能是題目太短了,這是很有趣現象,不論題目長短,對電腦而言搜尋的時間是一樣的,它必需搜尋所有片的演員名單,但對人腦來說,這麼短的題目幾乎看一眼即知答案,這是唯一 Watson 按鈴趕不上人類的題項。

若單看第三天積分,Jennings 一直與 Watson 拉鋸,他終於選到一題 Daily Double 的題目,把所有分數全押上去。


歐巴馬議員出席了 2006 年誰的國家紀念碑奠基儀式,這紀念碑距林肯紀念堂只有半英里 (Senator Obama attended the 2006 groundbreaking for this man's memorial, 1/2 mile from Lincoln's)。

答案是馬丁路德金恩 (Martin Luther King),Jennings 答對了,他本來以為是羅斯福,但他想到 2006 年歐巴馬還未當選總統,以他當時的身份,應與黑人民權有關,這種分析能力也是人腦優勢。


這題過後,Jennings 的單日積分超越了 Watson 近 4000 分,如要在最後關頭大逆轉,使三日總分超越 Watson,他必需找到最後一題 "Daily Double"。

他猜到了「E 開頭的法律用語」這類別,最後一道 Daily Double 的確藏在此類別中,但此時 Jennings 犯了記憶上的錯誤,他選錯題,沒選到 Daily Double,最後一題 Daily Double 被 Watson 選到,正式宣告人類翻盤無望。

最後 Watson 也橫掃了所有法律題目,IBM 團隊應很滿意,提供法律諮詢也會是 Watson 日後的工作之一。


以下列出部份 Watson 答錯的題目。

2002年,阿姆幫這位繞舌歌手簽下一個七位數合約,顯然比他名字暗示的價值更多 (In 2002 Eminem signed this rapper to a 7-figure deal, obviously worth a lot more than his name implies)。

答案是美國繞舌歌手 50 Cent,這題對美國參賽者很容易,但 Watson 的信心水準只有 39 %,合理判斷這位 50 cent 的藝名給 Watson 帶來些困擾,見鬼了,50 cent 不是錢嗎,只能說演藝圈的藝名實在太複雜了。

( Watson 的搜尋機制是如此,先從題目中的 "his" 判斷題目問的是人,再從「阿姆」與「合約」等關鍵字找出現最多次的人名,但找出來竟是 50 cent ? 這會讓 Watson 錯亂 )


這語言的方言包括吳語,粵語和客家話 (Dialects of this language include Wu, Yue & Hakka)。

答案是中文 (Chinese),這題對華人是送分題,但 Watson 答錯了,他的答案是廣東話,顯示 Watson 的弱點,它對 "包含" (include) 與 "並列" 似乎沒有掌握很清楚,廣東話與這些方言是同位階的語言。


2008 年 12 月 8 號,這份國家報紙將它的報攤價錢從 25 分提高至 1 美金 (On December 8, 2008 this national newspaper raised its newsstand price by 25 cents to $1)

答案是 USA Today,Watson 的三個備選答案都是錯的,它對日常生活的題目都不在行,這可能與它內建的資料庫有關。


USPS 寄送這東西時,最小是 3.5*5 英吋,價格 28 分;希望你們已知道答案 (The USPS cost for mailing this, a minimum of 3 1/2 X 5 inches, is 28 cents; Wish you were here)。

答案是明信片,Watson 也答錯了,有時人類覺得越簡單的知識,對電腦而言越難,這些知識是生活中習得的,不是書本讀來的,Watson 是個書呆子啊。


99 分可幫我從這家瑞典連鎖店買到一包 4 個的 Ytterlig 杯墊 (99 cents got me a 4-pack of Ytterlig coasters from this Swedish chain)。

答案是 IKEA,這題對人類而言很好猜,Watson 也答對了,但信心水準只有 39 %,它選擇不按鈴,Watson 的資料庫顯然沒有市價等商業資料,題中連鎖店 (chain) 這多義字應該也給它造成些混淆。


一瓶 15 盎司來自這製造商的 V05 牛奶保濕護髮素在網路的平均價格是 1 美金 (A 15-ounce V05 Moisture Milks conditioner from this manufacturer averages a buck online)。

答案是護髮素品牌 Alberto,Watson 的答案中沒有這項,生活知識是它的大弱點,Watson 告訴我們只讀書不出門會成為什麼樣子。


當第三天比賽進入最後一題 "Final Jeopardy" 時,Watson 的單日積分已領先 Jennings 近 5000 分,更不用說三日累計,比賽已分出勝負。

"Final Jeopardy" 的題目類型是「19 世紀小說家」,題目問的是吸血鬼小說作者,這回 Watson 沒再犯「多倫多」的錯誤,答案 Stoker,三人皆答對了,比賽結束,Watson 勝出。Jennings 在此題答案手寫板上,還加寫了「歡迎我們的電腦新霸主」(Welcome Our New Computer Overlords)。


三天比賽加總,Watson 以累計 77147 元獲勝,Jennings 與 Rutter 分別只有 24000 與 21600 元;Watson 獨得 100 萬美元獎金,IBM 已將這筆錢捐給慈善機構。


( 壹傳媒報導第三日比賽結果的新聞 )




兩位人類代表中,較活躍的 Jennings 於賽後接受許多訪問,他也有部落格,我們可從中得知人類選手想法,尤其 Jennings 本身就是程式設計師;當他知道 Watson 程式大部分是 Java 所寫,感到很有趣,他說,我竟被我自己工作上使用的程式打敗。他曾研究 Watson 所使用的演算法與平行運算機制,發現 Watson 的搜尋法則與他自己招數很像,他也說,我們人類都是在瞬間就選出答案,這瞬間我們很可能進行著電腦一樣的演算法,只是我們自己不知道;IBM 團隊會很高興聽到這個,因 Watson 本來就是要用來模擬人腦的思考。


不過,Jennings 賽前就說,由兩個人對付電腦對人類是不公平的,因 Watson 一定會霸佔某些它擅長的題目類別,造成兩名人類只能去競爭剩下的題型分數,最後總分一定較低;從比賽結果看來,確是先見之明。

( Jennings 幫書迷在自己書上簽名,大開自己玩笑 )


人類的落敗有許多原因,首先,Watson 的按鈴速度簡直快到不是人 (雖然本來就不是),兩位參賽者均認為,人類是被最快的手指打敗而非最聰明的腦 ( Humans are more often won by the fastest thumb than the fastest brain ),比賽中,這兩位以快手著稱的參賽者從未遇過比他們更快的人,這種心理壓力讓他們常提早按鈴,導致被罰 1/4 秒。兩人皆認為,若比賽改成書寫測驗,而非按鈴,獲勝者將是人類,因 Watson 答對的題目其實他們也會,而 Watson 錯的答案卻都錯得離譜。


另一爭議是,比賽中人類所涉入的角色,Watson 在賽前練習與正式比賽的版本並不同,且每天賽後都進行程式補強;這也是 1997 年棋王 Kasparov 最大的不滿,IBM 團隊一直根據每場比賽結果,修改「深藍」程式,棋王說,當他覺得已摸清「深藍」棋路後,下一場「深藍」又像換了一個人。


此外,主辦單位的題目系統有時會出錯,導致 Watson 沒有反應,超出它程式的理解,Watson 也一度當機,本來錄一集《Jeopardy》約兩小時,實際比賽卻拖了四小時,這對人類參賽者很不公平,他們的注意力無法長期集中。

( 所以如果有天電腦真要毀滅人類,它也很可能在關鍵時刻當機 )


Jennings 賽後說,「這場比賽我們的確是客隊」,他們需橫越美國到 IBM 研究中心比賽,且整個過程都在讚揚電腦的成就,觀眾也只為電腦歡呼。

( 比賽場地,IBM 研究中心 )


不過就像 Ferrucci 說的,這並不是電腦戰勝人腦,因 Watson 並未真的開始思考,人類智慧仍持續支配電腦,或者該說,這是一群菁英人腦研究團隊與另兩位職業競賽人腦的比賽。

這場比賽結束後不到兩週,Watson 其實還參加了另場比賽,沒有電視轉播,挑戰者是美國眾議員 Rush Holt 率領的國會代表隊,Holt 是很特別的議員,他是物理博士,從政前是大學教授,教授物理、公共政策、宗教等課程,30 年前曾是《Jeopardy》參賽者,這比賽由五位議員輪番上陣,最後 Watson 以 40300 分打敗議員隊的 30000 分;不過,在 Holt 上場那輪,他其實打敗了 Watson。

( 眾議員 Rush Holt )


比賽結束這年,IBM 已與哥倫比亞大學、馬里蘭大學、Nuance Communications 公司合作,開發 Watson 的商業應用,IBM 本就不是為了有獎徵答,而是廣大的問答科技市場,如醫療、金融、法律、運輸、零售、電信、商業顧問等需處理大量資訊的產業,特別是為醫生提供診斷建議,這台電腦設計的目的,就是像影集《怪醫豪斯》(House) 中的豪斯般,一見症狀即判斷病灶。Ferrucci 曾說,目前網路上販賣的書共約 1400 萬本,若 Watson 可幫大家讀完這些書,然後提供問句的解答,將是許多人需要的。


最新發展是,去年九月美國的 Wellpoint 公司已與 IBM 簽約,運用 Watson 提供醫療診斷建議;IBM 不斷強調,Watson 並沒有打算也不會取代醫生。

( 美國諷刺漫畫,醫生被 Watson 取代 )



( 這段影片介紹了 Watson 未來的可能應用 )




也許 Jennings 的一段話描述了未來,他說,以前每個辦公室都有一位像他這樣萬事通的人,大家想不起某個人名時就會去座位問那人,這樣的人以後將不再重要了。就像古代的大力士,是社會上重要角色,蒸汽引擎發明後,他們就被趕到馬戲團或運動場了。


( 這幅漫畫已經敦請 Watson 出來選總統了 )


( Watson 面對社會安全與醫療保險沉痾也沒輒 )


不過美國哲學家 John Searle 倒很樂觀,他是人工智慧的反駁者,他最有名的 Chinese Room 理論認為電腦不可能透過程式學會任何事;去年二月他在華爾街日報有篇很有趣文章「Watson 根本不知道它贏了比賽 !」 (Watson Doesn't Know It Won on Jeopardy! ),Searle 認為,Watson 只能掌握符號,但根本不知這些符號的意義。IBM 的研究人員也同意,電腦要模擬人腦是不可能的,因為連我們也不瞭解自己的腦。

( 美國諷刺漫畫 )


至少在未來,我們可期待電腦愈來愈聰明,且也無需杞人憂天,它們並不會毀滅地球;如同 Baker 書末所言,聰明電腦存在的目的,就是讓我們有空去作只有人類才懂得享受的事,例如唱歌、游泳,例如談戀愛。(註)


( 好吧,祈禱這樣的事不會發生 )



也許該用房龍 (Hendrik Van Loon) 名著《人類的故事》卷頭語當結尾 :

「我們去向何方 ? 雖進展緩慢,但由於百折不撓的努力,我們已把問號推向隱約可辨的遠方地平線,越過那線便是答案;雖然離出發還沒多遠,但我們已抵達可推測許多未來的地方。」



( 最後推薦這段 10 分鐘的影片,詳細介紹了比賽前因後果 )






(註) 科幻大師艾西莫夫在一篇 1986 年的文章中,曾列出電腦不可能作的事,例如人類作來容易且難以轉成清晰指令的事,包括下西洋棋、寫小說散文、寫交響曲等,不過此預言已開始受挑戰了。


延伸閱讀 :

Watson(1)
Watson(2)




3 則留言:

  1. 好長, 終於先把文字看完了, 影片再慢慢看. 第四法則是??

    回覆刪除
  2. http://ppt.cc/QwOD

    可以看中文維基百科,
    不過英文版的比較清楚.
    其實到後來是邏輯與哲學的問題了...

    回覆刪除
  3. Watson 進駐華爾街.

    http://ppt.cc/yg4b

    回覆刪除