2012年9月25日

Google 學英語

  

自從 Google 搜尋開始流行,不知不覺養成用 Google 檢查英文的習慣,寫論文或上英文課時,搜尋一下,馬上知道哪個用法較正統。

這模式有點像先前寫過的「群眾智慧」,正確會累積,錯誤會抵消,最多搜尋結果的用法大抵也是最正確的。最近喜好整理歸納的日本人,推出了《Google 英語學習法》,介紹用各類 Google 功能精進或檢查英語的方法,真要服了日本人。


這種利用資料庫搜尋詞彙用法的方式類似語言學裡的 “語料庫” (Corpus),在 Google 普及前,網路即有許多線上英文語料庫,但沒有人的 Database 像 Google 這麼龐大,可在線上直接作 “Native Check”。 

Google 最方便的搜尋法是拿來 check 配搭詞 (Collocation),語言裡有太多配搭詞,取決於語言發展脈絡,不是母語使用者,實在難以判斷。為何「 昨晚」 的英文是 last night 而不是 yesterday night,要說 acquire knowledge 而非 study knowledge,「濃茶」 是 strong tea 而非 heavy tea,都談不上理由,就是習慣的配搭,配搭用得不精準,Native 聽來會有點怪;老外說「我想坐著一頭馬去打足球」,我們會愣一下,然後好心地說我們中文也有 Collocation 唷。


配搭詞在學術中的定義是,「某些字在自然文本中以大於隨機的頻率共同出現時」(certain words co-occur in natural text with greater than random frequency),解釋果然很學術。對發憤學外語的人而言,字彙與文法很快便能超越母語使用者,但配搭詞的語感卻永遠比不上,「不適當的配搭」(improbable collocation) 永遠是非母語者的致命傷。


以前跟外國朋友聊天時,對方常說 “I know what you mean”,初時沾沾自喜,後來才發現這是用字遣詞不精準的緣故,對方理解了,但你的配搭用法我沒聽過。我們用中文說 「我知道你的意思」 時,往往對方正在解釋一件複雜的事。

用 Google check 配搭詞很方便,特別在選介係詞時,我的經驗裡,把一組日常配搭詞或片語加上引號後搜尋,若搜尋結果沒有超過兩個逗號,大於 million (例如 3,000,000) 個網頁,大概很難說是常見的用法。

例如 “Search an information”,現在查一下,還是有 45,200 個網頁,但 information 是集合名詞,前面不可加冠詞 an,雖有四萬五千個人,但群眾也是會犯錯的。正確用法 “Search information” 有 8,120,000 個網頁,數字大到可信服了。比較有趣的是 “Search a information”,這是錯中又錯,也有 44,500 個網頁,數量與第一種差不多。 

一個配搭詞的例子,「人口老化」,四種選項,意思都說得通,"Aging Population", "Aging of Population", "Ageing of Population", "Graying Population",當場 Google 一下 (加上引號),分別有 3,510,000、124,000、71,100、39,900 個網頁,落差蠻明顯的,如果上課時說 "Graying Population" 甚至 "Older Population",外籍生也許就要說 "Well, I know what you mean, but…"。(沒用台語對你上課就該偷笑了)


Google 搜尋慣了,開始有其他變化,例如定論文題目時,會到 Google Scholar 看這寫法通不通用,是 "A Case from Taiwan", "A Case in Taiwan", "A Case of Taiwan", "Evidence from Taiwan", "Evidence in Taiwan", "Study in Taiwan", 還是 "Empirical Study from Taiwan",有時差異真的沒那麼大,看來網路的資訊焦慮症就是這麼來的。


介紹幾種少被使用的 Google 搜尋語法。

在 Google 搜尋裡 * 號代表的也是萬用字元,例如搜尋 “Participate * the meeting”,會出現 153,000,000 個網頁,簡單捲動一下滑鼠,會發現 * 號位置的介係詞應該是 “in”。 

減號 (-) 代表去除,搜尋 “Jeremy Lin”,有 12,900,000 個網頁,但如果打 “Jeremy Lin” NBA,只剩 9,410,000 個網頁,原則上這是談林書豪但與 NBA 無關的文章,但事實並非如此,因談 NBA 的文章不一定就需用 “NBA’ 這字。


波浪號 (~) 代表關聯字,搜尋 “~college”,包括 university, institute, higher education 的網頁都會列入。這功能未必好用,我們 Google 搜尋不就為了大海撈針嗎,把釘子與牙籤都一起網進來是怎樣 ?

兩點 (..) 代表時間間隔,搜尋 “batman 2005..2006”,原則上會出現 2005 到 2006 年的蝙蝠俠相關網頁,不過這功能還是不準確,今年的新網頁若出現 2005、2006 兩個數字,還是會被列入。


還有些語法,可當成限制條件。

搜尋 “stem cell” filetype:pdf,代表搜尋幹細胞 (stem cell) 相關網頁,但僅限 pdf 檔。

搜尋 “intitle: stem cell”,代表搜尋幹細胞相關網頁,但僅限 stem cell 出現在網頁標題時。

搜尋 “define: stem cell”,代表搜尋幹細胞相關網頁,但僅限與幹細胞定義相關者,通常第一個網頁會是維基百科。 

搜尋 “stem cell” site:edu.tw,代表搜尋幹細胞相關網頁,但僅限台灣的學術網域。 


因此,基本上,如要搜尋精確的英文用法,專家會建議加上 “-site:jp -site:tw -site:cn”,意思是,搜尋所有文章但不含台灣大陸日本的網頁,這有點認真過度了,我想結果並不會相差那麼多。

反之,也可僅搜尋英國當地網域,加上 site:uk,代表英式用法。 


用 Google 搜尋學語言,還是有限制的,積非成是的錯誤,群眾智慧就沒輒了,有時還會推波助瀾,繼續擴大。諸如現代人常用的「梗」,依張大春考證確為「哏」字之誤用,搜尋「破梗」與「破哏」,數量是 5,060,000 與 1,790,000,「舖梗」與「舖哏」則是 3,560,000 與 1,200,000 之比,Google 反應的只是當下社會的習用語,但可不保證正確。


手邊有本前駐美大使陳錫蕃寫的《咬文嚼字話翻譯》(1998),隨手舉幾個例子,”Between You and I”,這是約定成俗的錯誤用法,文法正確版本應是受格 “Between You and Me”,搜尋前者,有 56,800,000 個網頁,後者僅有 4,770,000,原因是有首流行歌曲叫 “Between You and I”,Google 搜尋引擎可沒分辨能力。

Google 搜尋也沒幫你選字的功能,中文「常識」在英文裡有 “general knowledge” 與 “common sense” 兩種,用法不同。搜尋前者有 16,200,000 個網頁,後者則是 81,000,000 個,這兩組數字無法幫你判斷該用哪個,只能說兩者皆很常用。當然,一一讀完這些網頁,絕對可瞭解其間差異。

對相近的字,Google 搜尋也無能為力,中文的「驕傲」在英文至少有 proud, arrogant, haughty, disdainful, supercilious 等五個字,基本上越往後越負面越盛氣凌人。依序搜尋 “he is proud”, “he is arrogant”…,很有趣發現,越往後出現的網頁數越少,這數字代表什麼呢 ? 可能只是我們不習慣用太強烈的負面形容詞吧。 


Google 搜尋結果代表的是語料庫裡的正確性、普及度,與詞藻簡潔或優美也完全無關,舉英語寫作聖經《The Element of Style》(1918) 書中的例子來看,要「刪除無用字詞」(Omit needless words),“in spite of the fact that” 就是 although,但查詢前者有 59,100,000 個網頁,使用仍然頻繁;“owing to the fact that” 就是 because,前者也有 40,400,000 個網頁;“he is a man who…”,完全的贅語,一般不建議使用,卻有 202,000,000 個網頁( 2億! )。

期待資料庫教你寫作,實在太難為 Google,想當文學家,當出眾的人,就不能再參考依賴群眾了。



翻了下日本人寫的書,內容還包括如何搭配使用 Google 翻譯,例如先將一篇日文或中文文章在 Google 翻譯翻成英文,然後用 Google 搜尋,一一確認翻譯句型的使用頻率,邊搜尋邊局部修改 (!)。也許日本人不是最擅外語的民族,但發展工具書與建構方法論的勤勉,沒人比得上了。

這書還介紹了利用 Google 圖檔搜尋記憶單字的方法,例如 mischief (惡作劇),在 Google 搜尋圖片,出現的第一個圖檔如下,幫助記憶與聯想。 


搜尋 arrogance (傲慢),出現好多歐巴馬的圖。這樣記單字是有效率的。


沒想到記憶術裡的圖像記憶可搭配搜尋引擎,被發展成此地步,畢竟電腦試圖模擬的,原就是人腦的運作。

常想起小說《挪威的森林》中,阿綠問渡邊,「英文裡假設句現在式與過去式的不同對日常生活有何幫助 ?」渡邊說,「沒有任何幫助,但可以訓練我們更有系統地去處理事情,….因為我的直覺不如妳敏銳,所以需要訓練一些有系統的思考方式。…只要有徹底的訓練,有無用處是次要的問題。」


Google 好像把這樣的訓練過程變簡單了,我們不需記誦,只要 0.1 秒,系統化的結果就出現在螢幕,立刻能選邊站,加入多數陣營,不再有如履薄冰的囁嚅不安,這的確是我們所需要的。

只是當 “Work smarter, not harder” 的時代正式來臨後,世界不再是一分耕耘一分收穫,隱約裡,我們可能感到新的不安,開始懷念起在校園一隅,每天捧著單字簿背假設句,像渡邊那樣悶頭訓練自己的老實人。



2 則留言:

  1. 尤其在以圖像產生的意境來記憶英文字,真的受益良多.謝謝。share to fb~

    回覆刪除
  2. 感謝分享~獲益良多~

    回覆刪除