第二名漢語（普通話）

PǔTōNGHUà

13億使用者

以漢語（普通話）為母語的人大約有9億，比其他語言更多，此外還有4億人以之為第二語言。中國大陸、中國台灣、新加坡和馬來西亞是使用漢語（普通話）的主要國家及地區。過去，大多數華裔血統的移民使用普通話之外的其他漢語方言。今天，華人移民大多使用漢語（普通話）。

孔子自2004年以來，中國通過孔子學院積極推動漢語學習。截至2017年底，孔子學院在142個國家開辦了516家分支機構。按該機構的說法，此前13年裏，超過700萬名學生修讀了漢語言課程。從21世紀初以來，在這些機構之外，學漢語的受歡迎度也大有提升。

2 漢語（普通話）

神奇的漢字

如果說，西班牙語是本書介紹的語言裏最容易學的，漢語和日語恐怕要算最難學的。掌握漢語的聲調，需要堅持不懈的努力，而錯綜複雜的日語敬語，也不太可能一下子就變成你的第二天性。然而，要不是因為它們書寫係統複雜至極，它們大概不會躋身全世界最難學的語言之列。[1]在現代世界，再沒有其他語言係統需要小學生和第二語言學習者去記憶更多的書寫符號了。毫不誇張地說，漢字就像是圍繞漢語的長城——誠然不是堅不可摧，但絕對叫人望而生畏。日語使用的字符盡管較少，但也找到了增加複雜性的巧妙方法，我們將在本章附錄部分欣賞這一壯舉。

如今，在西方的餐館、報攤、互聯網、包裝材料，以及脖子、胳膊、腳踝、後背和人體其他部位（而且這種趨勢越來越多）上，西方人很容易看到漢字的身影。用漢字文身卻文出了意外的段子，這樣的笑料早已眾所周知：人們在他們的皮膚驕傲地宣稱“瘋狂腹瀉”或者“棺材老兄”，還有一些人認為文字符毫無意義，或根本是上下顛倒。好在全世界絕大多數人看不出其中的差別。

我們當然沒辦法認識數百甚至上千個漢字（這需要幾年的時間學習），但對其略知一二還是可行的。可不知什麽原因，哪怕經過了數百年的接觸，西方對中國文字的觀念仍然為誤解所纏繞。日語教授馬歇爾·安戈（J.Marshall Unger）曾寫過一本關於漢字的書，他說：“世界上恐怕沒有哪門學科像漢字那樣有這麽多錯誤信息在傳播，產生了那麽多的誤解。”讓誤解難以消除的關鍵在於，它們大多的的確確觸及了真相的核心。我會首先提到這些核心，接著剝去不準確的外殼。

漢字（或日語）文身太容易搞錯了。但上圖是沒問題的：這個字符的意思是“夢”或者“雄心”。

1.漢字書寫是從上至下的

真實的部分：傳統上，中文的確是按從上到下、從右到左的順序書寫的。如果沒有縱向空間（比方說某些牌匾上），單行的文字也會從右往左書寫。在今天的中國台灣、中國香港和海外華人社區，在報紙和書籍上從右向左縱向書寫的方式仍不少見。采用這樣排版的書籍，裝訂線也會在右側，就跟阿拉伯語和希伯來語書籍一樣。

在圖書的書脊上，標題從上往下書寫，每個字符的方向都是垂直的。這跟英語和其他歐洲語言的做法不同，後者的標題大多會旋轉90度：英語、荷蘭語和斯堪的納維亞語的標題大多按順時針旋轉，但法語和西班牙語的標題則通常逆時針旋轉，而德語似乎從來沒拿準過主意。

但不隻如此：如今，大多數中文都是從左往右橫向書寫和打印的。在中國大陸，別的順序幾乎找不到了；在其他地區，這種做法也越來越普遍。

2.漢字基本上就是圖畫

真實的部分：有些漢字是格式化的圖畫或物體，又或是相當直觀地形象化表現概念。用不著太多的想象力，就能琢磨出“人”字表現的是一個人的兩條腿，“二”字和它含義（兩個）之間的關係。雖說不太明顯，但我們很容易相信“木”字最開始是為了畫出一棵樹（這的確就是這個字的含義）的說法。另一些字符比較難以看出根源，比如“水”字。但有充分的曆史證據表明，它最初的起源符號，是一條蜿蜒的河流，並以四點水滴或漩渦為裝飾。

其他字符不是單一的象形文字或表意文字，而是兩個或兩個以上的偏旁合成。範例包括用兩棵樹（兩個“木”）表示小樹叢——“林”，三棵樹表示“大樹林”——森[2]。這一類字眼裏經常拿來做例子的還有“休”，意思是“樹蔭”或“休息”：在樹的左邊，我們看見了“亻”（它是上麵的“人”字符斜向一側）。那麽它想要表達的概念就是“人在樹蔭下休息”——這真是一個簡潔而動人的解釋，以至於許多專家認為它根本就是個故事。

現存為數不多的象形文字中蘊含著許多有趣的東西。據專家介紹，“蛋”的漢字“卵”所表現的東西，在阿拉伯語、俄語、西班牙語、德語和其他語言裏都稱作“子”（eggs），而在英語裏稱為“堅果”（nuts），但又不是從樹上長出來的物體。

出於同樣不太牢靠的研究，“母”字將“母親”或“女性”的概念簡化為一對立體派風格的胸部，並保留了完整的兩顆**。又或者，從童稚領域來到數學，讓我們猜猜“八”這個字為什麽是這個樣子。詞源學家都同意，這個符號最初的意思是“分開”。有人聲稱，“八”也由此有了數字“8”的意思，因為這個數字太好分割了——它甚至能均分三次，因為8=23。這難道不是個十分可愛的解釋嗎？然而，主流學派認為，在曆史上的某個時期，“分”和“八”的中文是同音字——也就是說，它們發音一樣。

還有一個由兩個象形符號組成的文字：兄（哥哥）。上麵的方形是一個常見的元素，意思是“口”，而頂著它的兩條腿，是“兒”字的變體。故此，“兄”就表示一個“有大嘴巴”的孩子。顯然，在這個定義裏，年長的兄弟就是對年幼弟妹發號施令的孩子。

但不隻如此：絕大多數（大約98%）的漢字不是象形文字或類似的表意文字。不管你怎麽使勁花時間觀察它們，也無法根據任何跟現實生活中的相似之處琢磨出它們的意義。如果你能，那你隻能感謝自己的創造力，因為它們並不是這麽來的。

3.漢字已經存在了3500年

真實的部分：現存最古老的漢字銘文可追溯到公元前1500年，而自此以後，漢語的書麵文字一直在發展，從未有過中斷。故此，這麽說是正確的：在中國，書寫已經存在了3500年甚至更久。因為從最古老的出土文物可看出，它不是發明家試探性的不規則塗鴉，而是出自一位自信滿滿、使用成熟係統的書寫者。

但不隻如此：現代漢語讀者無法理解這些古老的文字，因為最早的字符與今天完全不同（除了極個別的例外，比如“二”）。雙方的差異大到在發現了最早的銘文之後，學者們用了好長一段時間才弄清它們代表了漢語書麵文字。

但，且慢！如果漢語書麵文字有著悠久且從未中斷的傳統，那麽這本身不就證明了漢字已經存在了3500年的說法是正確的嗎？沒錯，這是一種闡釋方式。但要是按這種算法，拉丁文字存在的時間更長了——至少3800年，長可至5300年。這是因為拉丁字母從公元前1800年左右的近東地區（埃及或迦南）設計出第一套之後，同樣未經中斷地一直傳承下來。第一套字母表主要由埃及象形文字（準確地說，由埃及象形文字裏代表單個發音的一個小子集）構成。如果說象形文字可追溯到大約公元前3300年，照這樣算，拉丁文字就有5300年的傳承了。

誠然，這裏有一點不同：在中國，書麵文字和語言都經曆了同一個逐漸發展的過程，而“我們”呢，這種說法隻適用於書寫係統。從埃及到近東、希臘、羅馬，再到這本書，西方的書寫傳統從一種語言跳躍到另一種語言，甚至從一種語係跳躍到另一種語係，而且還跳躍了好幾次。

4.漢字有50 000個

真實的部分：50 000這個數字，大概是根據1076年、1716年和1915年出版的3部著名字典計算出來的，它們每一部所包含的漢字都在47 000～54 000個。迄今為止，包含了最多數量漢字的出版物是2004年在中國台灣出版的《中華異體字字典》（Dictionary of Chinese Variant Form），內中收錄了多達106 230個漢字。

但不隻如此：這些字典裏的許多字符僅在當地使用，或是特指高度專門化的含義，例如，隻跟帆船匠人或者竹笛演奏者相關的字。還有一些字符是其他較常見字符的罕見或非常古老的寫法。把它們都計算在內，就相當於說plough和plow（都是“犁”的意思）是兩個不同的英文單詞；thilke也是一個獨立的單詞，因為它在喬叟時代就存在了（它跟ilk相關，意思是現代英語裏的“that”或“those”）。在2004年的那部厚厚的大字典裏，最多隻有1/8的漢字今天還在使用。即便如此，這也並不意味著一個受過教育的中國人能認識13 000個漢字——哪怕他隻認識這個數字的1/4，也沒什麽可害臊的。不過，字體設計師必須確保所有的字都能打出來。

5.方塊字無從表明任何發音線索

真實的部分：方塊字不是可靠的、係統的發音指南。老師說，剛開始學習漢語普通話的學生，隻能一個字一個字地死記硬背正確讀音。

但不隻如此：大多數方塊字都包含了讀音線索。當然，不是所有線索都是正確的，而且這些語音線索也並不像人們想的那麽牢靠，但至少它有點用。讓我們用教科書最喜歡用的例子——“媽”字，來說明這是怎麽回事。這裏你必須知道的一點是，跟其他大多數方塊字一樣，它由兩個元素構成。其中一部分在本例中，最左邊的1/3是一個窄版的“女”字，意思是“女性”。這其實是“媽”字的來源，但還有一點必須要理解的是，如果某樣東西來自一個方塊字，它就不再是方塊字了。一個方塊字，包含兩個部首（characteristics），它寫在紙上，多多少少會變成方形，而且要發音。後者似乎是陳詞濫調，但其實反而是問題的核心：“女”字本身要發音，但變成窄版的“女”字旁之後，就不發音了。至於右側2/3的部分，是一個瘦版的“馬”字。

現在，如果你不熟悉中文書寫，你可能會懷疑“媽”的意思是“女的馬”，也就是“雌馬”。但這套係統不是這麽運轉的。處理這類複合漢字（中國人叫它“形聲字”）的正確方法是，找到一個詞，發音與它的一個組成部分相似，又有著與另一組成部分相關的含義。在本例中，“女性”元素給出了語義線索，“mǎ”元素提供了有幫助的語音信息：故此，待議方塊字的意思是“母親”，它的發音是/mā/，與“馬”相同，隻是聲調不同。

練習閱讀和書寫漢字靠的是重複、重複，不斷的重複。不過，如今人們越來越多地使用鍵盤來“寫”字了。

當然，中國讀者碰到“媽”字，不會每次都這樣解決這道謎題，他們打小就把它記住了，所以現在他們就是知道。但至少，這仍是一道待解的謎題，而且它有助於中國孩子和外國學生記住該方塊字。（順便說一句，這種複合字符還澄清了另一個常見誤解，也即“大多數方塊字並未透露其含義”。）

當然，對不是複合字的方塊字（比如“馬”字），這種方法就不夠用了，用語言學家莫大偉的話來說，它們“悄無聲息地在紙麵上坐著，威風凜凜”，“隻有通過無數個小時的重複練習，才能記住”它們的發音。它們的詞義也是一樣，除了那些給出視覺線索的方塊字。“馬”字其實給出了視覺線索，因為它是從一匹馬的形狀演變而來的。四條腿（馬）依然清晰可見，右下角的筆畫曾是一條尾巴。

這聽上去似乎很容易（雖然按我的猜想，恐怕沒幾個人會覺得如此），這套雙重線索係統還存在一些問題。其一是，哪一部分給出哪條線索並不清楚。在複合字裏，語義成分既可以在左邊（如“媽”的“女”字旁），也可以在右邊（如“汝”），還可以在下邊（如“婪”）、在上邊（沒找到合適的例子，女字似乎不得在上），甚至可以圍在裏邊（如“威”）。好消息是，語義線索的數量是有限的：大多數線索（包括“女”字旁），都屬於一份200來個偏旁部首的清單裏。[3]故此，除非一個方塊字同時包含了兩個語義成分（這種情況並不罕見），否則，語義線索是可以辨識出來的。

另一個問題是，方塊字的發音和它語音線索的發音之間，存在很大的可變性。有時，一切很完美，語音線索和實際發音一樣。還有一些狀況也可以接受兩者的輔音和元音都一樣，隻是聲調不同。“媽”就是這樣，它的語音線索（“馬”）發三聲，而不是一聲。但兩者的相似之處往往存在很大的闡釋餘地。“聞”就是一個很好的例子。我們看到下邊是一個微型的“耳”（它起源於一隻耳朵的圖畫），發音跟英語的ear非常類似，讀作ěr。它是“聞”字的語義元素，過去用來指“聽”，但現在意思轉移到了“氣味，嗅”，這種情況真是令人不解。這個字的上半部分是清晰可見的“門”字，如果作為獨立的方塊字，它讀作mén。但現在，它隻是個語音線索，而且還是個不合格的語音線索，因為這個複合字讀作wén。在曆史的某個階段，這兩個方塊字的發音大概更為接近，或許分別發音為/mu?n/和/miu?n/。不幸的是，它們漸行漸遠，給我們留下了一個非常不完美的語音線索。

這遠不是最糟糕的情況。還有些字的發音發生的變化太大了，根本無法識別出最初的相似性是什麽。一些人相信，“休”（“蔭涼”或者“休息”的意思）字背後的故事就是這樣：不是一個人在樹蔭下休息，而是某個發音上的相似性，隻可惜我們再也找不回來了。倒不是說這會削弱故事的吸引力，而是說，作為記憶工具來說，它沒那麽有用。

6.字就是詞

真實的部分：實際上，所有的方塊字都是有意義的，不像一些英語音節，比如der，本身並不表達任何意思，隻充當單詞的一部分（wonder、derby等）。許多方塊字，在漢語（普通話）裏都可以當作單詞使用，或作為複合詞的一部分。還有一些字，在現代語言裏已不再常用，但在漢語的地域變體或曆史變體中是常用的。

但不隻如此：大部分漢語（普通話）詞匯是複合詞，由兩個或兩個以上的方塊字構成。在今天的漢語裏，大約88%的詞語由不止一個方塊字組成。在正文中，兩個或兩個以上方塊字構成的詞語所占比例較低，因為代詞、介詞和其他虛詞等數量有限的單字詞語出現得非常頻繁。但在名詞、動詞和形容詞中，單個方塊字是極少的。

以“橡樹”一詞為例。第一個字“橡”可以單獨視為一個詞語，意思是“橡樹”或“橡子”；第二個字的意思是“樹”或“植物”。然而，一般來說，如果要指特定的這種樹木，人們通常會使用複合詞“橡樹”而非單字“橡”。這是因為，“xiàng”這個發音下還包含了其他很多含義，如“雕像”“朝向”“大象”和“脖子”（頸“項”）。不過，因為所有這些同音字都對應著不同的方塊字，故此，在紙上光寫個“橡”字也就足夠了，因為隻有它，指的是樹（或“橡子”，意思是“橡樹的兒子/或橡樹的蛋”）。換句話說，“xiàng”有很多不同意思的同音字，說話時必須要闡明澄清，故此，人們為它加上了“樹”。在書麵上，這不見得隨時需要，因為“橡”本身包含了所需的一切信息。但現代漢語（普通話）遵循口語，故此，“橡樹”這個詞用兩個方塊字來表示。不過，直到20世紀初，人們在書麵語言裏仍然經常省略“樹”字，因為它當時以古典漢語而非當代口語為基礎。

（順便提一句，請注意，複合字和複合詞是非常不同的兩種東西。在第5條之下，我們看到指代“母親”的“媽”字是個複合字，由一個語義成分加一個語音成分構成，但它不是一個複合詞，因為它隻由一個音節構成：mā。而在第6條下，我們遇到了“橡樹”這個複合詞。它由兩個完整的方塊字構成，而且兩者都需完整發音。構成這一複合詞的兩個字，同時也都是複合字，但這隻是巧合。）

7.所有的漢語分支，都采用相同的書寫方式

真實的部分：直到1956年，各種漢語地方語言的使用者都使用（幾乎）相同的漢字，並且通常有著相同的含義。故此，來自兩種不同漢語方言地區的兩個中國人（比如隻會說普通話的北京人和隻會說粵語的廣東人），就算他們聽不懂對方的語言，也能在書麵上彼此理解。漢語下的方言差異非常大，人們說不定很難辨識出某個具體的單詞，但隻要把它寫下來，問題就解決了。這就是為什麽華語電影要配上中文字幕，比方說，以粵語為母語的人就算聽不懂普通話，一般也能讀明白。

直到今天，情況仍然基本一樣，此外還多了另一個便利因素：所有人都在學校裏學過普通話，因此，就算不會說普通話的人，也能讀懂普通話。我們不妨用口音差異極大的英語母語人士，比如說阿巴拉契亞美式英語和說利物浦英式英語的人來做個比較。要是他們碰到理解障礙，也會把自己說的話寫出來以澄清問題。當然，漢語普通話和粵語之間的差異比英語任何兩種地方口音的差異都要大得多。

普通話（加英語）字幕是中國電影的標配。這是中國台灣地區的一部浪漫喜劇片，名叫《我的蛋男情人》（又名《愛情凍住了》），主角是一名廚師和他的狗。

但不隻如此：漢語的不同方言，在書寫時存在一些語法差異，比如詞序和助詞的使用。此外，一些方言，尤其是粵語，也針對普通話裏沒有的詞語發展了特殊的方塊字。另一方麵，漢語的大多數方言很少會被付諸書麵。

更重要的是，1956年之後，中國大陸簡化了數千個漢字。與此同時，中國的香港和台灣地區保留了傳統的繁體字。許多簡體字的字形，跟繁體字不一樣，有些人認得其中一種，但無法輕鬆認出另一種。

不過，總體來說，有關書麵漢語的這個普遍觀點，比本章所羅列的其他觀點更站得住腳。

8.方塊字很適合用來玩文字雙關遊戲

真實的部分：漢語普通話是玩文字雙關遊戲的理想語言，因為它蘊含著豐富的雙關語資源：同音異形（義）字。

但不隻如此：玩文字雙關遊戲的絕佳機會，並非來自方塊字，而在於除了方塊字之外的讀音。在書麵上，漢語（普通話）裏的大多數同音異義詞很容易區分。隻要寫出來，“the duck who orders a beer and tells the bartender ‘to put it on my bill’”[4]這樣的雙關笑話就根本站不住腳了，因為兩個聽起來同音的單詞（如上文例子中，表示“喙”的bill和代表“賬單”的bill），是用不同的方塊字來表示的。

另一方麵，在漢語（普通話）中，你偶爾可以使用一個不正確的方塊字，與你打算說的那個字是諧音字，但仍能傳達信息。這就像把The New World寫成The Gnu Whirled一樣，計算機會被卡住，但大多數人類讀者不會，至少不會卡太久。

9.那有沒有可能拋棄方塊字呢

真實的部分：不可否認，學習讀寫方塊字比學習字母表要花更多的時間，不光把漢語當作第二語言的學習者是這樣，對以漢語（普通話）為母語的人來說也是這樣。

但不隻如此：就算能證明轉換到拉丁字母表是一樁極度有益的行動，事情也很難按這個方向發展。這倒不是因為中國文化特別保守（如某些東方學的陳詞濫調所說），這是因為所有的文化在書寫方麵都是保守的。哪怕是極小的拚寫改革，也會激發強烈的情緒。重大改革隻有在革命時期才會出現——比如凱末爾領導下的土耳其。

中國人堅守他們“糟糕的書寫係統”（這是《美國高等教育紀事報》的評價），會不會也有正確的地方呢？替代方塊字最顯而易見的選擇是拚音，這是1949年之後設計出來的一套拉丁音標係統，學習漢語（普通話）的學生（他們使用拚音主要是為了找出方塊字的發音）和母語人士（主要用於電話和計算機上輸入方塊字）對它都非常熟悉。盡管拚音煞費苦心地標明了每個音節的聲調，如著名的四胞胎mā、má、mǎ、mà，但它無法區分大量的同音異形字，也即發音（包括聲調）完全相同隻是寫法不同的字。故此，拚音會比方塊字的書寫方式造成更多的誤解。

照道理說是這樣。但且慢，別著急下結論：拚音裏有一樣方塊字嚴重缺乏的東西，那就是空格。在漢語（普通話）裏，我們所說的同音異形字，大多是發音相同的音節，而非詞語。用方塊字書寫時，一個字到底是單獨的一個詞，還是一個更長詞語的一部分，並不太明顯。而在拚音裏卻沒有這樣的歧義。早些時候，我們提到“xiàng”可以是“橡”“像”“向”“象”和“項”，但實際上，漢語（普通話）人士並不光說一個“xiàng”來指代上述任一概念。他們更常用“xiàngshù”來指代“橡樹”，用“dàxiàng”來指代“大象”，“jǐngxiàng”指代“頸項”，“diāoxiàng”指代“雕像”，“fāngxiàng”指代“方向”。漢語拚音可以立刻把這些詞識別出來，而在方塊字文本中，它們有可能隻是兩個碰巧挨在一起的字而已。故此，拚音產生歧義的餘地，比乍看起來要小得多。漢學家威廉·漢納（William Hannas）引用漢語語言學家的說法，指出隻有不超過1%的漢語詞語是同音異義的。他們發現了70個單音節詞語，總共有164種不同的含義，有可能造成真正的混淆，以及39個同音的多音節詞語，涉及82種含義。考慮到拚音是一種高度規律化的拚寫係統，發音具有二重性的詞語（也即同音異義詞），寫起來也一樣。

然而，這個問題很容易解決。歐洲語言也有同音異義詞，想想英語裏的there、their和they’re（“那兒”“他們的”和“他們是”）， rode、road和rowed（“騎”“路”和“劃槳”）， here和hear（“這兒”和“聽”）。漢語（普通話）的同音字很容易通過書寫區分，比如加上一個不發音的字母等方式；morning（早晨）和mourning（哀悼）就是這樣用不發音字母“u”來區分的。當然，這種輔助工具會提高孩子們學習拚音的難度。不過，跟記住方塊字比起來，這還是太簡單了。

甚至，根本就沒必要增加這種額外的輔助工具。越南語同樣有許多同音異義詞。跟拚音不同，越南語甚至根本不對詞語的界限做標記，因為音節通常都是分開書寫的。即便如此，越南人似乎也對自己的書寫方式感到滿意。

10.現在，你已經知道關於方塊字的所有知識了

恐怕並非如此。方塊字跟其他書寫係統的差異太大了，它們帶來的問題，比我在這短短一章篇幅裏能回答的要多得多。例如：在字典裏，你會怎麽按照某種順序（請注意，我在這裏沒有使用“字母順序”）來排列方塊字所寫的詞語呢？（它涉及數筆畫。）不把文字寫出來，你怎樣區分口語裏的兩個同音字？（提及使用該方塊字的一個常見詞語，類似“‘重量’的‘重’，不是‘種植’的‘種’”。）介紹一個方塊字卻不把它寫出來，這能做到嗎？（筆畫本身有名字，但更常見的做法是將方塊字的兩個組成部分拆開來說，如本章第5個問題中所探討。）布萊葉盲文怎麽表現漢字？（用布萊葉盲文寫拚音。）等等。

一經掌握，漢字可發揮出無限的創意用途：樂高玩具稍有挑戰性，咖啡拉花師傅能為自己的藝術找到無限新思路。

此外，還有很多其他的迷思，包括：“每個方塊字代表一個音節”（例外的情況有數百個，但官方並不接受大多數的例外），“人們不再創造新的方塊字”（並非如此，人們仍在創造新的方塊字，有些是正式的，有些是臨時性質的）。此外還有一條：“日語同樣是用漢字書寫的”。

真的嗎？這是個值得單獨用上一章來探討的問題。

附錄　再談日語

一套缺乏係統的書寫係統

如果倫敦的國王十字車站可以有一個9?號站台（真的不隻是在小說裏），一本書當然可以有一章叫2b吧？我在這裏插入一章的原因是，在進入世界上使用範圍最廣的語言之前，我想再談談另一位小號巨人——日語。這種語言有一個與眾不同的地方，它的體係（既非魔法也非虛構）絕對比任何咒語、詛咒或魔符都更難學、更繁複。這裏，我說的是日語的書寫。我沒有在“第13名日語”一章中討論它的原因在於，它以中文方塊字為基礎，我們前麵已經看到過，這本身就是一項很大的挑戰。

“以中文方塊字為基礎”，不應闡釋為“跟中文方塊字幾乎相同”，因為日本文字比漢字有著更多的死結和疙瘩——多到人們普遍認為，日語的書寫係統是目前最為複雜的書寫係統。那麽，就讓我們直接走近這堵看似不可逾越的日本文字之牆，看看我們能不能神奇地翻牆而過吧。

日語裏的漢字（Kanji）以及它們怎樣發音

日本最早的文本完全用中文方塊字書寫，它是公元5或6世紀由韓國學者引入的。和不再使用漢字的越南語和韓語不同，日語從未替換漢字，而是增加了一些插件。建立在中文方塊字基礎上的書寫係統，絕不可能簡單。但由於日語和漢語（普通話）在結構與基本詞匯上都有著根本性的不同，漢字本來並不特別適合日語。故此，用漢字書寫，對日語產生了深遠的影響。

那麽，日本人決定使用中文方塊字之後（也叫作“漢字”，日語發音為“kanji”[5]），發生了些什麽情況呢？首先，漢字的發音線索喪失了。如我們在前一章所見，大多數漢字由語義和語音成分（為讀者提供了解其意思和發音的線索）組成。在日語裏，語義成分保留得很好，但語音部分就不行了。畢竟，這些字符現在要用來表示日語而非漢語單詞，在一種語言裏發音相似的詞語，在另一種語言裏可不見得非得發音相似。跟我們回到經典的例子：如果“媽”字在外形上借用了“馬”，這是因為在漢語（普通話）當中，“媽”和“馬”這兩個詞的發音類似，可在英語裏，它們發音一點也不像——在日語裏也一樣。故此，跟漢語比起來，孩子和外國學生更難於記住日語裏漢字的視覺形象和正確的發音關係。為了讓書寫變得更容易，第二次世界大戰後的若幹屆政府都公布過“常用漢字”名單，規範漢字的書寫，限製漢字的總數量。即便如此，如今的常用漢字仍然多達2136個。在實踐中，至少還會用到另外1000個漢字。

那麽，學日語的學生必須掌握全部2136個漢字的正確發音嗎？如果隻需要學這麽多個，那就好了。許多漢字都有不止一個“讀音”，通常其中隻有一個是真正的日語。例如，“手”可以發音為/te/，這是本土日語讀法。但在複合詞“著手”（按字麵意思是“touch hand”，意思是“開始”）中，第二個漢字的發音是/shu/而不是/te/。/shu/來自幾百年前的漢語發音，也就是這個詞被借用到日語中時的發音。這個詞的前半部分“著”，發音是/chaku/，來自一個早已過時的漢字發音/chak/。但還是老樣子，這個漢字也可以代表一個本土日語單詞，如在複合詞“著物”（“kimono”，字麵意思是“穿在身上的東西”）當中，它發音為/ki/。

“chakubutsu”是怎麽幾乎成了“kimono”的

日語裏每個漢字都有兩種完全不同的發音，一種是本土的，另一種是輸入的。挺糟糕，是不是？但實際情況比這還要糟糕。一些漢字的本土讀音不止一種，而是兩種，甚至更多。更重要的是，很多漢字是從中國的不同時期和不同地區不止一次借用而來的，於是有多種不同的發音。這2136個“常用”漢字雖說不是個個都有多種發音，但很大一部分都有兩種日常使用的發音，在專業術語（比如佛教著作當中）裏還有另外一兩種發音。例如，漢字“泳”，意思是“遊泳”，它有一個本土發音，用拉丁方式拚寫為OYO，而來自中文的發音是EI。在“泳ぐ”（動詞，“遊泳”的意思）裏，它讀作“OYOGU”，而在“泳法”（遊泳姿勢）中讀作“EIHō”。如果用英語來舉例，那就像是“swimming”（指遊泳這一行為）和“natation”（指遊泳姿勢）的拚寫方式一樣。有些漢字以讀法眾多而著稱，這方麵的紀錄由“生”字保持，它有10多種讀音，光是在日語本土單詞中就有9種，還有更多種借用自中文，其含義極為豐富：從“出生”到“生絲”，甚至“學生”。

這一切意味著，閱讀日語是一個持續不斷的決策過程：發音要根據語境來判斷。“著物”一詞讀作“kimono”，也可以讀成/chakubutsu/，但讀成後者，它就不傳達任何意義；讀者必須讀成/kimono/，它才表示“著物”。英語裏也有幾十個必須通過上下文來推斷正確發音的單詞。它們叫作“同形異義詞”，其中包括sewer（可以分別跟lower和viewer押韻）、sow（可以分別跟cow和low押韻）、著名的read（可以分別跟bead和bed押韻），以及為祝福我們本章的主人公，sake（可以分別跟make和Iraqi押韻）。但在英語裏，一般的文本很少會出現這樣的陷阱；而在日語裏，絕大多數漢字都有著不同的讀法。

是我說得太難，而實際上沒那麽難嗎？畢竟，每當“手”是一個單獨的詞語時，它就讀作/te/；而在複合詞“著手” （/shuchaku/）就讀作/shu/，因此最好關注整個詞語而非單個字符。在英語裏，多多少少也是這麽做的，我們不知道“cha”這3個字母怎麽發音，除非我們在單詞裏見到它：是CHARACTER（性格，/?k?r?kt?r/， cha讀作/k?/）、CHAPTER（章節，/?t??pt?r/，cha讀作/t??/）、CHAMPAGNE（香檳，/??m?pe?n/， cha讀作 /??/）、CHAOS（混沌，/?ke??s/， cha讀作/ke?/）、CHAFE（摩擦， /t?e?f/， cha讀作/t?e?/）、CHAISE（雙輪馬車，/?e?z/， cha讀作/?e?/）、CHA-CHA（恰恰舞，/?t?ɑ? t?ɑ?/， cha讀作/t?ɑ?/）、CHALK（粉筆， /t???k/， cha讀作/t??/），還是GOTCHA（明白了，/?ɡ?t??/， cha讀作 /??/）（甚至CHANUKKA或者CHALYBEATE）？沒錯——隻不過，日語不像英語和其他大多數語言那樣，在單詞之間有界限：日語裏沒有空格。這也就是說，兩個相鄰的字符可能屬於同一個詞語，也可能不屬於同一個詞語。盡管如此，任何有經驗的日語讀者仍能分辨出哪些字符屬於同一個詞語，哪些不屬於，隻不過，這需要密切留心上下文。讀日語就跟讀包含了大量SEWER、READ、SOW和SAKE的英語句子一樣。

來個快樂的詞尾

盡管2000多個漢字是最難掌握的部分，但日語的錯綜複雜程度可不隻如此。漢語裏，單詞沒有語法結尾，故此，也就不需要漢字來書寫。反過來說，日語有很多詞尾，作者們很早就注意到，忽略詞尾，會讓日語文本近乎無法理解。該怎麽辦呢？

他們最初嚐試的解決方法是使用一個發音聽起來像是結尾的漢字，不管它到底是什麽意思。為更好地理解這在實踐中是什麽樣子，這裏不妨想象一下我們用英語做同樣的事。我們的語言也有一些語法結尾，比如-ing，故此，要是我們出於某種曆史偶然采用了漢字書寫，我們也會產生跟日本人同樣的需求。那麽，我們該怎樣書寫有-ing詞尾的單詞呢，如buying？“buy”本身是“買”（日語裏“買”的漢字寫法，漢語普通話的發音是mǎi，但在此處並無關係）。-ing部分有點成問題，因為沒有哪個漢字發音是/ing/。但借用一種外國文字必然會涉及一定程度的妥協，所以，我們找一個發音是/ying/的字來對付著用：矨（而且完全不管它在漢語裏是什麽意思）。故此，買矨就成了“buying”的正確拚寫。

說回日本，這種早期的解決方法有兩點不便之處。首先，它使人難以判斷一個漢字到底是代表它通常的含義還是僅僅是為發音而用。日本作家和讀者已經習慣了大量的歧義，所以，要不是因為第二點不便，他們恐怕不會太過在意這個問題：一遍又一遍地添加複雜的字符，卻僅僅是為了一個詞尾，這是件繁複的苦差事。在我們虛構出來的例子裏，矨或/ying/這個字符由9個筆畫構成，其他許多字符的筆畫還要多得多。

很快，書寫者們就想到了點子：簡化字符，隻保留語法功能，這樣它們就跟真正的漢字有了區別。這種做法，一筆（這是個比喻說法，雖然由此產生的符號遠比最初的漢字簡單，但大多數符號還是由若幹筆畫構成）解決了上麵的兩個問題。

今天，這些簡化的符號統稱為假名[6]。雖然它們的形式和用途隨著時間的推移發生了改變，但它們仍然是日語書麵文字的重要組成部分，僅次於漢字。從嚴格的實用角度來看，日語光是用假名就足夠了，因為口語的每一個詞語和句子都可以用假名書寫，[7]不需要使用任何中文字符。1945年—1965年間，日本政府及語言委員會有意完全廢除漢字。但文化視角與嚴格的實用角度很不一樣，文學作家們成功地扭轉了委員會的立場，進而影響了政府的態度。如今，在日本人眼裏，一個人要是完全用假名寫作，是缺乏文化修養的表現。情況並非一貫如此：雖然傳統上，漢字擁有更高的聲望，但1700年前的某一段時期，隻使用假名寫作，會讓作者顯得像是個文化水平極高的……女性（我們在第13章中看到的日語性別差異，也包括了當時的書麵語言）。由漢字簡化而成的假名，如今叫作平假名，是日語目前使用的兩種假名係統中的一種。

不同的場合使用不同的書寫方式

等一下，兩種不同的假名？但我剛才不是說，每一個日語單詞，光用假名就夠了嗎？沒錯，我的確是這麽說的。可日語還是有兩種不同的假名：平假名和片假名。它們的樣子幾乎完全不同，但代表的卻是完全相同的聲音。46個平假名符號每一個都有對應的片假名，反之亦然。它們的區別（就跟字母表裏的大小寫字母的區別一樣）不在於發音，而在於外表和功能。

從外表上說，平假名之所以叫作“平”（取其“光滑”之意）是有原因的。它的形狀不是棱角分明的，而是彎曲的。它們帶給書麵日語獨特的外觀：中文是絕對印刷不出來つ、の或者お（分別讀作/tsu/、/no/和/o/）的。片假名符號在中文裏也不存在，但在他們眼裏並不那麽紮眼：剛才那三個平假名對應的片假名分別是ツ、ノ和オ。它們之所以稱為“片”（取其“部分”之意），是因為它們取自其漢字源頭的一部分（片段）。例如，“オ”來自“於”的左半部分。平假名的起源與此類似，但它以漢字草書為基礎，而非印刷的方塊字。

在功能上，兩組假名也明顯不同。平假名扮演了我們之前討論過的重要角色，它闡明了詞尾的語法（當結尾表示單詞界限時，它也在某種程度上彌補了單詞之間沒有空格的問題）；當字符由於某些原因使用不便時也會用平假名來代替，可能因為書寫者不知道正確的字符，也可能是讀者（例如兒童）無法識別它；平假名還會被用來書寫沒有字符的單詞；最後，平假名有時會作為一種閱讀輔助工具被放置在漢字旁邊——有一個叫FURIGANA（“指出假名”）或YOMIGANA（“讀出假名”）的練習就突顯了字符的可有可無。

日語鍵盤聰明極了，你可以輸入平假名或羅馬字母，它們會把單詞轉換成你想要的任何形式：片假名、平假名甚至是漢字（但如果是漢字的話，一般需要你在若幹個同音字裏進行選擇）。

另一方麵，片假名的作用是標記我們認為“困難而陌生的單詞”，讓它們變得容易理解。這類詞來自除了中文之外的外語，通過借用或單純引用進入日語，如技術和科學術語，包括物種和礦物名稱；以及“boom”（嘣）和“swoosh”（嗖）等擬聲詞。片假名還可以用來強調一個詞語。一言以概之，平假名是一種語法和發音輔助手段，片假名在功能上跟我們的斜體字類似。

優雅和不那麽優雅的雜技

假名係統的美妙之處在於，每個符號代表一個音節[8]。問題是，在現代日語裏，有超過100個不同的音節，而假名數量僅為46個，外加額外的一些符號。兩者的不匹配，靠著正字法雜技解決了，隻是姿態並不都足夠優雅。

嬌小的變音符完成了大部分工作，尤其是符號右上角的兩種短筆畫（在日語裏叫DAKUTEN，通俗地說也就是“點”）。它軟化了輔音，或者用更專業的說法是，它“增加了聲音”。故此，か發音為/ka/（清音），而加上點之後，變成了が，發音是/ga/（濁音）。此外還有一種符號叫作“圈”（handakuten），會以不同的方式改變輔音。

比這些日文變音符更糟糕的是：“一個假名，一個音節”的規則，碰到元音和輔音之間還有個/y/音節的時候，就會失效，比如 /kya/，它寫作きゃ，明顯包含了兩個元素。但嫻熟的日語讀者這時隻看到一個假名：右邊的符號比左邊小，故此被視為左邊符號的一部分。換句話說，這兩個元素共同構成了合成符（或連字），跟英語裏的ch很像。合成符由兩個符號組成，但代表一個聲音，有若幹種語言（包括日語，但不包括英語）都將它們視為不可分割的整體。

Irashunal, shaw（不可理喻？的確）

2000多個漢字（其中大多數有一個以上的發音）；兩套假名，各由100多個基本和複合符號構成，有時還會跟漢字並置——這顯然足以讓日語贏得“全世界最複雜的文字”稱號了。但我們還沒說完呢。

對我們大多數人來說，日語文本是一大片無法理解的海洋，有著幽暗的漢字波浪，以及顏色較淺的假名波峰。但每隔一陣子，我們又會看到一些熟悉的東西。首先是數字。更出人意料的，還有羅馬字母。日語記者、博主、電子郵件寫手和其他作者都覺得，偶爾加入用羅馬字（他們這樣稱呼我們的字母表）寫的詞語完全是小事一樁。畢竟，他們的讀者已經掌握了有這麽多發音的符號，再加一份小小的附錄（也就是我們的26個字母）也算不上什麽。大部分用拉丁字母所寫的單詞，都是首字母縮寫，有些是國際通用的，如km（千米）、CD或**S（短信），有些是基於英語的日語創作，如OB和OG（分別指男校友和女校友）， OL是“office lady”（白領麗人），也即在辦公室工作的女職員。

還有另一項複雜的因素：日文可以垂直書寫，此時豎直方向可以從右至左排列，或是在水平方向上從左到右。這也就是說，有些日語書籍是朝左邊翻頁的，跟歐洲語言一樣；另一些日語書籍卻是朝右邊翻頁的，跟阿拉伯語和希伯來語一樣。

我可以再問一次，為什麽這套複雜的書寫係統還沒有得到合理的重構？答案跟前文一樣：修補書麵語言，不管是拚寫規則還是文字選擇，都會喚起我們大多數人的保守反應，這種反應，隻有碰到巨大的社會動**時期才可能被克服。19世紀後半葉到20世紀上半葉，好幾個組織都發起了假名或羅馬字母運動，但都徒勞無功。到20世紀40年代末，研究得出了明確的證據，采用羅馬文字的教科書不會影響小學生的成績，甚至還可能提高成績。由於這一結果有悖於研究人員的預期與期待，立刻被雪藏起來。不可理喻是嗎？的確。但正如我們所見，語言事關國家認同和文化。

[1]　也可能仍然會。如果漢學家莫大偉（David Moser）的看法信得過，那麽漢語（普通話）絕對難學。請務必去讀一讀他那篇極為有趣的文章——《為什麽漢語這麽難學》：http:// bit.ly/MoserMandarin。——作者注

[2]　有許多漢字，據說是有意義的，但至少在現代漢語裏，它不是一個獨立的詞。“森”字就是其中之一。英語裏也能找到同一現象的一些例子：“were”在“werewolf”一詞中的意思是“人”；“quickly”裏的“ly”，源自一個意思是“身體”的單詞；“receive”和其他一些動詞裏的“ceive”，據說曾經意味著“攫取、抓住”。有些語言學家喜歡在語言學裏使用行話，他們把這些單詞元素叫作“黏著語素”（bound morphemes）。——作者注

[3]　嚴格地說，這份包含201～214個詞條的清單裏羅列的是“部首”，部首跟語義成分不是一回事，但就當前的目的而言，它是個足夠好的近似品了。——作者注

[4]　按照字麵直譯，這句話的意思是：“鴨子點了一杯啤酒，對酒保說：‘記在我賬單上。’”

[5]　在本章中，我會交替使用“字符”和“漢字”。我不會用“字符”來指代書麵日語裏的其他元素。——作者注

[6]　假名可以指單個符號（一個“字母”），也可以指單個符號所屬的整套符號（也可以說是“字母表”）。——作者注

[7]　在書麵日語中，有許多從漢語借用來的字詞隻能從書寫上區分，它們的發音相同，但漢字寫法不同。也就是說，除非上下文提供足夠的線索，否則，大聲朗讀時，它們可能會讓聽眾感到困惑。有人認為（比如我），讓聽者感到困惑的句子往往代表寫得糟糕。從這個角度看，如果漢字的作用隻是為了區分發音相同的詞語的意思，那它對日語可謂弊大於利。——作者注

[8]　從技術的角度說，它構成了音節表，就像我們在前文看到的印地語文字一樣。但更嚴格地說，它又不是音節表，因為一個符號並不代表一個音節，而是一個音拍（mora），它指的是時間的語言單位。大多數日語音節都跟音拍一致，但有些以輔音或長元音（用拉丁文寫的長音符號是：ā、ō）結尾的詞，是兩個音拍，故此，Nippon由兩個音節組成，但每一個音節分別是兩個音拍；Tōkyō也一樣。日本人的假名靈感來自梵語所用的婆羅米文字（其中每個符號代表一個音節）。梵語是印度佛教典籍使用的語言。——作者注

第二名 漢語（普通話）

第二名漢語（普通話）