談機器翻譯

機器翻譯正式應稱為 Fully Automated High Quality Machine Translation,理論上只要輸入原文,軟件即可以自動把文章翻譯為指定的語言,譯文的質量為讀者接受。一般來說,要讓機器翻譯軟件(例如 Google Translate)順利翻譯一篇文章,用戶需要事前把文章大肆稍作編輯,或在軟件完成翻譯後,把句子修改得體無完膚流暢、通順。然而,這種做法並非機器翻譯,機器翻譯(FAHQMT)的重點是翻譯前後均完全不經人手編輯,而得出讀者可接受的譯文。

機器翻譯的概念

雖然這系列的文章主要討論「機助翻譯」,但我認為我仍需稍微介紹機器翻譯的歷史。

De toren van Babel, Pieter Bruegel de Oude (circa 1565)

機器翻譯的理論,建基於一個「大同語言(Universal Language)」的概念,相信聖經的朋友可以把這語言理解為人類建造直達天庭的巴別塔前,大家都在說的語言(請自行參閱創世紀)。機器翻譯的基礎,就是只要把我們各式各樣的「方言」先轉譯為「大同語言」,便可以再翻譯為其他「方言」。

機器翻譯的歷史

二戰時,解讀諜報的方法成為機器翻譯的基礎

密碼學(Cryptology)與機器翻譯的發展有相當密切的關係,美國數學家瓦倫·韋弗(1894-1978)是機器翻譯的早期研究者之一,他在 1949 年的備忘錄(「Translation」)中首次建議把電腦運用在翻譯上,他的根據包括信息論、二戰時期的密碼破譯史以及「大同語言」這個理想。

When I look at an article in Russian, I say “This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.”
Warren Weaver, 1947

當我看著一篇以俄羅斯文寫成的文章,我說:「這是以英語寫成,但卻以古怪的符號加密。我現在需要把它解碼。」
瓦倫·韋弗(1947)

二十世紀四十年代末,Bell Telephone Laboratories 的 Claude Shannon 提出有關語言的數學理論,而追本溯源則是溝通中所出現的統計學特徵,「統計語義學」正是由此發展出來的學科。

現在的主流研究都集中在「統計機器翻譯」「以範例為基礎的機器翻譯」,有興趣可以自行前往 Wikipedia 看那裏的文章。

機器翻譯的應用

Screen%2520Shot%25202011-10-01%2520at%25208.05.21%2520AM.png

一些要提供大量文字支援給用戶的企業(例如 Microsoft)均會在網頁上運用機器翻譯,按用戶需要把文字轉換為不同的語言,減省聘用翻譯的成本。以 Microsoft 為例,雖然這支援頁不少內容均以機器翻譯,不過部分內容其實仍由人手提供。參考 Microsoft Translator 提供的機器翻譯文章,可以看見機器把「Collapse All」翻譯成「所有人都崩潰」。

Screen%2520Shot%25202011-10-01%2520at%25208.30.26%2520AM.jpg

由此可見,例如 Collapse All 一類的字眼 Microsoft 應該早有定譯,版面直接從資料庫提取該批特定字眼,自動轉換版面文字(例如 Collapse all 變為「全部摺疊」;文章的其他內容則由機器翻譯提供。不過略過這些不重要的資訊,光看機器翻譯出來的內文,跟者上面的步驟,其實也可以解決用戶面對的難題。

在政府機關方面,美軍在 1970 年代引入 Systran 把俄羅斯軍事科學及技術文件翻譯成英文,據稱譯稿的準確性達 90%;另外,歐洲最大的翻譯機構--European Commission 在 1976 年開始以機器翻譯把英語翻譯為法語,現在機器支援的語言更包括歐盟內的所有語言。(John Hutchins, 1998)

機器翻譯出來的文章可否接受,實際上視乎你對文章的要求。如果你只是正在瀏覽一外地網站,只想簡單知道文章的大概,其實機器翻譯絕對可以幫助你。但若你要引用機器翻譯的文章、直接把文章送往出版社,則可能不能為人接受。

Warren Weaver 在 1949 年的備忘錄中說:

“Perfect” translation is almost surely unattainable. Processes, which at stated confidence levels will produce a translation which contains only X per cent “error,” are almost surely attainable.

我們幾乎可以肯定(通過機器翻譯)無法獲得「完美」的翻譯。但若要求機器翻譯出只含百分之X錯誤的文章,這可以說是絕對能做到的。

《機助翻譯系列》之二

參考資料

Hutchins, J. (1998) The development and use of machine translation systems and computer-based translation tools in Europe, Asia, and North America. [Online]

Weaver, W. (1947) Warren Weaver and Norbert Wiener correspondence 1947. [Online]

Weaver, W. (1949) Warren Weaver Memorandum. [Online]

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s