中大研發系統改簡體字錯字粵語 年內開放公眾使用

中大研發系統改簡體字錯字粵語     年內開放公眾使用
Photo Credit: 中文大學

我們想讓你知道的是

系統能為每個錯別字和粵語口語提供修正建議,更可為部分粵語用法提供對應的中文解釋。

錯別字、簡體字、倒裝用法,這幾個網路編輯經常犯的錯誤,網民一定不會陌生。中文大學系統工程與工程管理學系的研究團隊研發了一個「錯字和粵語檢測系統」,原意是提升學生的中文寫作能力,系統在測試期間表現令人滿意,並會進一步把系統轉化為辦公室軟件的插件,開放予公眾使用,有望提升編輯們的中文寫作水平。

「錯字和粵語檢測系統」由中大系統工程與工程管理學系黃錦輝教授及其研究團隊開發,是全港首個加入粵語元素的「錯字和粵語檢測系統」,也是唯一專為香港學生打造的自動中文檢測系統。

在網絡時代,很多人都慣以各式各樣口語、縮寫、諧音,甚至中英及符號夾雜的文字與人溝通,研究團隊有見於部分學生的書面語表達能力因而受到影響,遂透過大量粵語數據挖掘、深入計算和分類技術,研發「錯字和粵語檢測系統」。

目前,此系統應用於香港中小學生的中文作文,一篇幾百到一千字文章,只需數秒時間便可完成分析。大多數錯別字會被標示出來,誤報率也極低。此外,系統能為每個錯別字和粵語口語提供修正建議,更可為部分粵語用法提供對應的中文解釋。

系統獨有的「粵語檢測模組」是用以檢測字句中有否粵語的口語用法,例如將「喜歡」寫作「鍾意」。模組是建基於一個龐大的粵語詞語字典庫,內含約12,000個詞語,現時仍在不斷擴充及優化中。模組還配置一個構造規則庫系統,經參考多份文獻後,以粵語語言規則和詞性標註(Part-of-speech tagging),構造了多條規則,適用於基本的粵語句子結構。系統還可以檢測量詞的用法是否正確,例如「一條魚/一尾魚」、有否輸入了簡體字,以及倒裝用法,如「緊要/要緊」等。

團隊開發的系統以大數據(Big Data)及深度學習(Deep Learning)為基礎,配合演算法,能識別句子中的不恰當的口語與倒裝用法。團隊亦建構了一個包含60,000多個中文字的混淆集,通過評分的機制,從而提議最合適的替換字詞。

中大表示,系統將逐步開放予全港中小學校使用。此外,研究團隊計劃在本年內將系統轉化為辦公室軟件(如MS Office)的插件,開放予公眾使用。


猜你喜歡

Tags: