繁簡轉換函式庫 追求正確率 先解析詞性再繁簡轉換 繁體中文↔簡體中文轉換 Chinese converter between Traditional Chinese and Simplified Chinese.
npm install cecc





幹,形容詞用乾。
cmd
pip install ltp
pip install tornado
pip install fire
`
3. Upgrade LTP:
`cmd
pip install --upgrade ltp
`
$3
Install Node.js, and then install cecc:
`bash
npm install cecc
`
Usage
1. 直接下載 LTP server 原始碼並改 'small' 為 'base'。
2. 啟動 LTP server,預設為 http://localhost:5000/ 。您可能需要 6 GB 記憶體來啟動 server。第一次執行需要下載超過 500 MiB 的辭典檔。
3. Try codes:
`javascript
// load module
const CeCC = require('cecc');
// chinese_converter
const cecc = new CeCC({ LTP_URL : 'http://localhost:5000/' });
cecc.to_TW('简体中文');
cecc.to_CN('繁體中文');
`
4. 完整測試。
`sh
# 重新生成 .converted.* 解答檔案。
npm test regenerate_converted
# TODO: 重新生成所有詞性查詢 cache。
npm test ignore_cache
`
Mechanism 文字替換機制
1. 若有符合附帶詞性辭典檔的文字,則依之變換。其他未符合的交由 CeL.extension.zh_conversion 處理。
2. zh_conversion 基本上採用 OpenCC 的辭典,並以 generate_additional_table.js 合併新同文堂和 ConvertZZ 的辭典檔成 additional.to_TW.auto-generated.txt 與 additional.to_CN.auto-generated.txt。依照 CeL.extension.zh_conversion 中 Converter.options 之辭典檔順序,每個序列由長至短轉換。實際文字替換轉換作業在 CeL.data.Convert_Pairs 中的 function convert_using_pair_Map_by_length(text)。
辭典修訂流程
!Chinese_converter 辭典修訂過程
$3
1. 閱讀轉換過的文字,發現轉換錯誤。
2. 改成正確的句子,填入測試檔 general.TW.txt 或 general.TW.answer.txt。
3. 啟動 LTP server,npm test 跑測試。
4. 檢核測試工具自動生成的條件式,將合適的條件式填入辭典檔 CN_to_TW.LTP.PoS.txt 或 TW_to_CN.LTP.PoS.txt。必要時添加新 filter 功能函數於 CN_to_TW.LTP.filters.js。
5. npm test 確認無衝突。
6. 通過測試後 push 新辭典檔。
$3
有時另外挑出句子會解析出不同語法,此時必須透過完整轉換文本修訂辭典:通過 work_crawler 選擇繁簡轉換功能,並隨時修訂辭典,應先設定 .cache_directory(work_crawler 會自動設定)。
1. 閱讀轉換過的文字,發現轉換錯誤。
2. 改成正確的句子,填入作品相應的測試檔 _test suite/articles/watch_target.作品名稱.(TW|CN).txt (e.g., watch_target.第一序列.TW.txt),會在每次轉換都測試是否有相符之文字。
3. 持續修改辭典檔至能通過 npm test nowiki` 測試。