返回列表 发帖

[版本发布] 好用簡單的[簡繁轉換]加了詞彙和標點轉換

本帖最后由 wu8d 于 2010-2-2 00:02 编辑

是在以前的簡繁轉換裡邊改的,
能夠轉換四個字以內含四個字的詞彙.
自己用的, 所以轉換會準一些.
詞彙要添加自己打開代碼往裡邊改就行, 用[英文空格]隔開.

安裝方法: 複製到plugin\conv目錄下, 進入[插件管理],把[頁面加載後自動運行]給勾上,重啟. 安裝完啟用後[狀態欄]會多了個小[圖標].

默認是簡體->傳統漢字.
修改文件裡邊convFlag這個變量的判斷邏輯或者改dic=dicTS與dic=dicST對調一下可以改為傳統漢字->簡化字.
v2.2-更新
代碼沒更新, 只是多加了些詞彙

v2.2
增加標題也轉換了。
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚), 另外增加了[網址白名單], 也是用[英文空格]分開就行了:

不含標點轉換版本:

v2.1
修復v2的速度問題, 改用數組操作。
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚), 另外增加了[網址白名單], 也是用[英文空格]分開就行了:

不含標點轉換版本:

v2(此版本速度很慢, 問題已經找到, 是字符串添加問題, 腳本多次用複製方式添加字符串, 會很慢)
採用了新的"滑動窗口"替換,只需一次替換完成,所以此版本與v1版本不同,沒有二次替換過程,詞彙列表裡邊都直接簡體寫簡體,正體寫正體(某些半正半簡的需要兩個詞條以免轉換錯誤(例如「系統」兩字,前簡後正,由於「系」字缺省轉「係」字,反覆轉換多次會出錯,故要兩條詞條保證,且半正半簡要放前面,純簡的要放後面,因為看代碼生成dicTS的hash表時候會覆蓋相同詞條)。
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚), 另外增加了[網址白名單], 也是用[英文空格]分開就行了:

不含標點轉換版本:


長度優先的[滑動窗口替換]過程如下,長度長的匹配了就直接滑動過去:
abcd
^^
abcd
  ^^

v1.1
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚), 另外增加了[網址白名單], 也是用[英文空格]分開就行了:

不含標點轉換版本:

v1.0
含標點轉換版本(習慣正字標點的用這個, 看網頁看得比較清楚):

不含標點轉換版本:
附件: 您需要登录才可以下载或查看附件。没有帐号?加入 我们

第二次的轉換是對第一次轉換出錯的進行修正的.
不夠的自己加嘛.... 打開文件寫上就是了
一般做轉換都是先轉成概率較高的字然後再修正的.
我拿了個表隨便打了一點點進去而已. 我拿的是[同文堂]的源碼裡邊的表看到哪個就隨便打了些常用的進去, [convertz軟件]也應該有類似的表.

TOP

我的意思是..

大陆这里  没有人说 風採 神採的...

意思是. 你的词转换不够友好.
天下无不散之筵席.

世界之窗浏览器开发计划

TOP

本帖最后由 wu8d 于 2010-1-31 14:24 编辑

改進的話可以考慮用遍歷domtree的方法, 參見[利用javascript快速過濾網站頁面的HTML代碼]文章
詞彙更替也可以改用反向匹配, 按長度優先+hash表匹配. 速度會很快.
不過夠用就夠了, 原來那個沒有詞彙處理所以不夠用.
這種簡繁轉換對速度要求倒是不是很高.
正好用eeepc, 流覽器不錯隨便就搞了一下.

TOP

额....

谢谢楼主分享..

还是我以前弄的插件   

不过不过有一个疑问,楼主是在繁体系统进行的吧...
  1. 電 电
  2. 鐘 钟
复制代码
貌似还有改进的可能...
天下无不散之筵席.

世界之窗浏览器开发计划

TOP

DFKai.KaiU楷體5.00



附件: 您需要登录才可以下载或查看附件。没有帐号?加入 我们

TOP

SimSun宋體xp舊宋體+8號小字







附件: 您需要登录才可以下载或查看附件。没有帐号?加入 我们

TOP

MingLiu明體舊體加10.5號字無碎字筆劃版











附件: 您需要登录才可以下载或查看附件。没有帐号?加入 我们

TOP

返回列表