一項由中國科研人員自主開發的編碼技術,將使包括許多生僻字在內的所有漢字都能通過計算機處理。利用這項四字節編碼核心技術,不僅可以解決古籍出版中的問題,還可以解決戶籍、銀行、海關、民航等行業遇到的姓名、地名生僻字問題。
這項技術由北京時代瀚堂科技有限公司自主開發,可錄入、顯示、編輯、檢索、查詢和管理71500多個漢字,而傳統的二字節編碼技術只能處理27500多個漢字。
過去,《說文解字》等傳統文化典籍,只能依靠影印出版,不僅費時費力,而且不符合現代人的閱讀習慣。古籍研究者在遇到生僻字與計算機有機結合時,叫苦連天,因為這不僅意味著工作量大大增加,還可能造成工作漏洞。如今,采用四字節編碼技術,用計算機錄入和處理方式出版的《說文解字》,極大地方便了出版者和讀者。
基于四字節編碼技術,北京時代瀚堂科技有限公司開發了“龍語瀚堂”典籍數據庫,包括字書類數據庫、殷周金文庫、音韻庫、中國簡帛庫、甲骨文庫等13類子庫的數百萬條數據記錄。應用這一數據庫,社會科學文獻出版社已出版了我國最早的字書《說文解字》,雙方還將繼續合作出版《康熙字典》。目前,“龍語瀚堂”典籍數據庫已在清華、北大等百余所大學的中文系、歷史系、考古系以及國內外一些漢學研究機構廣泛試用。(作者:武衛政、譚超)
|