摘要:關於 HTML Unicode 轉換
關於 HTML Unicode 轉換
在網頁原碼中常會見到 &#XXXXX 格式的字元 , 稱為 Unicode HTML 碼
由於編碼之故 , 非 Big5 字元集中的文字 , 如 GB2312 碼或日文字元等,
無法正常的顯示,而這些對應不到的文字,就需編碼轉換成 Unicode HTML,
就如同在文字檔中使用簡體字或日文字,需存成UTF-8或Unicode等編碼格式,
對於這種 Unicode HTML 格式的字 , IE 等瀏覽器會自行解析成對應的字元
但若由程式抓取網頁內容存檔,亦或存入資料庫,則需轉換還原成正確的文字
<< VB.Net >>
<< C# .Net >>
編碼器參考:
http://timc.idv.tw/classic/timc.idv.tw/scripts/unicode.htm
http://www.csie.ntu.edu.tw/~piaip/unihtml/
http://www.unicodetools.com/unicode/convert-to-html.php