關於 HTML Unicode 轉換

摘要:關於 HTML Unicode 轉換

關於 HTML Unicode 轉換

在網頁原碼中常會見到 &#XXXXX 格式的字元 , 稱為 Unicode HTML 碼
由於編碼之故 , 非 Big5 字元集中的文字 , 如 GB2312 碼或日文字元等,
無法正常的顯示,而這些對應不到的文字,就需編碼轉換成 Unicode HTML,
就如同在文字檔中使用簡體字或日文字,需存成UTF-8或Unicode等編碼格式,
對於這種 Unicode HTML 格式的字 , IE 等瀏覽器會自行解析成對應的字元
但若由程式抓取網頁內容存檔,亦或存入資料庫,則需轉換還原成正確的文字

Unicode HTML

<< VB.Net >> 

 Unicode Text

<< C# .Net >> 

編碼器參考:

http://timc.idv.tw/classic/timc.idv.tw/scripts/unicode.htm 

http://www.csie.ntu.edu.tw/~piaip/unihtml/ 

http://www.unicodetools.com/unicode/convert-to-html.php