[TSQL]判斷資料欄位是否有中文字(使用ASCII比對及PATINDEX兩種方法)
前幾天剛好有朋友問,怎麼下TSQL判斷,資料表中欄位含有中文的字,
就先想到可以用先把字串分解成一個一個的字元,再來做 ASCII 的比對,
建立的副程式如下
我的想法是因為最後一個英文 z 是122 ,所以比 122 大就判斷不是英文,
而 A-Z,a-z 的範圍 ASCII 如下
-- a 97
-- z 122
-- A 65
-- Z 90
(@inString nvarchar(1000))
RETURNS int
AS
BEGIN
DECLARE @flag int
DECLARE @valueLength int
SET @valueLength = LEN(@inString)
DECLARE @i int
SET @i = 1
WHILE @valueLength >= @i
BEGIN
DECLARE @ChcekValue int
SELECT @ChcekValue = ASCII(SUBSTRING(@inString,@i,1))
--SELECT @ChcekValue
if(@ChcekValue > 122)
BEGIN
-- 有中文
SET @flag = 1
-- 跳出
BREAK
END
ELSE
BEGIN
SET @flag = 0
END
SET @i = @i +1
END
RETURN @flag
END
而 Function 的使用如下,將 Function傳入欄位值,會傳回 1 ,0 用來判斷,
也可以將 Function 拿來當 WHERE 的比對來使用
FROM dbo.TestTemp
WHERE dbo.udf_IsContainChinese(value) = 1
後來想一想,是不是還有別的方法也可以判斷資料欄位中是否還有中文的值,
一直想到是不是有類似 Regular 的方式,後來查了一下 SQL 中有 PATINDEX 可以使用,
就想說找出第一個中文字的起點,再找出最後一個中文字,就能下規則的方式來找出,
後來有點懶惰,就用一個一個測試,猜數字的方式,來找出第一個中文,
而找出第一個中文跟最後一個中文測試的TSQL如下:
SELECT UNICODE('一')
SELECT NCHAR(19968)
--土法煉鋼的方式找到'龥'是中文字的終點 40869
SELECT UNICODE('龥')
SELECT NCHAR(40869)
-- 但'龥' 在用UNICODE查出卻是 63
-- 而在 40869 - 40861 龞,龟 .... 這幾個字查出來都是 63
-- 只有 '龜' 查出來是 40860
SELECT UNICODE('龜')
SELECT NCHAR(40860)
因為欄位都會存 nvarchar 的方式,所以我用 UNICODE 的方式來查出,
但遇到了一個問題,最後一個中文字因該是 '龥' 40869 ,但NCHAR('龥')
卻是 63 ,而 40861 - 40869 這幾個字 NCHAR(' ') 都會是63,
這點到現在我也還沒搞懂,還望有高手能夠指點,
而慢慢的往前推,就發現 '龜' 字 40860 是可以在 NCHAR 傳回正常的 40860 ,
所以我就先認定合格的中文字範圍是 一-龜
而這個範例 TSQL使用 PATINDEX 程式碼如下:
FROM dbo.TestTemp
WHERE patindex('%[一-龜]%',value) > 0
執行畫面如下,也可以將PATINDEX當WHERE條件來比對
第二個方法比較是鎖定中文字的範圍,來做比對的方式,但有發生前面提到的
「而 40861 - 40869 這幾個字 NCHAR(' ') 都會是63」,這點還沒想通是什麼原因,
一般的資料欄位中是否中文比對,用兩種方式都能夠可以比對的出來,
或許還有更好的方法,還請大家多指點。