====== C#のstring.Trim()は全角スペースまで削って下さりやがる ======
C#の''string''クラスにある''Trim()''メソッドは、C#の三大便利関数の1つと言って良いくらい便利な関数だ。
言わずもがな、文字列の先頭と末尾に付随する**空白**を削除してくれる関数であるが、**空白**って一体なんなのよというと「**Unicodeが定める空白文字**」である。従って、''Trim()''は文字列の前後からUnicodeが定める空白文字を削除する関数という事になる。(更に言うと.NET Frameworkのバージョンによって細部の挙動が違う。詳細は[[https://msdn.microsoft.com/ja-jp/library/t97s7bs3%28v=vs.110%29.aspx|MSDN]]を参照の事。)
んじゃんじゃUnicodeの空白文字ってなんぞ?というと、C#的には''Char.IsWhiteSpace(letter) == true''となる文字である。詳細はUnicodeの規格書なりWikipediaなりを見て頂くとして、true判定になる文字には半角スペース(U+0020)やタブ文字(U+0009)は然ることながら、全角スペース(U+3000)も含まれるのだ。つまり''Trim()''を使うと全角スペースも奇麗さっぱりなくなっちゃう。なんというか、C/C++の非WIDE文字な文字列操作に慣れている身からすると、直感とは異なる挙動なわけ。
今回はこれにハマった。削られちゃマズい全角スペースが見事になくなってて、''Trim()''の挙動を初めて知ったという(´・ω・`)
回避策は引数ありバージョンの''Trim()''で、全角スペースを除いた空白文字配列を渡すしかない模様。↓こんな感じで拡張メソッド化しておくと便利に使えるよ(`・ω・´)
public static class MyStringAdditions
{
static char[] WhiteSpaceDelimiters = new char[] {
'\u0009', // CHARACTER TABULATION
'\u000A', // LINE FEED
'\u000B', // LINE TABULATION
'\u000C', // FORM FEED
'\u000D', // CARRIAGE RETURN
'\u0020', // SPACE
'\u00A0', // NO-BREAK SPACE
'\u2000', // EN QUAD
'\u2001', // EM QUAD
'\u2002', // EN SPACE
'\u2003', // EM SPACE
'\u2004', // THREE-PER-EM SPACE
'\u2005', // FOUR-PER-EM SPACE
'\u2006', // SIX-PER-EM SPACE
'\u2007', // FIGURE SPACE
'\u2008', // PUNCTUATION SPACE
'\u2009', // THIN SPACE
'\u200A', // HAIR SPACE
'\u200B', // ZERO WIDTH SPACE
// '\u3000', // IDEOGRAPHIC SPACE -- これが所謂全角スペース
'\uFEFF' // ZERO WIDTH NO-BREAK SPACE
};
public static string TrimWithoutZenkakuSpace(this string str)
{
string s = str.Trim(WhiteSpaceDelimiters);
return s;
}
}
この件とは直接関係ないけど、''TrimStart''と''TrimEnd''なんてメソッドもあったんだね。取り除きたい文字の配列を渡すと、対象文字列の先頭もしくは末尾から除去してくれる。''Trim''の分割バージョンみたいなやつ、というよりも''Trim''が''TrimStart''と''TrimEnd''の合体技と言った方がいいか。覚えといて損は無さそう。
===== 参考サイト =====
* [[https://msdn.microsoft.com/ja-jp/library/t97s7bs3%28v=vs.110%29.aspx|String.Trim メソッド (System)]]
* [[http://www.informit.com/guides/content.aspx?g=dotnet&seqNum=546|.NET Reference Guide | Trimming Character Strings | InformIT]]