在C#中从字符串中剥离字节顺序标记

沃梦达教程 C#/.NET问题

2022-01-01

Strip the byte order mark from string in C#(在C#中从字符串中剥离字节顺序标记)

本文介绍了在C#中从字符串中剥离字节顺序标记的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

在C#中，我有一个从WebClient.DownloadString获得的字符串。我尝试将client.Encoding设置为新的UTF8Encoding(False)，但没有什么不同-我在结果字符串的开头仍然得到了UTF-8的字节顺序标记。我需要删除它(以便使用LINQ解析生成的XML)，并且希望在内存中执行此操作。

所以我有一个以x00EFx00BBx00BF开头的字符串，如果它存在的话，我想删除它。现在我正在使用

if (xml.StartsWith(ByteOrderMarkUtf8))
{
    xml = xml.Remove(0, ByteOrderMarkUtf8.Length);
}

但那感觉就是不对劲。我用STREAMS、GetBytes和编码尝试了各种代码，但都不起作用。是否有人能够提供从字符串中剥离BOM的&Quot；Right&Quot；算法？

BOM

如果变量推荐答案的类型为String，则您已经做错了什么-在字符串中，BOM不应该表示为三个单独的字符，而应该表示为一个代码点。不使用DownloadString，而使用DownloadData，并解析字节数组。XML解析器应该识别BOM本身，并跳过它(自动检测文档编码为UTF-8除外)。

这篇关于在C#中从字符串中剥离字节顺序标记的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持编程学习网！

沃梦达教程

本文标题为：在C#中从字符串中剥离字节顺序标记

上一篇： GroupBy将多个组作为层次结构

下一篇：在C#中的控制台应用程序中使用异步