Почему это регулярное выражение быстрее?
Я пишу своего рода клиент Telnet на C#, и часть того, что мне нужно проанализировать, - это escape-последовательности ANSI / VT100, в частности, только те, которые используются для цвета и форматирования (подробно здесь ).
У меня есть один метод - найти все коды и удалить их, чтобы при необходимости я мог визуализировать текст без какого-либо форматирования:
public static string StripStringFormating(string formattedString)
{
if (rTest.IsMatch(formattedString))
return rTest.Replace(formattedString, string.Empty);
else
return formattedString;
}
Я новичок в регулярных выражениях, и мне предложили использовать это:
static Regex rText = new Regex(@"\e\[[\d;]+m", RegexOptions.Compiled);
Однако это не удалось, если escape-код был неполным из-за ошибки на сервере. Тогда это было предложено, но мой друг предупредил, что это может быть медленнее (это также соответствует другому условию (z), с которым я могу столкнуться позже):
static Regex rTest =
new Regex(@"(\e(\[([\d;]*[mz]?))?)?", RegexOptions.Compiled);
Это не только сработало, но на самом деле было быстрее и уменьшило влияние на мой рендеринг текста. Может кто-нибудь объяснить новичку в регулярных выражениях, почему? :)
Ответов (4)4
Вы действительно хотите запустить регулярное выражение дважды? Не проверив (плохо меня) я бы подумал, что это сработает хорошо:
public static string StripStringFormating(string formattedString)
{
return rTest.Replace(formattedString, string.Empty);
}
Если это так, вы должны увидеть, что он работает ~ в два раза быстрее ...
Причина, по которой №1 работает медленнее, заключается в том, что [\ d;] + является жадным квантификатором. Используя +? или *? собирается провести ленивую количественную оценку. См. MSDN - Quantifiers для получения дополнительной информации.
Вы можете попробовать:
"(\e\[(\d{1,2};)*?[mz]?)?"
Это может быть быстрее для вас.
Не делая подробного анализа, я бы предположил, что это быстрее из-за вопросительных знаков. Это позволяет регулярному выражению быть «ленивым» и останавливаться, как только их достаточно для сопоставления, вместо того, чтобы проверять, совпадает ли остальная часть входных данных.
Я не совсем доволен этим ответом, потому что это в основном относится к вопросительным знакам после * или +. Если бы я был более знаком с вводом, это могло бы иметь для меня больше смысла.
(Кроме того, для форматирования кода вы можете выделить весь свой код и нажать Ctrl+, Kчтобы добавить необходимые четыре пробела.)
Я не уверен, поможет ли это в том, над чем вы работаете, но давно я написал регулярное выражение для анализа графических файлов ANSI.
(?s)(?:\e\[(?:(\d+);?)*([A-Za-z])(.*?))(?=\e\[|\z)
Он вернет каждый код и связанный с ним текст.
Строка ввода:
<ESC>[1;32mThis is bright green.<ESC>[0m This is the default color.
Полученные результаты:
[ [1, 32], m, This is bright green.]
[0, m, This is the default color.]