Преобразование символа HTML обратно в текст с помощью стандартной библиотеки Java
Я хотел бы преобразовать некоторые символы HTML обратно в текст с помощью стандартной библиотеки Java. Мне было интересно, сможет ли какая-нибудь библиотека достичь моей цели?
/**
* @param args the command line arguments
*/
public static void main(String[] args) {
// TODO code application logic here
// "Happy & Sad" in HTML form.
String s = "Happy & Sad";
System.out.println(s);
try {
// Change to "Happy & Sad". DOESN'T WORK!
s = java.net.URLDecoder.decode(s, "UTF-8");
System.out.println(s);
} catch (UnsupportedEncodingException ex) {
}
}
Ответов (8)8
Я думаю, что библиотека StringEscapeUtils.unescapeHtml3()
и unescapeHtml4()
методы Apache Commons Lang - это то, что вы ищете. См. https://commons.apache.org/proper/commons-text/javadocs/api-release/org/apache/commons/text/StringEscapeUtils.html .
Здесь вам нужно просто добавить файл jar в lib jsoup в свое приложение, а затем использовать этот код.
import org.jsoup.Jsoup;
public class Encoder {
public static void main(String args[]) {
String s = Jsoup.parse("<Français>").text();
System.out.print(s);
}
}
Ссылка для скачивания jsoup: http://jsoup.org/download
Как предположил @jem, можно использовать jsoup.
В jSoup 1.8.3 возможно использование метода Parser.unescapeEntities, который сохраняет исходный html.
import org.jsoup.parser.Parser;
...
String html = Parser.unescapeEntities(original_html, false);
Похоже, что в каком-то предыдущем выпуске этого метода нет.
Я не знаю, как это сделать с помощью стандартной библиотеки. Но я знаю и использую этот класс, который работает с HTML-объектами.
«HTMLEntities - это класс Java с открытым исходным кодом, который содержит набор статических методов (htmlentities, unhtmlentities, ...) для преобразования специальных и расширенных символов в объекты HTML и наоборот».
http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=htmlentities
java.net.URLDecoder
имеет дело только с application/x-www-form-urlencoded
форматом MIME (например, "% 20" представляет пробел), а не с сущностями символов HTML . Я не думаю, что на платформе Java есть что-нибудь для этого. Вы можете написать свой собственный служебный класс для преобразования, как этот .
Декодер URL-адресов следует использовать только для декодирования строк из URL-адресов, сгенерированных html-формами, которые относятся к типу mime "application / x-www-form-urlencoded". Это не поддерживает символы HTML.
После поиска я нашел класс Translate в библиотеке HTML Parser .