NSXMLParser可以用来parsingHTML

可能重复:
使用NSXMLParser来parsingHTML

我已经使用NSXMLParser来parsingxml文件和RSS提要。 我感到困惑的是, NSXMLParser是否仅用于xml,或者我们是否也可以使用它来parsinghtml。 从互联网上的一点search,我假设有人用它来parsingHTML。

但有任何使用NSXMLParser与HTML的限制或缺点?

如果你的HTML文件格式正确的话,那么它将起作用。 作为一个猜测,你将不会使用格式良好的xhtml,因为它在现实世界中是罕见的。

HTML(包括HTML 4和5)不是格式良好的XML,不会被XMLparsing器成功parsing。

考虑下面的例子:

 <HTML> <HEAD> <META http-equiv=content-type content="text/html; charset=UTF-8"> <TITLE>Sample Document</TITLE> </HEAD> <BODY> <H1>Sample Document</h1> <P>This document will <strong><em>fail</strong></em> as XML. </BODY> </HTML> 

在上面的文档中,content-type不是引号( <META http-equiv=content-type … ), <H1></h1>是不同的情况, <P>没有结束标签, strong em没有正确嵌套。 这是有效的HTML,但无效的XML。