CJJJ 现在用爬虫四处爬别人的网站,并且完全忽略 robot.txt,然而她把 HTML 内容爬取下来后却不知道怎么处理,现在请你帮她从中找出指定 ID 的标签的 content。 HTML 是一个超文本标记语言,每个标签由一个开始标记和一个结束标记构成,部分标签是自闭合的(即没有结束标记,它不能包含任何 content)。 对于非自闭合标签,书写格式为“<[tag-name] [attributes]>[content][tag-name]>”,其中方括号括起来的表示变量,“tagName”是标签名称、“attributes”是属性、“content”是标签的 content、“”是开始标记、“”是结束标记。 对于自闭合标签,书写格式为“<[tag-name]/>”,结尾的“/”可有可无。 attribute 的写法非常简单:“key="value"”,特别的,如果希望用“value”表示布尔类型,可以写为“key=true”或“key=false”,也可以直接用“key”来表示布尔真。 HTML 中的注释以“”结束,注释效果等价于 C 中的 `/* */`。 例如:
这是一个外部标签
这是一个内部标签
HTML 中可以给标签添加“id”,id 在属性中给出,“key”为“id”,上面的例子中我们就声明了一个 id 为“rich”的标签。
输入
首先输入一行,包含一个字符串,表示要提取的标签的 ID。 然后输入任意行(输入至少包含一个非空字符),表示一个 HTML 的内容,以 EOF 结束。 输入的 HTML 中仅有如下标签是自闭合标签:“br”“hr”“img”“input”“li
nk”“me
ta”“area”,任何标签名称只可能包含小写英文字母、阿拉伯数字、连字符(-)。
输入保证满足以下条件: