谷歌新闻资讯站点地图: 新闻特有的抓取错误
要查看 Google 新闻的专用错误报告,新闻发布商需要将其网站收录到 Google 新闻中,还需要创建一个网站站长工具帐户,并将其网站添加到该帐户中。要请求 Google 新闻收录您的网站,请与我们联系。完成上述操作后,请执行以下步骤:- 在主页上,点击网站的网址。
- 在信息中心中,依次点击诊断 > 抓取错误。
- 点击新闻标签。
- 点击新闻特定的错误链接。
- 新闻特定的错误包括:
报道超短
说明
与网页上没有链接的其它文字集相比,我们从 HTML 网页中摘录的报道正文过短。这适用于包含新闻摘要或多媒体内容的大多数网页,而非完整的新闻报道。我们生成该错误是为了避免收录可能不正确的文本片段。
推荐解决方法
该问题通常是由以下几种原因导致的:
- 相关报道的摘要过多 - 为便于我们的提取器工作,请考虑将这些摘要设置成可点击的。
“将该报道发送给朋友”等功能的说明过长 - 您可以考虑设置“display:none”或“visibility:hidden”样式,以便隐藏文本,也可以使用 JavasScript 动态地编写 HTML 代码段。
- 用户评论 - 您可以考虑将评论放入内插框架中、使用 AJAX 动态抓取或者移动到相邻网页中。
- 如果以上方法均无法解决问题,请告知我们。
报道支离破碎
说明
从 HTML 网页摘录的报道正文包含无法组成段落的孤立的句子。我们生成该错误是为了避免收录可能不正确的文本片段。
推荐解决方法
- 尝试对您的报道进行格式调整,将其拆分为多个由几句话组成的文本段落。
- 确保句中的标点正确。
- 请勿在段落中频繁使用 <br> 和 <p> 标记,并且尽量避免在总体上拆分报道的正文。
- 考虑删除报道页面上的一些非报道文字。
- 如果以上方法均无法解决问题,请告知我们。
报道过长
说明
从 HTML 网页摘录的报道正文太长,不能作为一篇新闻报道。我们生成该错误是为了避免收录可能不正确的文本片段。常见原因包括:新闻报道的下方有用户发表的评论,或者在 HTML 版面中包含除新闻报道之外的其他资料。
推荐解决方法
考虑删除报道页面上的一些非报道文字。如果报道页面中包含用户评论,可以考虑以下某条建议:
- 将评论放入内插框架中。
- 使用 AJAX 动态抓取评论。
- 将部分评论移动至相邻网页中。
- 如果以上方法均无法解决问题,请告知我们。
报道过短
说明
从 HTML 网页摘录的报道正文包含的字数太少,不能作为一篇新闻报道。这适用于包含新闻摘要或多媒体内容的大多数网页,而非完整的新闻报道。我们生成该错误是为了避免收录可能不正确的文本片段。
推荐解决方法
- 尝试对您的报道进行格式调整,将其拆分为多个由几句话组成的文本段落。如果报道内容由于包含的字数过少而不能用作新闻报道,那么我们就无法收录它。
- 请确保您报道的字数超过 80。
- 如果以上方法均无法解决问题,请告知我们。
日期未找到
说明
我们无法确定报道的发布日期。
推荐解决方法
采用以下推荐的日期格式设置:
- 在每篇报道的标题和文本之间,用一行独立的 HTML 代码清楚地表示日期和时间。指定的应该是报道的首次发布日期。
- 删除报道页面 HTML 中的其他任何日期,以免抓取工具将这些日期误认为正确的发布时间。
- 如果您要使用日期元标记,请先与我们联系。日期元标记应采用以下格式:<meta name="DC.date.issued" content="YYYY-MM-DD">,其中日期采用 W3C 格式,即使用“完整日期”(YYYY-MM-DD) 或“完整日期加时、分、秒”(YYYY-MM-DDThh:mm:ss) 格式,并带有可选分数和时区后缀。
- 创建 Google 新闻站点地图。<publication_date> 标记可确保您能够为报道选择正确的日期。
日期过早
说明
我们所确定的此报道的日期(无论是从站点地图的 <publication_date> 标记中获得,还是从 HTML 网页本身的日期中获得)过早。
推荐解决方法
- 确保您报道的发布日期不早于 2 天以前。目前我们只收集 2 天或 2 天以内的报道。
- 采用上述推荐的日期格式设置。
报道无内容
说明
从 HTML 网页摘录的报道正文显示为空。
推荐解决方法
- 确保报道页面的源代码中提供了每篇报道的全文(例如,不嵌入在 JavaScript 文件或内插框架中)。
- 确保没有在报道的源代码中使用诸如“display:none”或“visibility:hidden”的样式。
- 确保您报道的链接直接指向相应报道的网页,而不是指向使用 Javascript 重定向的中间网页。
摘录失败
说明
我们无法从该网页摘录报道。如果我们无法识别报道的有效标题、正文和时间戳,则摘录会失败。我们会列出存在此错误的网址,以便让您了解为什么某些报道不显示在 Google 新闻中。
推荐解决方法
- 确保标题、正文和时间戳均易于抓取(例如,采用文字形式而不是图片形式提供),但目前该错误主要用于参考。我们正积极地努力改进摘录方法,以减少该错误出现的次数。
- 提交 Google 新闻站点地图。
日期元标记无效
说明
HTML 网页中包含我们无法解析的日期 <meta> 标记。
推荐解决方法
- 日期 <meta> 标记应采用以下格式:<meta name="DC.date.issued" content="YYYY-MM-DD">,其中日期采用 W3C 格式(https://www.w3.org/TR/NOTE-datetime),即使用“完整日期”(YYYY-MM-DD) 或“完整日期加时、分、秒”(YYYY-MM-DDThh:mm:ss) 格式,并带有可选分数和时区后缀。首次发布报道时就应该指定日期。
找不到链接
说明
Googlebot-News 没有在网页上找到任何有效新闻报道的链接。只有新闻栏目页面才会出现这种错误。
推荐解决方法
- 按照以下指南中的规定,确保您的报道网址至少包含一个 3 位数的编号。或者,您也可以考虑通过 Google 新闻站点地图提交报道。
- 确保您的报道位于 Google 新闻所收录的网站的域内。
- 检查生成错误的网页,并确保该网页包含指向新闻报道的可抓取链接。Googlebot-News 最适合抓取 HTML 链接,但无法抓取图片链接或 JavaScript 中内嵌的链接。有关如何确保链接获得抓取的信息,请参阅我们的网站站长指南,以及有关创建方便 Google 处理的网站的提示。
找不到句子
说明
从 HTML 网页摘录的报道正文不包含由连续的字词组成的有标点的句子。我们生成该错误是为了避免收录可能不正确的文本片段。
推荐解决方法
- 如果报道内容都是连续的的词,且没有用标点按顺序隔开,那么我们不能将其收录在 Google 新闻中。确保报道的文本是由句子组成的,并且不在段落内频繁使用的 <br> 或 <p> 标签。
- 确保报道页面的源代码中提供了每篇报道的全文(例如,不嵌入在 JavaScript 文件中)。
- 确保您报道的链接直接指向相应报道的网页,而不是指向使用 Javascript 重定向的中间网页。
发现 noindex 标记
说明
报道的 HTML 网页包含“noindex”<meta> 标记,阻止了 Google 将该网页编入索引。
推荐解决方法
- 删除报道页面中的“noindex”<meta> 标记。
重定向至外部网站
说明
栏目或报道页面会重定向至其他域上的网址。
推荐解决方法
- 所有栏目页面和报道都必须位于 Google 新闻中所收录的网站的域内。
- 如果您不打算重定向至外部网站,请确保没有任何第三方修改过您的网站。了解有关被黑网站的详情。
页面过大
说明
栏目或报道页面的长度超出了允许的上限。
推荐解决方法
- HTML 网页的大小不得超过 256KB。
不允许使用的标题
说明
从 HTML 网页摘录的标题表明它不是新闻报道。
推荐解决方法
- 通常可以通过以下方法解决该问题:将 HTML 网页上的 <title> 标记设置为报道的标题,并在 HTML 网页上的显着位置(例如,在 <h1> 标记中)反复显示该标题。了解有关标题的详情。
找不到标题
说明
我们无法从 HTML 网页摘录报道的标题。
推荐解决方法
- 遵循我们的标题格式设置建议。
- 要确保报道在移动设备上正确显示,请勿在标题的定位文本中包含前导号码(有时对应访问关键字)。
解压缩失败
说明
Googlebot-News 检测到页面经过压缩,但无法将其解压缩。这可能是因为网络状况不佳或者网络服务器的编程或配置不当而引起的。
推荐解决方法
- 检查网络或网络服务器。
内容类型不受支持
说明
页面中包含 Google 新闻不支持的 HTTP 内容类型。
推荐解决方法
- 报道所包含的内容类型必须为 text/html、text/plain 或 application/xhtml+xml。
最后更新:2011-05-20 10:16:20