谷歌作者超越网页

作者:祝舐

<p>在上个月关于作者身份的帖子中,我分享了谷歌除了网页之外还在试验推断PDF文档的作者身份</p><p>这激起了我的好奇心,看看是否有任何其他可索引文件类型也可以推断作者身份</p><p> PowerPoint文件似乎推断出类似于PDF和网页的作者身份,寻找术语“by”后跟作者的名字</p><p>要在Excel文件上生成作者代码段,我必须将“由Janet Driscoll Miller”添加到工作簿中的选项卡,Google使用选项卡名称作为页面标题</p><p>仅在工作表的单元格中出现一个byline不足以生成代码段</p><p>但最有趣的案例是使用Word文档</p><p>使用我的旧白皮书,我再次使用byline进行了一些测试</p><p>在我删除了署名的一个版本中,即使我删除了“由珍妮特·德里斯科尔·米勒”这几个字,但作者片段仍在显示,我在文档中没有其他署名</p><p>在梳理完文件后,我发现文件末尾有一段可能是罪魁祸首</p><p>虽然没有传统的署名,但文档末尾的这一段似乎确实帮助Google将我识别为作者</p><p>为了测试这一点,我尝试了删除“关于作者”段落的版本</p><p>没有作者片段</p><p>这向我展示的是,虽然传统的署名是谷歌推断作者身份的最常见方式,但搜索引擎越来越能够根据情境(在某种程度上)这样做</p><p>由于Google可以读取其他类型的基于文本的文件中的文本,它是否能够在这些文档中推断作者身份</p><p>我测试了富文本格式(.rtf)和文本格式(.txt)文件</p><p>有趣的是,作者片段仅显示了富文本格式的文档,并且与“关于作者”部分的Word文档一样,作者身份不仅仅是通过副词推断</p><p>有趣的是,常规文本文件不会生成任何形式的作者代码段</p><p>虽然Google无法读取JPG文件或其他类型的图像文件中的文本,但它可以索引某些类型的矢量图形文件,例如SVG和postscript文件</p><p>谷歌可以从这些文件中的文本中推断作者身份吗</p><p>如您所见,Google在其文本中包含SVG文件中的署名时显示了作者身份</p><p>但是,当我将相同的文件保存为postscript文件时,我无法显示作者身份片段</p><p>考虑到它们与您的Google ID相关联,如果这些文档对Web共享开放,那么Google Docs显示作者身份似乎是明智的</p><p>虽然我无法生成我自己的片段来展示,但我能够找到一个作者展示的例子</p><p>根据我的估计,作者身份的自然契合将是Google图书中列出的实际图书 - 但是,似乎尚未将作者代码段应用于Google图书馆列表</p><p>这些列表来自在Google图书网站上搜索内容;但是,网络搜索也没有产生作者片段</p><p>在接下来的一个月里,我将继续研究作者测试,看看我能找到的其他好东西!本文中表达的观点是客座作者的观点,....