为你的网站正确配置Robots.txt文件,网站地图,提升SEO-跨境俄 - 跨境电商

最近建立了个网站,发现谷歌陆续已经收录20多个页面了,但是这里面的页面有些并不是我想要被收录的,有些我想要让谷歌收录的页面,反而没有被收录,百度收录的就更少了。今天正好折腾了一天,感觉终于被我修复了问题,索性分享出来。其实这也属于SEO收录相关的问题,对做SEO的同学也有用。

我是用宝塔面板操作的,如果你是用ftp等其它工具操作服务器,也可以借鉴学习使用。

因为我的站点是采用Wordpress+Xenforo搭建的,而且两个站点其实是没有打通的,特别是Xenforo论坛完全是位于Wordpress的一个文件夹下。为什么我要选择如此复杂的组合呢,其实是借鉴了国外著名的4pda论坛,此论坛是使用Wordpress+Invision Power Board论坛系统搭建的,而且这两个产品的数据库已经打通了。Xenforo和Invison Power Board很像了,而且也有相关插件可以打通Xenforo和Wordpress的数据库,所以我就选择了这样的组合。但是这样的组合带来了很多问题,其中之一的问题就是网站的收录问题,也就是我遇到的问题。

在谷歌搜索框使用命令 site:example.com 查看自己网站的收录情况时,我发现一些没有价值的页面,比如会员页面,会员动态页面都出现在谷歌搜索结果页了,而这并不是我想要的方式。于是我在谷歌站点地图后台 – 索引 – 删除,提交了申请移除所有会员页面,会员动态页面等我不想出现在谷歌搜索结果页的内容。这样就完了吗? 这不是我写此文的目的。

我们发现了问题,肯定是要从源头上处理这类的问题,避免以后再犯。

Xenforo的站点地图和谷歌蜘蛛

Xenforo的安装文件自身不会生成Robots文件,于是我通过宝塔面板新建了一个Robots.txt的文件。这个Txt文件夹里的内容,我参考了Xenforo论坛,4pda等国外知名网站,并且根据我自身网站架构情况得出了如下Robots内容:

User-agent: *
Disallow: /forum/whats-new/
Disallow: /forum/account/
Disallow: /forum/attachments/
Disallow: /forum/goto/
Disallow: /forum/posts/
Disallow: /forum/login/
Disallow: /forum/admin.php
Disallow: /forum/members/
Disallow: /forum/misc/
Disallow: /forum/online/

Sitemap: https://kuajinge.cn/sitemap.xml
Sitemap: https://kuajinge.cn/forum/sitemap.xml

以上这个内容在这个地方可以被访问到:https://kuajinge.cn/forum/robots.txt

同时我通过Xenforo后台的Elasticsearch搜索功能,一键重建了站点地图索引,更新了站点地图并得到了上述代码中大家看到的文件:https://kuajinge.cn/forum/sitemap.xml

WordPress的站点地图和谷歌蜘蛛

在我的案例中,我的Wordpress没有安装什么插件,有自动生成站点地图的插件,但是却没有Robots文件。于是我就自己在宝塔面板新建了一个Robots.txt的文件。参考了好几家Wordpress知名站点的Robots文件后,我得出了我自己的蜘蛛文件:

User-agent: *
Host: kuajinge.cn
Sitemap: https://kuajinge.cn/sitemap.xml
Sitemap: https://kuajinge.cn/forum/sitemap.xml
Disallow: /wp-admin/
Disallow: /wp-content/plugins/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /attachment/
Disallow: /wp-content/themes/
Disallow: /forum/whats-new/
Disallow: /forum/account/
Disallow: /forum/attachments/
Disallow: /forum/goto/
Disallow: /forum/posts/
Disallow: /forum/login/
Disallow: /forum/admin.php
Disallow: /forum/members/
Disallow: /forum/misc/
Disallow: /forum/online/

这个蜘蛛文件包含了Wordpress和Xenforo论坛总共两个sitemap, 同时规定了什么不可以抓取。

通过以上自定义设置,在一个文件夹里让谷歌蜘蛛知道了Wordpress和Xenforo的站点地图,同时规定了Wordpress和Xenforo论坛的抓取方式。可以说这是针对Wordpress+Xenforo的组合下目前我能想到的最完美的Robots文件组合方式。预览地址:https://kuajinge.cn/robots.txt

看到这里,大家也可以检查下自己的谷歌蜘蛛和站点地图是否设置好了。目前我还不知道如何自定义站点地图里网址的抓取频率和权重。当然这可能需要我通过Wordpress后台去安装插件尝试。如果有知道的也可以告诉我。

逆向思维,反思时刻

通过观察一些网站的站点地图,我发现一些内容站,特别是新闻站的更新频率一般是一天10篇文章,有些更是一天30多篇文章, 很固定的一个频率,这可能也是人家成功的一大原因。

还有通过观察Robots文件,我发现国内知名的游戏论坛NGA使用的是PHPWind搭建的,可见:http://bbs.nga.cn/robots.txt

于是,通过观察研究站点地图,Robots文件,我们可以获得以下认识:

  • 网站最初是由什么系统搭建的(Buildwith插件也可以实现,或者谷歌右键查看源代码)
  • 网站内容的更新频率怎么样
  • SEO优化,促进搜索引擎收录,并且收录你想要出现在搜索结果的内容(关于SEO优化,有两个重要的步骤,一个是发内容做外链,另外一个是促收录。而促收录除了在高权重网站发内容,手动提交给谷歌,在gindex等网站提交外,还应该反思自己的网站内部结构是否合理。并不是谷歌等搜索引擎不想收录你的网站,而是你没有告诉它。你对搜索引擎这个重要的客户并不友好。即除了向外看,还应该向内看自己的结构是否出问题了)
  • 网站屏蔽了的那些抓取页面是什么?好奇的也可以去看一下,但是千万不要做坏事。

好了,今天的文章就分享这么多,感谢阅读。关于SEO方面可以去跨境俄论坛查看更为系统性的知识,那里面更是有知识树,SEO系统化知识库

本文章关闭评论功能,想要评论或者有问题要求助,请点击上述链接到论坛回复,感谢理解。


在添加本文最后一个链接的时候,我本来是想要“点我传送门”作为锚点文字,然后使用论坛链接https://kuajinge.cn/forum/threads/seo.7/

但是刚刚阅读到谷歌新手指南时,我发现我犯了一个SEO错误。锚点的正确使用方法是,可能从来没有人教过我们:锚点文字要尽可能正确阐述锚点链接的内容,避免使用“点击此处”等宽泛的表述。谷歌新手指南原文描述是:


选择描述性文字应避免的做法:
  • 使用宽泛的定位文字,如“网页”、“文章”或“点击此处”。
  • 使用与主题或链接到的网页的内容无关的文字。
  • 在多数情况下将网页的网址用作定位文字。虽然这样做在某些情况下也合情合理,如宣传或引用新网站的地址。
文字应简明扼要

尽量使用简短但具有描述性的文字 – 通常是几个字或一个短语。

应避免的做法:
  • 撰写很长的定位文字,如一个长句或一小段文字。

让用户能够轻松区分常规文本和链接的定位文字。如果用户没有看到链接或意外点击了它们,您内容的实用性将降低。

应避免的做法:
  • 使用 CSS 或文本样式,让链接看起来像常规文本。

想到这,原先我工作的时候写产品首发的文章,很多文章都用了“点击此处”,外部一些网站也有“点击此处”作为锚文本,实在是不应该啊。应该还是要尽量使用能传递网页信息的简明扼要的文字。

本文参考链接:

Google SEO新手指南

Xenforo论坛Robots