Huginn烧录网站的RSS

安装完Huginn,当然要用下Huginn里最吸引我的功能啦!!!把不支援RSS订阅的网站弄出一个xml页面来,然后将其烧录为阅读器可以订阅的链接。不过嘛!!设置有一点点麻烦~不过效果很给力。

RSS_Feed

如果你还没有Huginn,那么我推荐你先自己部署一个Huginn,方法可以参照《VPS上Docker安装Huginn(Ubuntu)》。

要烧录出网站的RSS链接大概需要3个步骤

  1. 在目标网站上,通过xpath元素来确定,页面中哪些内容是需要被提取的,一般主要提取的东西为题目、链接、时间和摘要。
  2. 将之前提取的xpath放入新建的website agent中。
  3. 通过data output agent来将其转化为xml链接,添加至Rss阅读器即可。

一、设置Website Agent

1.登陆Huginn,并新建一个类型为Website Agent的Agent。

new-agent

2.填写设置,如图。本文以自己的Blog为例子。( >﹏<。)~呜呜呜……首先打开目标网站的网页。由于我们在RSS阅读器中仅仅需要输出的内容有题目、发布时间、链接和内容摘要。那么我们先要获取这些内容的xpath。

xpath的方法获取也较为简单,在浏览器(以Chrome为例,虽然我还是喜欢Firefox)在网站内容标题的地方右键——检查(Ctrl+Shift+I)。即可看见下图样子。

chrome-impac

在右侧(也可能是下侧)的Elements中右键目标选择Copy-Copy Xpath。即可获取对应元素的Xpath。

get-xpath

如上图操作即可获得Xpath的信息。

如我的Blog的元素的Xpath为:

Title(题目)://*[@id=”main”]/div/article/h2

Date(日期)://*[@id=”main”]/div/article/ul/li[1]/text()

Link(链接):*[@id=”main”]/div/article/h2/a

Content自己试着抓取一下

3.将抓取到的Xpath信息填写入之前新建的Website Agent里。

Website Agent上部的设置默认即可!!!

website-agent-setting1

接下来Options设置略微麻烦,不过还可以接受,仅仅需要将抓取的Xpath按照下图的模板填入即可。

website-agent-setting2

在title标签里需要设置一个value,值为normalize-space(.),其作用主要为删除标题里的空格,如果没有这个value你抓取的rss中,会有很多的空格,即使你的文章题目里没有空格。另外需要在link标签里加入value,

值为@href,作用嘛当然就是生成超链接。

4.设置好,可以在Toggle View中,将代码复制,并点击Dry run,在粘贴如代码。试一试!!!

website-agent-dry-run

如果你出来的东西和我这里的差不多,那么你成功了~~当然这个也是用Huginn来烧录Rss链接里最复杂的步骤,接下来都很简单了。不过不要忘记保存你的Website Angent。

二、设置Data Output Agent

1.新建一个Agent,类型选择Data Output Agent。Name可以随便写,在Sources的设置中,选择之前创建的Website Agent即可,其余默认。

data-output-agent-setting1

2.接下来设置Options,大概设置内容如下图,主要是修改下item标签里的link内容,并且在template中加入link信息即可。保存Data Output Agent即可。

data-output-agent-setting2

三、烧录RSS链接

1.回到Your Angents界面,找到才创建的Data Output Agent,在Actions-Show。

huginn-rss-link

2.在结果中可以看见两个链接其中以xml结尾的链接即为Rss链接。只需要将其复制于Rss阅读器即可。我用Digg来测试了一下。

digg-test-rss

即可看见那些未提供Rss订阅的网站的信息已经跑到了你的Rss阅读器里!!!

四、总结

Huginn是一款强大的监视软件,是近些年来让我眼前一亮的软件之一。作为一个Rss重度用户,在这个Rss没落的年代来说,给我提供了一种很简单粗暴的烧录网站Rss链接的方法。虽然配置的时候步骤略显麻烦,不过可以说是一劳永逸!!!当你配置完毕一次后,你会发现其实很简单。

发表评论