关于金融街RSS制作人过程中出现的问题。
这是我要做的订阅源:[url]http://futures.jrj.com.cn/list/ncpzx.shtml[/url]这个是我写的RSS规则:
[code]
<?php
include "gethtml.php";
$regex_link = '#(?<=</i><a href="http://futures.jrj.com.cn/2018/).+?(?=")#';
$regex_tit = '#(?<=<title>).+?(?=-期货频道-金融界)#';
$regex_con = '#(?<=<!--内容 begin-->).*?(?=<!--内容 end-->)#';
$header='<?xml version="1.0" encoding="gb2312"?><rss version="2.0"><channel><title>农产品资讯-金融街</title>';
$footer='</channel></rss>';
$html=gethtml('http://futures.jrj.com.cn/list/ncpzx.shtml');
if(preg_match_all($regex_link, $html, $links)){
$size=10;
for($i=0;$i<$size;$i++){
$link='http://futures.jrj.com.cn/2018/'.$links[0][$i];
$content=gethtml($link);
preg_match($regex_con,$content,$article);
preg_match($regex_tit,$content,$title);
$rss.='<item><title>'.$title[0].'</title><link><![CDATA['.$link.']]></link><description><![CDATA['.$article[0].']]
></description></item>';
}
file_put_contents('agri.xml',$header.$rss.$footer);
}
?>[/code]
(1)、我做的提取地址:
[code]
(?<=</i><a href="http://futures.jrj.com.cn/2018/).+?(?=")
[/code]
(2)、标题:
[code]
(?<=<title>).+?(?=-期货频道-金融界)
[/code]
(3)、内容:
[code]
(?<=<!--内容 begin-->).*?(?=<!--内容 end-->)#
[/code] 现在出现的问题是提取的只有链接和标题。
[img]http://p.qhlt.cn/filestores/2018/04/16/e5b6750f5a9a0aba9708dd0ad8ef16ed.png[/img]
[img]http://p.qhlt.cn/filestores/2018/04/16/839463f10d1cf9f4d4f350635966dbe2.png[/img]
页:
[1]