新浪正规则space.php
[code]$regex_link = '#(?<=<li><a href=").+?(?=")#s'; //问题在这里。$regex_tit = '#(?<=<title>)(.+?)(?=</title>)#s';$regex_con = "#(?<=f_id='45' -->)(.*?)(?=<!-- news_keyword_pub)#s";
[/code]
这个是源地址:[url=http://roll.finance.sina.com.cn/finance/qh/pzyj/index.shtml]http://roll.finance.sina.com.cn/finance/qh/pzyj/index.shtml[/url]
这是问题链接,问题就出在提取这个链接时出现了,因为没有特别的代码,所以提取了一些不是这个需要的链接。
[code]
<ul class="list_009">
<li><a href="http://finance.sina.com.cn/money/future/rese/2017-07-12/doc-ifyhweua4871165.shtml" target="_blank">现货“挺价潮”染红螺纹期盘 未来有望延续上涨</a><span>(07月12日 00:57)</span></li>
<li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4814030.shtml" target="_blank">瑞达期货:双焦延续涨势 多头策略为主</a><span>(07月11日 16:54)</span></li>
<li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4811854.shtml" target="_blank">瑞达期货:沥青量能俱增 期价收涨</a><span>(07月11日 16:39)</span></li>
<li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4809298.shtml" target="_blank">瑞达期货:郑煤振荡冲高 多头情绪笼罩</a><span>(07月11日 16:25)</span></li>
<li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4804061.shtml" target="_blank">瑞达期货:甲醇增仓增量 期价收涨</a><span>(07月11日 15:54)</span></li>
</ul>[/code]
这是部分出错的链接
[code]<span id="bloglist" class="bloglist" style="position:relative"><a style="position:relative;" id="bloglist" class="bloglist" href="http://blog.sina.com.cn/lm/finance/">博客</a><span class="blog_list" id="blog_list"><ul><li><a href="http://blog.sina.com.cn/lm/finance/" target="_blank">财经博客</a></li><li><a href="http://blog.sina.com.cn/lm/stock/" target="_blank">股票博客</a></li></ul></span></span>
[/code]
我想用<li><a href=" 和 “来截取链接。但是出现了在非想要的链接。这样的情况下只能多加些标志源码。比方说 将上个链接的部分源码 </span></li><li><a href=">来做为截取链接的前面的代码。但是在源码中这一串源码中间不仅有空格还有换行。用这个正规则我测试了一下是取不出地址的。说是语法错误。 我做的几个RSS,不知道为什么在昨天您发的那个网站上时显示超时,没有一个能成功更新的。[attach]1558[/attach]
[attach]1559[/attach]
页:
[1]