- UID
- 2
- 积分
- 2874604
- 威望
- 1387331 布
- 龙e币
- 1487273 刀
- 在线时间
- 13155 小时
- 注册时间
- 2009-12-3
- 最后登录
- 2024-11-24
|
新浪正规则space.php
- $regex_link = '#(?<=<li><a href=").+?(?=")#s'; //问题在这里。$regex_tit = '#(?<=<title>)(.+?)(?=</title>)#s';$regex_con = "#(?<=f_id='45' -->)(.*?)(?=<!-- news_keyword_pub)#s";
复制代码
这个是源地址:http://roll.finance.sina.com.cn/finance/qh/pzyj/index.shtml
这是问题链接,问题就出在提取这个链接时出现了,因为没有特别的代码,所以提取了一些不是这个需要的链接。
- <ul class="list_009">
- <li><a href="http://finance.sina.com.cn/money/future/rese/2017-07-12/doc-ifyhweua4871165.shtml" target="_blank">现货“挺价潮”染红螺纹期盘 未来有望延续上涨</a><span>(07月12日 00:57)</span></li>
-
-
- <li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4814030.shtml" target="_blank">瑞达期货:双焦延续涨势 多头策略为主</a><span>(07月11日 16:54)</span></li>
-
-
- <li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4811854.shtml" target="_blank">瑞达期货:沥青量能俱增 期价收涨</a><span>(07月11日 16:39)</span></li>
-
-
- <li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4809298.shtml" target="_blank">瑞达期货:郑煤振荡冲高 多头情绪笼罩</a><span>(07月11日 16:25)</span></li>
-
-
- <li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4804061.shtml" target="_blank">瑞达期货:甲醇增仓增量 期价收涨</a><span>(07月11日 15:54)</span></li>
-
- </ul>
复制代码
这是部分出错的链接
- <span id="bloglist" class="bloglist" style="position:relative"><a style="position:relative;" id="bloglist" class="bloglist" href="http://blog.sina.com.cn/lm/finance/">博客</a><span class="blog_list" id="blog_list"><ul><li><a href="http://blog.sina.com.cn/lm/finance/" target="_blank">财经博客</a></li><li><a href="http://blog.sina.com.cn/lm/stock/" target="_blank">股票博客</a></li></ul></span></span>
复制代码
我想用<li><a href=" 和 “来截取链接。但是出现了在非想要的链接。这样的情况下只能多加些标志源码。比方说 将上个链接的部分源码 </span></li><li><a href=">来做为截取链接的前面的代码。但是在源码中这一串源码中间不仅有空格还有换行。用这个正规则我测试了一下是取不出地址的。说是语法错误。 |
论坛官方微信、群(期货热点、量化探讨、开户与绑定实盘)
|