计算所汉语词性标记集v5.0

Nov 19th,2011 No Comments

常用汉语词性标记集有以下这些:

  1. 计算所一级标注
  2. 计算所二级标注
  3. 北大一级标注
  4. 北大二级标注

下面是计算所汉语词性标记集v5.0,不懂是哪级…应该都差不了多少。

Read More…

SimplePie 实用的RSS 解析程序

Nov 18th,2011 No Comments

SimplePie 是一个 RSS 解析程序,今天试了一下,用它来解析RSS实在是太方便了。 它和 WorPress 内部集成的MagpieRSS很类似。SimplePie 在对 RSS 或 Atom 的数据处理能力上毫不逊色于 MagpieRSS,并且 SimplePie 速度更快,而且功能也更加强大,SimplePie 拥有了比MagpieRSS 更多的实用方法和属性,这可以帮助你快速的构建一个 RSS 阅读器或 RSS 数据处理模块。

使用方法:

SimplePie下载地址:http://simplepie.org/downloads/

把下载下来的ZIP压缩包解压到某个目录下,在需要使用的时候把其中的simplepie.inc文件include进来就行了。

SimplePie 使用上非常简单,它的构造函数有三个参数。

  • feed_url 设置 Feed 的地址,可以输入多个。
  • cache_location 设置缓存的文件夹
  • cache_duration 设置缓存时间,默认为60分钟

Read More…

wordpress 计划任务机制

Nov 15th,2011 No Comments

wordpress的计划任务通过页面触发实现,只有页面被访问的时候,才判断当时是否有需要运行的后台任务,虽然后台任务是被用户的访问激活的,但后台任务的执行并不会影响用户的访问速度,因为Wordpress在处理用户请求时,发起一个独立的http请求到wp-cron.php页面后,并不等待wp-cron.php将后台任务执行完毕,也不继续接收由wp-cron.php返回的数据,而是立即处理用户的访问请求,这里有点类似多线程

前台页面触发机制

  1. 执行/wp-settings.php中的钩子sanitize_comment_cookies。
  2. sanitize_comment_cookies调用/wp-includes/cron.php wp_cron。

Read More…

php正则堆栈溢出(Segmentation fault)

Nov 11th,2011 No Comments

pcre 8.11版本存在一个栈溢出bug,linux线程栈默认大小是10240 kbytes,在正则匹配子模式大于22K会生成core 。

受影响函数:

  • preg_filter — 之行一个正则表达式搜索和替换
  • preg_grep — 返回匹配模式的数组条目
  • preg_last_error — 返回最后一个PCRE正则执行产生的错误代码
  • preg_match_all — 之行一个全局正则表达式匹配
  • preg_match — 执行一个正则表达式匹配
  • preg_quote — 转义正则表达式字符
  • preg_replace_callback — 执行一个正则表达式搜索并且使用一个回调进行替换
  • preg_replace — 执行一个正则表达式的搜索和替换
  • preg_split — 通过一个正则表达式分隔字符串

Read More…

说说Discuz和jQuery冲突

Nov 8th,2011 No Comments

最近看Discuz的common.js,有如下内容:

function $(id) {
   return document.getElementById(id);
}

看到不免心生鄙视,这里也有个$()函数,会造成和引入的Jquery冲突, 就只是为了实现getElementById?功能没有人家强大就别学人家用美元符号嘛,占用符号资源。应该学学百度,人家就用一个字符G,多低调不和别人争美元。
关于$()函数的冲突,jQuery中给出了解决方法,jQuery.noConflict(),把美元让给你(看看人家多大肚),这里建议Discuz还是放弃$吧,你改个D也不错嘛。
Read More…

WordPress SEO

Nov 8th,2011 No Comments

转载自:http://www.neoease.com/wordpress-seo-tips/

随着搜索引擎大兴, 排列在前的网站引入大量流量. 无论是搜索页面的广告还是查出来的结果, 与搜索者的目标匹配度都比较高 (如果搜索引擎足够智能), 所以通过搜索引擎而来的访客很可能会从网站上得到他想要的东西, 并记住这个网站. 也就是说, 搜索引擎会带来很多有价值的流量, 所以花点时间针对搜索引擎优化一下 WordPress 博客也是值得的. 本文将为你分享一些 WordPress SEO 技巧.

我不是什么 SEO 高手, 但作为一个搞搜索的前端开发, 或多或少知道一点, 折腾一下算是自我陶醉, 高人请绕道前行.

Read More…

控制Google +1加载顺序

Nov 8th,2011 No Comments

种种原因,在天朝用Google+会经常影响到页面加载,下面JS可以让页面显示完再加载plusone。

优化过的OCR

Nov 7th,2011 No Comments

人机识别新进展,近日从斯坦福大学某个研究团队传出:这些研究人员做出来的DeCaptcha工具采用改进的OCR技术,在对包括Google、百度、Visa、暴雪战网、维基百科、eBay和CNN在内的15个知名网站测试中或多或少破解了其中13个的验证码,有兴趣可以考虑其服务,Decaptcha(PDF)

reCaptcha

Read More…

小规模低性能低流量网站优化

Nov 6th,2011 1 Comment

假定现在你已经有了一个基本的 VPS 可用,基本内存 512MB 。参考官方提供的各种安装指导将 LAMP 这个组合运行了起来,操作系统一般 Ubuntu ,Web 服务器 Apache ,数据库 MySQL ,然后是 PHP ,以及需要安装的应用软件,WordPress 、Drupal 或是 OpenCart 什么的,一步一步配置好,能够正常的浏览页面。按照官方指导文档操作的一个好处是会包括一些基本的优化一点的配置。不至于出现太大的错误。

一旦应用就绪后,登录到操作系统中,通过 top / iostat / free 等基本操作系统命令收集基准数据,做记录。收集信息越全面,对于后面的优化就越便利。优化没有魔法,只有合理的方法。

Read More…

统战官员的幽默

Nov 5th,2011 No Comments

中央国家机关工委统战(群工)部部长谈宜彦4日在召开的“机关统战工作规律研讨会”上指出,机关党外人士队伍后继乏人、普遍面临青黄不接的问题,特别是一些民主党派,由于门槛过高等原因,成员发展比较困难,应引起关注。

一直很佩服LD们的智慧,今天这位统战官员再次印证这点。个人猜想下LD当时说这些话的可能心态,如下:

  1. 生活实在太无聊了,没事出来表示表示,博人一笑
  2. 想升官了,引起上面领导注意
  3. 第三个可能。。。