Ti

MSL Curiosity 预告

Nov 22nd,2011 No Comments

这次着陆方式又进了一步
Curiosity Rover Trailer

哈工大语言技术相关

Nov 22nd,2011 No Comments

哈工大社会计算与信息检索研究中心的研究方向包括文本检索、文本挖掘、语言分析、跨语言检索五个方面，研究中心以认知心理学和机器学习为理论，以语言分析为基础研究，以信息抽取、文本检索、跨语言/媒体检索为应用研究，以精准搜索与挖掘系统为应用系统平台。下面是一些它们非常不错的产品。

系统演示

语言技术平台（LTP, Language Technology Platform）

文本挖掘系统（TMS, Text Mining System）

改进的同义词替换算法

Nov 20th,2011 No Comments

一种改进的基于同义词替换的中文文本信息隐藏方法

作者：甘灿，孙星明，刘玉玲，向凌云

（湖南大学计算机与通信学院，湖南长沙410082）

1 基于同义词替换的隐藏算法

基于同义词替换的方法是目前中文自然语言信息隐藏方法中使用最为广泛的方法。在同义词替换中，通过选择载体文本中在某一同义词库中出现的词，并根据一定的编码方式对这些词进行同义词替换，以此来嵌入隐藏信息。这里所谓的同义词，一般定义为“同一种语言中，在一些或全部的义项中具有相同或基本相同的意思的两个或多个词”。若设载体文本为C，隐秘信息为M，隐藏信息后的文本为S，同义词库为D，则有嵌入函数e()和提取函数d()，使得：

e(C,M,D)=S， d(S,D)=M，并且C和S在语义上保持不变。

分词系统汇总

Nov 20th,2011 No Comments

分词的原理

1、英文分词的原理

基本的处理流程是：输入文本、词汇分割、词汇过滤（去除停留词）、词干提取（形态还原）、大写转为小写、结果输出。

2、中文分词原理

中文分词比较复杂，并没有英文分词那么简单。这主要是因为中文的词与词之间并不像英文中那样用空格来隔开。

主要的方法有三种：基于词典匹配的分词方法、基于语义理解的分词、基于词频统计的分词。

计算所汉语词性标记集v5.0

Nov 19th,2011 No Comments

常用汉语词性标记集有以下这些：

计算所一级标注
计算所二级标注
北大一级标注
北大二级标注

下面是计算所汉语词性标记集v5.0，不懂是哪级…应该都差不了多少。

SimplePie 实用的RSS 解析程序

Nov 18th,2011 No Comments

SimplePie 是一个 RSS 解析程序，今天试了一下，用它来解析RSS实在是太方便了。它和 WorPress 内部集成的MagpieRSS很类似。SimplePie 在对 RSS 或 Atom 的数据处理能力上毫不逊色于 MagpieRSS，并且 SimplePie 速度更快，而且功能也更加强大，SimplePie 拥有了比MagpieRSS 更多的实用方法和属性，这可以帮助你快速的构建一个 RSS 阅读器或 RSS 数据处理模块。

使用方法：

SimplePie下载地址：http://simplepie.org/downloads/

把下载下来的ZIP压缩包解压到某个目录下，在需要使用的时候把其中的simplepie.inc文件include进来就行了。

SimplePie 使用上非常简单，它的构造函数有三个参数。

feed_url 设置 Feed 的地址，可以输入多个。
cache_location 设置缓存的文件夹
cache_duration 设置缓存时间，默认为60分钟

wordpress 计划任务机制

Nov 15th,2011 No Comments

wordpress的计划任务通过页面触发实现，只有页面被访问的时候，才判断当时是否有需要运行的后台任务，虽然后台任务是被用户的访问激活的，但后台任务的执行并不会影响用户的访问速度，因为Wordpress在处理用户请求时，发起一个独立的http请求到wp-cron.php页面后，并不等待wp-cron.php将后台任务执行完毕，也不继续接收由wp-cron.php返回的数据，而是立即处理用户的访问请求，这里有点类似多线程。

前台页面触发机制：

执行/wp-settings.php中的钩子sanitize_comment_cookies。
sanitize_comment_cookies调用/wp-includes/cron.php wp_cron。

php正则堆栈溢出(Segmentation fault)

Nov 11th,2011 No Comments

pcre 8.11版本存在一个栈溢出bug，linux线程栈默认大小是10240 kbytes，在正则匹配子模式大于22K会生成core 。

受影响函数:

preg_filter — 之行一个正则表达式搜索和替换
preg_grep — 返回匹配模式的数组条目
preg_last_error — 返回最后一个PCRE正则执行产生的错误代码
preg_match_all — 之行一个全局正则表达式匹配
preg_match — 执行一个正则表达式匹配
preg_quote — 转义正则表达式字符
preg_replace_callback — 执行一个正则表达式搜索并且使用一个回调进行替换
preg_replace — 执行一个正则表达式的搜索和替换
preg_split — 通过一个正则表达式分隔字符串

说说Discuz和jQuery冲突

Nov 8th,2011 No Comments

最近看Discuz的common.js，有如下内容：

function $(id) {
   return document.getElementById(id);
}

看到不免心生鄙视，这里也有个$()函数，会造成和引入的Jquery冲突，就只是为了实现getElementById？功能没有人家强大就别学人家用美元符号嘛,占用符号资源。应该学学百度，人家就用一个字符G，多低调不和别人争美元。
关于$()函数的冲突，jQuery中给出了解决方法，jQuery.noConflict()，把美元让给你（看看人家多大肚），这里建议Discuz还是放弃$吧，你改个D也不错嘛。
Read More…

WordPress SEO

Nov 8th,2011 No Comments

转载自：http://www.neoease.com/wordpress-seo-tips/

随着搜索引擎大兴, 排列在前的网站引入大量流量. 无论是搜索页面的广告还是查出来的结果, 与搜索者的目标匹配度都比较高 (如果搜索引擎足够智能), 所以通过搜索引擎而来的访客很可能会从网站上得到他想要的东西, 并记住这个网站. 也就是说, 搜索引擎会带来很多有价值的流量, 所以花点时间针对搜索引擎优化一下 WordPress 博客也是值得的. 本文将为你分享一些 WordPress SEO 技巧.

我不是什么 SEO 高手, 但作为一个搞搜索的前端开发, 或多或少知道一点, 折腾一下算是自我陶醉, 高人请绕道前行.