Wenshu eBlog: 十二月 2003

2003/12/30

压缩算法与软件

现今的压缩格式种类繁多，常见的有zip,rar, 不常见的7z，imp，ace，bz2等，多的让人数不过来，今天有兴致研究了一把这些格式的压缩算法。
压缩算法包括有损，无损两种，一般的有损压缩是在执行特定的有损变换后再执行无损压缩，所以这里我们只讨论无损压缩算法。按照一些教材的分类(这些教材可能偏老，现代的压缩算法不知还能否这样分)，无损压缩一般可分为基于统计模型和基于字典模型的两大类，最早的应用于数据压缩领域的算法应该是基于统计模型的Huffman算法(1952)，在Unix和Dos的早期版本中都可以找到基于Huffman算法的软件，不过现在已经极少用了。
1977/1978，两个聪明的以色列人提出基于字典模型的算法LZ77，LZ78，这两个经典文献提出的算法成为了当代几乎所有流行压缩软件的算法核心。1982年, LZSS算法作为LZ77的改良被提出，大量的压缩软件使用了这个算法，如zip,arj,lharc等，1985年，LZ78的改良LZW提出，LZW 也得到广泛的应用，如GIF图像中的压缩算法，Unix下的compress程序。但由于LZW存在专利问题，此后的应用并没有LZSS广泛。
如今大量的新的压缩格式出现，如bzip2，imp，他们都能够提供比前辈们更高的压缩率，这些压缩软件的核心算法则比较新，如PPM，BWT等，也难以查到相关资料。不过有很多网站定期做最新压缩算法的评测，可以做参考http://compression.graphicon.ru/ybs或者http://www.maximumcompression.com/, 看看最新的评测结果，排名靠前的压缩软件有Slim 20，Durilca 0.3，Epm 9，7Zip 3.11，Paq6等, 只有7zip我用过，其它连听都没有听说过！它们大多能提供比WinRar3.3还要小10～20%的压缩结果，只是速度一般比较慢，耗用内存比较多，再加上用户界面的简陋(大多是命令行界面),所以没有流行起来，其中有些软件还是OpenSource的, 如PAQ, 7zip，厉害。

2003/12/29

访问过千

对于访问计数来说，1000实在是个很小的数字，不过对于我的网站来说，还是挺有纪念意义的，今天是2003/12/29，能够在2004年到来之前达到1000，我还是很高兴(超出我的预期 :)) 下一个数字是10000，目标就暂定在2005年吧。
Weblog在国内现在已经有很多人用了，光是在www.blogcn.com这个网站上，注册的Weblog用户已经超过10万，当然还不包括我这样的散户，以后准备找一些感兴趣的Weblog加入到我的链接里去。

2003/12/25

分页/skin

随着内容越来越多，再象原来那样一个页面列出所有帖子已经不太合适了，特别是CG类中有很多图像，一起列出会很耗时间，增加一个分页的功能，每页只显示部分帖子，然后可以一页一页前后翻，就像很多论坛里的帖子一样，这样可能比较好，b2的功能还是很强大的，并且扩充性很好，增加分页功能并没有费多大事情。
前两天还想起要增加skin，就是将这个页面的外观改变一下，这样我看久了也不会烦了，今天有空就做了一个，这个改动也不大(因为CSS我没有改)，原来的那个被放到index1.php了，所有的图象都是在Photoshop中做的，然后在Dreamweaver中组合成HTML，最后用文本编辑器手动修改一下，再加入php代码就可以了。整个过程并不复杂，原来准备将CSS也一并改掉的，这样看起来才会和以前的有很大不同，但CSS试了多次，效果都没有原来的好，就没有改了。
做下来感觉蛮有趣的，以后可以多做一些，反正可以从index1.php,index2.php一个一个排下去，呵呵.
(Blog是Weblog的简写，在中国Weblog被称作博客, 我想多半是来自Blog这个词，台湾的翻译叫做部落客，感觉也很形象)

2003/12/17

RDF/RSS

由于以前不知道b2中RDF/RSS功能的用处, 所以将此功能给禁止了, 现在才稍有些明白, 将RDF/RSS功能重新打开(看看页面右边内容下的两个XML图标), RDF/RSS可以看成对XML语义的定义(不是语法). 在Weblog里主要用来做Weblog的串连(基于XML), 达到自动更新的效果. 很多的网站都提供有RDF/RSS格式的更新资料, 如slashdot等.
RSS(RDF Site Summary)本身就是基于XML格式,它给出Web网站的更新描述, 当拿到一个站点的RSS以后,就可以自动分析出网站最近更新的内容,时间等详细信息, 注意这里是自动分析, 而不是人工分析, 这是RSS的最大功效, 比如可以做一个工具，定期到所有你喜欢的网站上去下载RSS，重新组织后呈现出来，非常方便。RDF和XML的说明可以参考这篇文章, 更多XML的资料可以参考IBM中国的XML专区, 上面有不错的文章.

2003/12/15

DjVu

DjVu是一种电子书格式, 据说是AT&T研究，专门针对扫描的图像，有相当高的压缩率。DjVu的官方说明是"The Technology for Scanned Documents on the Web"。现在DjVu格式的电子书还不是很多，这里可以看到一些DjVu文档的效果演示，但首先需要安装DjVu的IE插件，这样就可以象PDF一样在IE里面浏览了。
对于原有的扫描的图像格式的电子书，如JPG，GIF等，DjVu Solo这个软件可以将它们转换为DjVu格式。我手上原有一本扫描版的电子图书，GIF格式(对于一般的扫描电子书来说，黑白GIF应该是一个不错的选择)，一共大概有50M，使用DjVu Solo转换之后，大小为5.8M左右，相当的不错。可惜DjVu Solo这个软件好像耗费内存过大，每次不能转太多页，在我的机器上，我每次转50页，然后再将转换后的DjVu拼合起来成一个文件, 这显得相当麻烦。

Wenshu eBlog