D-haha 的情侣博客 » 只言片语 » 时间胶馕 - 电子文档的长久保存(待完善)
(声明: 本文绝对是以偏盖全的个人看法, 觉得我说的不对当没看过就是了.)
我对那个时间胶馕网站并不感兴趣, 但如何长久的保存电子文档的确是一件棘手的事情.
文明之初的青铜铭文(中国), 泥板文(巴比伦), 草纸书(古埃及) 等等可以在几千后出土并供后人研究. 尽管它们的信息含量很少, 但却能历经久远的时空.
随着科技的发展, 文明的承载物却越来越来越无法经受时间的考验了. 当出版物进入电子时代后, 信息容量与信息成本的比值越来越高, 但可以保存的时间却越来越短.
这里有硬件寿命的原因, 试想一个二十年还没有坏的硬盘是不是一个怪物. 更有技术发展的原因, 每当完成一次软件或硬件的升级都会使一些文件面临着无法运行或打开的灾难.
当代科技使个人电脑内建立一个电子图书馆完全成为可能, 但这个图书馆可能在数年之间变得无法运转, 其维护成本相对于建立成本来说高得可怕. 当每次我不得不删除一些无法打开的文件后, 我都在关心哪些文档格式能够更长久的保存.
(这里的文档指的是仅包含图片与文字的文档, 音频视频与Flash不在此列.)
EXE可执行文件
保存时长: ★☆☆☆☆
创建难度: ★★★★★
编辑难度: ★★★★★
访问性能: ★★☆☆☆
总体维护成本: ★★★★★
EXE文件是最靠不住的, 操作系统的升级, 常会导致一些程序无法运行, 而操作平台的更换, 几乎会使所有的程序废掉. 而且EXE文件还容易遭到病毒等破坏, 我的IBM驱动的安装备份就曾因移动硬盘中毒而全部无法使用. 那次事件导致了两个结果: 备份多个复本和不再把硬盘借给任何人.
有一种流行的方式是把文档制成EXE电子书. 这是一种最短视的行为, 这些年下载的这种读物到了今天至少有三分之一因为各种原因无法打开了. 即使正常的部分, 也基本无法检索和再编辑. 所以我对这种电子书极其失望和痛恨, 它们几乎没有任何保留价值.
CHM帮助文档
保存时长: ★★☆☆☆
创建难度: ★★★★★
编辑难度: ★★★★☆
访问性能: ★★★☆☆
总体维护成本: ★★★★☆
这也是一种流行的电子书格式. 无论如何, 这种方式可以比EXE文件保存的更为长久. 但如果有一天帮助文档不再以这种格式存在, 那种这种读物也会变得毫无意义. 这不是不可能的, 帮助文档是要随软件而升级的, 所以没有理由可以证明这种格式的标准是稳定的, 并且一定会向下兼容的(相对于其它格式, 它最没有向下兼容的必要).
DOC文档和WPS文档
保存时长: ★★★☆☆
创建难度: ★☆☆☆☆
编辑难度: ★☆☆☆☆
访问性能: ★★★☆☆
总体维护成本: ★★★☆☆
我们常常依赖的Word文档作为一种临时交换文件的形式是绰绰有余的. 但其稳定性却令人沮丧. 其过多的功能和复杂的格式使其内部常常出现各种各样的问题. 不当的操作常常会损坏文件, 而这种文件恰恰又是可以随时操作的. 作为最常用的文档格式, 其受到的病毒等攻击也最多, 这种攻击可能使整台机器, 整个机房甚至远比这大的多的范围内的文档全部遭到破坏, 除非能有完全独立的备份可以恢复. 但同样是因为最常用, 它随同它的编辑软件一起将会得到官方最好的保护. 并且对这种格式的升级和转换的支持也将会是最好的, 它也更多的被其它软件照顾到. 但请记住, 如果您比较外行, 那这些保护和升级转换等支持将对您没有任何用处.
PDF文档
保存时长: ★★★★☆
创建难度: ★☆☆☆☆
编辑难度: ★★☆☆☆
访问性能: ★★★★★
总体维护成本: ★★☆☆☆
相对专业的一种常用的格式. 文献的保存. 印刷出版物的电子编辑一般都用这种格式. 这种格式的编辑和阅读相对独立, 保存内容相对固定的文档其阅读效果和稳定性显然要好过DOC. 而Adobe公司提供的技术支持也绝不逊色于微软. 按照Adobe公司的传统, 其软件内核一般在6.0版左右固定下来. 所以4.0及以前生的PDF可能会存在一些问题, 建议尽量使用6.0以后的版本.
PDF能很好的支持文件的合并, 可以把很多小文件合并保存, 同时建立内部标签. 一个几兆或更大的DOC文档简直是定时炸弹, 但同样大小的PDF文档则要安全的多, 而PDF文档更提供对于大量该格式文档的索引.
生成PDF也是极其容易的. 网站, 邮件等都可以很简便的转换成PDF来保存. 几乎所有的程序(只要有打印接口)都可以将文本内容发布成PDF.(只是有些细节上的处理比较烦人, 除非您对打印很在行.)
HTML文档
保存时长: ★★★★☆
创建难度: ★★★☆☆
编辑难度: ★★☆☆☆
访问性能: ★★★★☆
总体维护成本: ★★★★☆
DOC和PDF似乎都不及HTML长寿, 因为HTML更加原生态. 其XML标签标准明确, 而且功能单纯. 八年前的DOC和PDF拿到现在来肯定问题多多, 但HTML却基本无碍. 但也正是由于其原生态, HTML简直就是一堆散件, 一个文件往往拖着数量众多的额外元素文件, 想想如果COPY几个G的HTML文档, 那简直是一种灾难. 此外HTML创建编辑不很方便, 阅读起来也会因为阅览器不同而各异. 其完全开放的代码使其被篡改的风险也不低. 看来HTML虽然理论上可以比PDF和DOC保存更长时间, 但却绝不是一个可取的选择.
以上的方式可充分照顾图文及格式, 甚至于链接. 以下方式在不求全面时也可使用.
TXT文档
保存时长: ★★★★★
创建难度: ☆☆☆☆☆
编辑难度: ☆☆☆☆☆
访问性能: ★★☆☆☆
总体维护成本: ★☆☆☆☆
毫无疑问, 这绝对是寿星, 已经是元老级而且将继续下去. 显然如果您只想保存文字且不在乎格式. TXT绝对是可靠的.
RTF与WRI
保存时长: ★★★★★
创建难度: ☆☆☆☆☆
编辑难度: ★☆☆☆☆
访问性能: ★★☆☆☆
总体维护成本: ★★☆☆☆
无聊的东西, 大多数情况下绝对是鸡肋.
JPEG, GIF, PNG etc.
保存时长: ★★★★★
创建难度: ★★☆☆☆
编辑难度: ★★★★☆
访问性能: ★☆☆☆☆
总体维护成本: ★★★★☆
这种方式就比较古怪了, 不排除有人这么做的, 而且显然这种方式可以完美的记录原始形态. 但是, 该怎么编辑, 组合, 索引, 查找它们呢?
但然还有一些古怪的方法, 但似乎更没有意义讨论那些.
而不管用什么格式, 把欲长期保存的文档设成只读都是必要的.
发表评论: