woaidongmao

文章均收录自他人博客,但不喜标题前加-[转贴],因其丑陋,见谅!~
随笔 - 1469, 文章 - 0, 评论 - 661, 引用 - 0
数据加载中……

URL 含中文路径名称的终极解法

URL 含中文路径名称的终极解法 - 利用 mod_fileiri 解决中文档名问题

当然,对付中文档名问题的最好的解决方法就是「绝对不要用中文档名」,然而在许多不得已的状况下,我们还是被迫要使用中文档名,这时候问题就来了....

Web Server 上使用中文档名最常遇到的问题就是会发生无法存取的错误

发生这种状况最主要的原因就是在 URL 的定义当中,并没有任何关于字符集(Charset)的信息。只有要求对于 URL 中的非 ASCII 符号,要用百分比符号的方式去编码 (例如: %A4 )

举个例子来说,对于下面这个含中文档名的 URL

http://bbs.giga.net.tw/fileiri/中文.html

由于「中文」两个字并非合法的 ASCII 字符,因此当你在浏览器的网址列输入上面这串 URL 时,浏览器会把非 ASCII 字符部分转换成 %HH 的形式输出
(
关于 URL 的编码方式,可参阅
Non-ASCII characters in URI attribute values 一文的说明)

但是,URL 中的中文字到底要用 BIG5 还是用 UTF-8 字符集来表示并编码呢?

在微软的 IE 里面,工具因特网选项进阶 有个选项「永远将 URL 传送成 UTF-8
如果是英文版则是「
Always send URLs as UTF-8

clip_image001

这个选项打勾的时候(这也是大部分计算机内定的状况),URL 中的中文字会被当成 Unicode,并用 UTF-8 编码方式送出,因此 URL 会被浏览器偷偷转成:

http://bbs.giga.net.tw/fileiri/%E4%B8%AD%E6%96%87.html

也就是说,「中文」这两个字会被浏览器用 UTF-8 编码成「%E4%B8%AD%E6%96%87」的型式后,再把这个编码过的 URL 送去给服务器

大部分的中文字用 UTF-8 编码会变成 3 bytes,所以「中文」两字就变成上面这 6 bytes 的编码「%E4%B8%AD%E6%96%87

但如果前述的「永远将 URL 传送成 UTF-8」选项是没有打勾的,那情况就不一样了,
这时候 URL 中的中文字会以 BIG5 的形式编码送出,URL 就会变成这样:

http://bbs.giga.net.tw/fileiri/%A4%A4%A4%A5.html

每个中文字用 BIG5 编码会变成 2 bytes,所以「中文」这两个字就变成上面这 4 bytes 的编码「%A4%A4%A4%A5

这是在客户端浏览器的乱象,不同的浏览器或甚至只是不同的设定,对同样中文档名所送出的 URL 编码格式都可能会不一样

那服务器收到这串 URL 要怎么处理呢?

如同前面所述,URL 网址本身并不含字符集(Charset)的信息,因此服务器当然也无法知道客户端浏览器采用那个字符集来对 URL 中的中文文件名解释、编码

所以服务器的标准动作就变成「收到什么档名就去读什么档案」

收到 UTF-8 编码的 URL,就用这个 UTF-8 的文件名称去 File System 找档案,收到 BIG5 编码的 URL,就用这个 BIG5 的文件名称去 File System 找档案

所以如果档案系统中的文件名是采用 UTF-8 编码,那用 BIG5 编码的 URL 去找档案就会找不到... 相反的,如果档案系统中的文件名是采用 BIG5 编码,那么用 UTF-8 编码的 URL 也会找不到档案!

尤其在 Apache/UNIX 的环境下,从 Windows FTP 把档案上传时,中文文件名称大多会使用 BIG5 的档名格式上传储存

所以大多数这类的系统都会要求用户不要在上述「永远将 URL 传送成 UTF-8」这个选项打勾,这样存取 BIG5 的中文档名就不会有问题了

不过,这种方式不是很友善,对于大多数的网友而言,要去改浏览器设定是很不方便的!

那有没有办法让浏览器不用更改设定就可以完美解决呢?

其实是有的,那就是这篇文章要介绍的 mod_fileiri 这个 Apache module

mod_fileiri 的最主要功用就是让服务器可以想办法去判断 URL 的编码,然后帮忙做转码、转址的动作,让服务器可以同时处理 UTF-8 及其它字符集的 URL 编码

以下是在 FreeBSD 下安装及设定 mod_fileiri 的方法:

首先是从 CVS 中取得这个 module

# fetch http://dev.w3.org/cvsweb/~checkout~/apache-modules/mod_fileiri/mod_fileiri.c

然后用 apxs 来编译及安装这个 module... (请用 root 身份执行)

# /usr/local/sbin/apxs -i -a -c mod_fileiri.c
/usr/local/share/apache2/build/libtool .....
/usr/local/share/apache2/build/libtool .....
/usr/local/share/apache2/build/libtool .....
cp .libs/mod_fileiri.so /usr/local/libexec/apache2/mod_fileiri.so
----------------------------------------------------------------------
Libraries have been installed in:
   /usr/local/libexec/apache2
 
If you ever happen to want to link against installed libraries
in a given directory, LIBDIR, you must either use libtool, and
specify the full pathname of the library, or use the `-LLIBDIR'
flag during linking and do at least one of the following:
   - add LIBDIR to the `LD_LIBRARY_PATH' environment variable
     during execution
   - add LIBDIR to the `LD_RUN_PATH' environment variable
     during linking
   - use the `-Wl,--rpath -Wl,LIBDIR' linker flag
 
See any operating system documentation about shared libraries for
more information, such as the ld(1) and ld.so(8) manual pages.
----------------------------------------------------------------------
grep: /usr/local/libexec/apache2/mod_fileiri.la: No such file or directory
grep: /usr/local/libexec/apache2/mod_fileiri.la: No such file or directory
Warning!  dlname not found in /usr/local/libexec/apache2/mod_fileiri.la.
Assuming installing a .so rather than a libtool archive.
chmod 755 /usr/local/libexec/apache2/mod_fileiri.so
[activating module `fileiri' in /usr/local/etc/apache2/httpd.conf]

apxs 不但会产生 mod_fileiri.so 并把它复制到 /usr/local/libexec/apache2/ 下面,
甚至还会帮你把 httpd.conf 的设定改好喔!

然后你只要重新启动 Apache 就完成了,简单吧!

# /usr/local/etc/rc.d/apache2.sh restart

接下来就要开始设定 mod_fileiri 的工作了...

mod_fileiri 有三个 directives 可用,分别是 FileIRIFilenameCharsetOldFilenameCharset,位置可以放在 Server Config / Directory / Virtual Host 里面,甚至 .htaccess 里面也可..

FileIRI 有四个选项: OffOnBackwardsOnly

Off 就不用说了,设定成 Off 等于是没有设定的状况

On 则是指档案系统上面的目录或文件名称使用的是比较旧的编码方式(Legacy Encoding),例如 BIG5,然后提供档案给所有采用 UTF-8 编码过的 URL,同时,如果 mod_fileiri 发现 URL 并不是采用 UTF-8 编码,就会对该 URL 做一个 HTTP/1.0 301 Moved Permanently,把它 redirect UTF-8 型式的 URL

如果以前述的例子来看,设定应该是这样的 (我习惯直接设在目录的 .htaccess 下面)

<IfModule mod_fileiri.c>
  FileIRI          On
  FilenameCharset  Big5
</IfModule>

这样设定之后,我们用 wget 来测试一下:

# wget -S -O /dev/null http://bbs.giga.net.tw/fileiri/中文.html
--10:29:34--  http://bbs.giga.net.tw/fileiri/%A4%A4%A4%E5.html
           => `/dev/null'
Resolving bbs.giga.net.tw... 203.187.29.180
Connecting to bbs.giga.net.tw|203.187.29.180|:80... connected.
HTTP request sent, awaiting response...
  HTTP/1.0 301 Moved Permanently
  Date: Thu, 08 Sep 2005 02:29:37 GMT
  Server: Apache/2.0.54 (FreeBSD) PHP/5.0.4
  Location: http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html
  Content-Length: 354
  Content-Type: text/html; charset=iso-8859-1
  X-Cache: MISS from WebAmpRP@GIGAMEDIA
  Connection: keep-alive
 
Location: http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html [following]
--10:29:34--  http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html
           => `/dev/null'
Reusing existing connection to bbs.giga.net.tw:80.
HTTP request sent, awaiting response...
  HTTP/1.0 200 OK
  Date: Wed, 07 Sep 2005 12:36:30 GMT
  Server: Apache/2.0.54 (FreeBSD) PHP/5.0.4
  Last-Modified: Wed, 07 Sep 2005 12:31:33 GMT
  ETag: "30bd3-14-b986f340;bc359880"
  Accept-Ranges: bytes
  Content-Length: 20
  Content-Type: text/html
  Age: 451
  X-Cache: HIT from WebAmpRP@GIGAMEDIA
  Connection: keep-alive
Length: 20 [text/html]
 
100%[====================================>] 20
 
10:29:34 (1.59 MB/s) - `/dev/null' saved [20/20]

从上面可以看到,原本用 BIG5 编码的 URL,被 redirect UTF-8 型式的 URL,然后就可以正确取得档案,而这个档案「中文.html」在档案系统上是用 BIG5 型式命名的

因此,利用 FileIRI On 就可以顺利解决大部分的中文档名问题了!

那如果你的文件名称是采用 UTF-8 命名的呢?这时候你就需要使用 Backwards 这个选项,例如:

<IfModule mod_fileiri.c>
  FileIRI             Backwards
  OldFilenameCharset  Big5
</IfModule>

上述设定的意思是说,所有档案系统上的档案都是用 UTF-8 命名,但是对于不是使用 UTF-8 编码方式的 URL,就会把它 redirect UTF-8 的版本,一样可以提供服务

FileIRI 还有另外一个选项 Only,这个选项则是设定只提供服务 UTF-8 编码过的 URL,而档案系统上的档案则是使用 Legacy Encoding。这个方式较不常用,就不多作介绍了

各种设定组合产生的效果可以参考 mod_fileiri 原始网站上面的说明:

http://www.w3.org/2003/06/mod_fileiri/

关于 URL 的字符集编码问题,可以参考下面这篇更详细的说明:

An Introduction to Multilingual Web Addresses - Handling the path

 

posted on 2011-05-28 20:25 肥仔 阅读(8955) 评论(0)  编辑 收藏 引用 所属分类: Web-后台


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理