C++博客-学海无涯-随笔分类-原创

计算主题映射概率（二）计算方法

小豪 — Tue, 07 Aug 2012 02:24:00 GMT

这部分是开始计算主题映射的概率，之前由于对这个过程比较模糊，因此浪费了许多时间，当后来对整个计算过程思路清晰时，整个代码写出来也就水到渠成了。
所以首先要解释如何计算主题映射概率，设源端为e，目标端为f。拿一个例子来说明（为了简化计算，这里假设每个句子源端和目标端各有三个主题分布，实际是各有100个主题分布）。

上面的e1,e2,e3表示的源端的语言的词，而对应的数字表示的是对应的主题分布。下面的f1,f2,f3表示的目标端的语言的词，对应的数字表示的是对应的主题分布。
      首先要计算源端跟目标端所有词的共现频次，即P(e1,f1), P(e1,f2), P(e1,f3), P(e2,f1), P(e2,f2), P(e2,f3), P(e3,f1), P(e3,f2), P(e3,f3)。得到这样的9个共现频次。计算方法以P(e1,f1)为例。P(e1,f1)=e1*f1*对齐连线个数=0.2*0.1*3。
      然后计算出所有n个句子中的这9个共现频次，并将所有的9个共现频次分别相加，得到e和f总的共现频次：P(e1,f1), P(e1,f2), P(e1,f3), P(e2,f1), P(e2,f2), P(e2,f3), P(e3,f1), P(e3,f2), P(e3,f3)。
      之后再根据这9个共现频次计算出e1,e2,e3,f1,f2,f3出现的总的频次，以P(e1)为例，即P(e1)=P(e1,f1)+P(e1,f2)+P(e1,f3),类似的P(f2)=P(e1,f2)+P(e2,f2)+P(e3,f2)。
接下去就可以计算映射概率了，得到的映射概率为P(e1/f1), P(e1/f2), P(e1/f3), P(e2/f1), P(e2/f2), P(e2/f3), P(e3/f1), P(e3/f2), P(e3/f3)。计算方法是根据条件概率公式得来的，具体的计算方法以P(e1/f1)为例， P(e1/f1)= P(e1,f1)/P(f1)。
我们可以将这9个映射概率构成一个源端映射的矩阵和一个目标端映射的矩阵，即：

之后将每个句子的源端主题分布视为一个向量{P(f1),P(f2),P(f3)}，与源端映射矩阵相乘得到直积，得到源端映射到目标端的主题分布P(e1),P(e2),P(e3)。同理可得目标端映射到源端的主题分布。
最后再将得到的映射主题分布插入进原始语料库中即可。

上图中第9行即是计算出的源端映射到目标端的主题分布，第11行是目标端映射到源端的主题分布。

小豪 2012-08-07 10:24 发表评论

计算主题映射概率（一）读取文档主题分布

小豪 — Mon, 06 Aug 2012 11:31:00 GMT

本次使用的语料一共有10934个文档，假设每个文档的主题分布是一样的。一个文档对应一个主题分布。因此，在计算主题映射概率之前，需要先对语料进行预处理，首先需要在语料库中读入主题分布。每个文档由来区分。
原始的语料文档的格式如下所示：

这是第一个文档中的前两句话。而读入主题分布之后的文档如下所示：

我们发现，其中加入了和这两个部分。前者是源端语言的主题分布，后者是目标端语言的主题分布。这些主题分布都是从指定文件中读入的。主题分布的文件中格式为：

这是源语言主题分布中的第一和第二个主题分布，每个主题分布包含100个主题分布概率。因此只要将每个分布读到语料中每个文档中的每个句子中。
整个算法的思想比较简单，首先找个每个文档，再在文档中定位到每个句子，在句子的对齐信息后面插入主题分布即可。首先给出的是定位到每个句子的代码：

1 string read_bead(string bead,string topic)
2 {
3     string str,str_lag,result;
4     istringstream input(bead,istringstream::in);
5     size_t x=0,y=0;
6     while(getline(input,str))
7     {
8         str_lag.append(str);
9         str_lag.push_back('\n');
10         y=str_lag.find("");//通过的标记来定位句子的末尾
11         if (y!=-1)
12         {
13             result+=read_topic(str_lag,topic);
14             str_lag.clear();
15         }
16     }
17     result=result+"";
18     return result;
19 }

找到句子之后再在句子的对齐信息之后插入主题分布：

1 string read_topic(string bead,string topic)
2 {
3     size_t x=0,y=0;
4     x=bead.find("");
5     bead.insert(x+12,topic);
6     return bead;
7 }

其中topic的string是事先从主题分布文件中读入的。
这样就完成了对语料的预处理，接下去就要进行对主题映射概率的计算。

参考文献：
1、A Topic Similarity Model for HPB_Xinyan Xiao_ACL 2012

2、Hidden Topic Markov Model

小豪 2012-08-06 19:31 发表评论

linux常用命令介绍（不断更新）

小豪 — Mon, 06 Aug 2012 08:16:00 GMT

由于我们运行大的程序都要在服务器上运行，因此能够熟练运用一些linux命令就很重要，下面就记录一些常用的命令。

1、pwd

pwd命令也是最常用最基本的命令之一，用于显示用户当前所在的目录。
2、cd

cd命令不仅显示当前状态，还改变当前状态，它的用法跟dos下的cd命令基本一致。

（1）cd ..可进入上一层目录

（2）cd -可进入上一个进入的目录

（3）cd ~可进入用户的home目录

（4）cd XXX 进入XXX子目录

3、ls

ls命令跟dos下的dir命令一样，用于显示当前目录的内容。

4、cp

cp命令用于复制文件或目录。

cp命令可以一次复制多个文件，例如：$cp *.txt *.doc *.bak /home。即将当前目录中扩展名为txt、doc和bak的文件全部复制到/home目录中。如果要复制整个目录及其所有子目录，可以用cp -R命令。

5、mv

mv命令用于移动文件和更名文件。
例1：$mv example.txt /home。即将当前目录下的example.txt文件移动到/home目录下。

例2：$mv example.txt sample.txt。即将example.txt文件改名为sample.txt。

类似于跟cp命令，mv命令也可以一次移动多个文件。

6、mkdir

这个命令很简单，跟dos的md命令用法几乎一样，用于建立目录。

-m: 对新建目录设置存取权限,也可以用chmod命令设置;

-p: 可以是一个路径名称。此时若路径中的某些目录尚不存在,加上此选项后,系统将自动建立好那些尚不存在的目录,即一次可以建立多个目录，例如: $ mkdir -p DIRC/hello。

7、tar.gz文件的压缩与解压缩

解压：tar zxvf FileName.tar.gz
压缩：tar zcvf FileName.tar.gz DirName

具体Linux下tar bz gz等压缩包的压缩和解压可以参考：http://www.bitscn.com/os/linux/200802/127470.html

8、iconv

文本文件字符编码转换

例：iconv -f gbk -t utf8 filename1 > filename2，即将filename1中gbk编码转换成utf8编码，并另存为filename2文档。

9、chmod

使用方式 : chmod [-cfvR] [--help] [--version] mode file...

说明 : Linux/Unix 的档案调用权限分为三级 : 档案拥有者、群组、其他。利用 chmod 可以藉以控制档案如何被他人所调用。

参数 :

mode : 权限设定字串，格式如下 : [ugoa...][[+-=][rwxX]...][,...]，其中u 表示该档案的拥有者，g表示与该档案的拥有者属于同一个群体(group)者，o 表示其他以外的人，a 表示这三者皆是。

+ 表示增加权限、- 表示取消权限、= 表示唯一设定权限。

r 表示可读取，w 表示可写入，x 表示可执行，X 表示只有当该档案是个子目录或者该档案已经被设定过为可执行。

-c : 若该档案权限确实已经更改，才显示其更改动作

-f : 若该档案权限无法被更改也不要显示错误讯息

-v : 显示权限变更的详细资料

-R : 对目前目录下的所有档案与子目录进行相同的权限变更(即以递回的方式逐个变更)

范例 :将档案 file1.txt 设为所有人皆可读取 :chmod ugo+r file1.txt。

将档案 file1.txt 设为所有人皆可读取 :chmod a+r file1.txt。

将档案 file1.txt 与 file2.txt 设为该档案拥有者，与其所属同一个群体者可写入，但其他以外的人则不可写入 :chmod ug+w,o-w file1.txt file2.txt。

将 ex1.py 设定为只有该档案拥有者可以执行 :chmod u+x ex1.py。

将目前目录下的所有档案与子目录皆设为任何人可读取 :chmod -R a+r *。　　

此外chmod也可以用数字来表示权限如 chmod 777 file

语法为：chmod abc file

其中a,b,c各为一个数字，分别表示User、Group、及Other的权限。

r=4，w=2，x=1

若要rwx属性则4+2+1=7；

若要rw-属性则4+2=6；

若要r-x属性则4+1=7。

范例：

chmod a=rwx file和chmod 777 file效果相同，chmod ug=rwx,o=x file和chmod 771 file效果相同，若用chmod 4755 filename可使此程序具有root的权限。

10、head

head :

你可以通过head命令查看具体文件最初的几行内容，该命令默认是前10行内容，如果你想查看前面更多内容，你可以通过一个数字选项来设置，例如 head -20 filename.txt。

11、tail

与head命令相反，tail命令是用来查看具体文件后面几行的内容，默认情况下，是查看该文件尾10行的内容，同样，如果想查看后面更多内容，也是通过数字选项来设置，例如tail -20 filename.txt。

12、more

功能：在终端屏幕按屏显示文本文件。

语法： more ［ - 选项］文件

说明：该命令一次显示一屏文本，显示满之后，停下来，并在终端底部打印出- - More- - ，系统还将同时显示出已显示文本占全部文本的百分比，若要继续显示，按回车或空格键即可。

more命令中各个选项的含义为：

- p 显示下一屏之前先清屏。

- c 作用同- p基本一样。

- d 在每屏的底部显示更友好的提示信息：

- - More- - （XX%）［Press space to contiune , ‘q’ to quit . ］

而且若用户输入了－个错误命令则显示出错信息，而不是简单地鸣响终端。

- l 不处理（换页符）。如果没有给出这个选项，则more命令在显示了一个包含有字符的行后将暂停显示，并等待接收命令。

- s 文件中连续的空白行压缩成一个空白行显示。

执行中的命令

在more命令的执行过程中，用户可以使用more自己的一系列命令动态地根据需要来选择显示的部分。more在显示完一屏内容之后，将停下来等待用户输入某个命令。下表列出了more指令在执行中用到的一些常用命令，而有关这些命令的完整内容，可以在more执行时按h查看。这些命令的执行方法是先输入i（行数）的值，再打所要的命令，不然它会以预设值来执行命令。

i空格若指定i，显示下面的i行；否则，显示下一整屏。

i回车若指定i，显示下面的i行；否则，显示下一行。

iD 若指定i，显示下面的i行；否则，往下显示半屏（一般为11行）。

id 同iD 。

iz 同“i空格”类似，只是i将成为以下每个满屏的缺省行数。

is 跳过下面的i行再显示一个整屏。预设值为1。

if 跳过下面的i屏再显示一个整屏。预设值为1。

iB 往回跳过（即向文件首回跳）i屏，再显示一个满屏。预设值为1。

b 与iB相同。

’ 回到上次搜索的地方　

q或Q 退出more。

＝显示当前行号。

v 在当前行启动/usr/bin/vi对之进行编辑修改。

h 显示各命令的帮助信息。

i/pattern 查找匹配该模式的第i行。预设值为1。

in 查找符合表达式的倒数i行。预设值为1。

! 或：! 在子shell中执行命令。

i：n 在命令行中指定了多个文件名的情况下，可用此命令使之显示第i个文件，若i过大（出界），则显示文件名列表中的最后一个文件。

i：p 在命令行中指定了多个文件名的情况下，可用此命令使之显示倒数第i个文件。若i过大（出界），则显示第一个文件。

i：f 显示当前文件的文件名和行数。

? 重复上次键人的命令。

13、Sed

1.sed -n '2'p filename

打印文件的第二行。

2.sed -n '1,3'p filename

打印文件的1到3行

3. sed -n '/Neave/'p filename

打印匹配Neave的行(模糊匹配)

4. sed -n '4,/The/'p filename

在第4行查询模式The

5. sed -n '1,$'p filename

打印整个文件，$表示最后一行。

6. sed -n '/.*ing/'p filename

匹配任意字母，并以ing结尾的单词(点号不能少)

7 sed -n / -e '/music/'= filename

打印匹配行的行号，-e 会打印文件的内容，同时在匹配行的前面标志行号。-n只打印出实际的行号。

8.sed -n -e '/music/'p -e '/music/'= filename

打印匹配的行和行号，行号在内容的下面

9.sed '/company/' a\ "Then suddenly it happend" filename

选择含有company的行，将后面的内容"Then suddenly it happend"加入下一行。注意：它并不改变文件，所有操作在缓冲区，如果要保存输出，重定向到一个文件。

10. sed '/company/' i\ "Then suddenly it happend" filename

同9，只是在匹配的行前插入

11.sed '/company/' c\ "Then suddenly it happend" filename

用"Then suddenly it happend"替换匹配company的行的内容。

12.sed '1'd ( '1,3'd '$'d '/Neave/'d) filename

删除第一行(1到3行，最后一行，匹配Neave的行)

13.[ address [，address]] s/ pattern-to-find /replacement-pattern/[g p w n]

s选项通知s e d这是一个替换操作，并查询pattern-to-find，成功后用replacement-pattern替换它。

替换选项如下：

g 缺省情况下只替换第一次出现模式，使用g选项替换全局所有出现模式。

p 缺省s e d将所有被替换行写入标准输出，加p选项将使- n选项无效。- n选项不打印输出结果。

w 文件名使用此选项将输出定向到一个文件。(注意只将匹配替换的行写入文件，而不是整个内容)

14.sed s'/nurse/"hello "&/' filename

将'hello '增加到'nurse' 的前面。

15. sed '/company/r append.txt' filename

在匹配company的行的下一行开始加入文件append.txt的内容。

16. sed '/company/'q filename

首次匹配company后就退出sed程序

14、ln

这是linux中一个非常重要命令，请大家一定要熟悉。它的功能是为某一个文件在另外一个位置建立一个同不的链接，这个命令最常用的参数是-s,具体用法是：ln -s 源文件目标文件。当我们需要在不同的目录，用到相同的文件时，我们不需要在每一个需要的目录下都放一个必须相同的文件，我们只要在某个固定的目录，放上该文件，然后在其它的目录下用ln命令链接（link）它就可以，不必重复的占用磁盘空间。

例如：ln -s /bin/less /usr/local/bin/less
-s 是代号（symbolic）的意思。
这里有两点要注意：
第一，ln命令会保持每一处链接文件的同步性，也就是说，不论你改动了哪一处，其它的文件都会发生相同的变化；
第二，ln的链接有软链接和硬链接两种，软链接就是ln -s ** **,它只会在你选定的位置上生成一个文件的镜像，不会占用磁盘空间，硬链接ln ** **,没有参数-s, 它会在你选定的位置上生成一个和源文件大小相同的文件，无论是软链接还是硬链接，文件都保持同步变化。
第三，软链接是可以跨分区的，但是硬链接只能在同一分区内。如果你用ls察看一个目录时，发现有的文件或文件夹的颜色和别的不一样，我机子上是蓝色的，那就是一个用ln命令生成的文件，用ls -l命令去察看，就可以看到显示的link的路径了。

15、rm

rm 文件名文件名删除一个文件或多个文件

rm -rf 非空目录名递归删除一个非空目录下的一切

小豪 2012-08-06 16:16 发表评论

统计源语言规则满足对齐一致性的次数（二）实际代码编写

小豪 — Mon, 06 Aug 2012 04:17:00 GMT

其实这个代码我写了两个版本，第一个版本仅仅是为了实现功能，而没有去考虑算法的复杂度与计算时间，而由于统计的语料是100万的语料，因此用第一个版本用了两三个小时都得不出结果。所以我在向学长请教之后，写出了第二个改进的版本，虽然耗时还是比较长，但是总算能够得出结果，而我也希望在日后的学习过程中能够能写出更优的算法。
算法的整体思想同样也比较简单，就是遍历整篇文档，切分其中的句子，再对句子进行单独的操作。对单个句子中，先遍历得出其中所有的源语言规则，同时统计其对齐信息，存放到map中，之后再判断是否满足对齐一致性，分别将所有出现的次数以及满足对齐一致性的次数存入两个map中，最后再输出结果。接下来看看具体代码。
由于源语言以及对齐信息对是连续的string，但是有用空格进行切分，因此首先写了一个小函数将每个部分单独切分出来，以便于后面的使用：

1 inline vector<string> split_word(string str,string sym)
2 {
3     str+=sym;
4     vector <string> result;
5     size_t pos;
6     int size=str.size();
7     for(int i=0; i 8     {
9         pos=str.find(sym,i);
10         if(pos11         {
12             string sub_string=str.substr(i,pos-i);
13             if(sub_string.length()!=0)
14             {
15                 result.push_back(sub_string);
16             }
17             i=pos+sym.size()-1;
18         }
19     }
20     return result;
21 }

这里使用了inline是因为之前看到内联函数适用于那些频繁使用的小函数，有利于提高运行效率。这里str表示的是需要进行切分的整串string，而sym表示的就是切分依据的分隔符，比如空格。第三行中在str后面又加了一个sym是为了便于切分，因为切分依据都是先找到sym的位置，再切分出sym的位置与初始位置之间的字符串。
接下来是将源语言对齐到目标语言的信息与目标语言对齐到源语言的对齐信息存入两个map中，由于其中可能存在一对多的情况，因此使用了map >来存取多个对齐关系。

1 void get_alignment_relationship(string alignment, map<int,vector<int> > &stt_alignment, map<int,vector<int> > &tts_alignment)
2 {
3     vector<string>alignment_element = split_word(alignment," ");
4     assert (alignment_element.size()>=0);
5     for (int i=0; i 6     {
7         vector<string>s_t_index= split_word(alignment_element[i],"-");
8         int s_index = atoi(s_t_index[0].c_str());
9         int t_index = atoi(s_t_index[1].c_str());
10
11         stt_alignment[s_index].push_back(t_index);
12         tts_alignment[t_index].push_back(s_index);
13     }
14     map<int,vector<int> >::iterator it1,it2;
15     it1=stt_alignment.begin();
16     stt_alignment.erase(it1);
17     it2=tts_alignment.begin();
18     tts_alignment.erase(it2);
19 }

stt_alignment 表示的是source to target，即源语言对齐到目标语言的对齐关系，而反之，tts_alignment 则表示目标语言对齐到源语言的对齐关系。
在得到对齐关系之后，通过判断对齐连线个数来判断是否符合对齐一致性：

1 inline bool is_fit_alignment(map<int,vector<int> > stt_alignment, map<int,vector<int> > tts_alignment, size_t s_begin, size_t s_end)
2 {
3     int src_size=0,tgt_size=0;
4     map<int,int> tgtcount;
5     map<int,int>::iterator iter;
6     for (int x=s_begin;x 7     {
8         src_size+=stt_alignment[x].size();
9         for (size_t a=0;a10         {
11             tgtcount[stt_alignment[x][a]]++;
12
13         }
14     }
15         for(iter=tgtcount.begin();iter!=tgtcount.end();iter++)
16         {
17             tgt_size+=tts_alignment[iter->first].size();
18         }
19         if (src_size==tgt_size && src_size!=0)
20             return true;
21         return false;
22 }

通过bool函数来判断是否满足对齐一致性。
以上就是一些主要的函数方法。写完这个代码最大的收获就是由于之前不懂得怎么在函数中返回STL容器，因此当遇到需要使用map或者vector之类的容器时，就只好在main函数中实现，而现在了解了可以在函数中使用指针来返回容器。这对于以后代码的编写提供了非常大的便利。而且通过写这个代码，也对于语料的结构以及怎么处理语料有了更深入的了解，这对于以后编写自然语言处理方面的代码有了很大的帮助。

小豪 2012-08-06 12:17 发表评论

统计源语言规则满足对齐一致性的次数（一）概念介绍

小豪 — Mon, 06 Aug 2012 04:14:00 GMT

这是写的第二个个人感觉较有挑战性的代码，老师布置的任务真是一次比一次难，不过也从中学习到蛮多东西的。

这次的任务是要计算语料库中，源语言规则出现的总的次数以及满足对齐一致性的次数。

这个任务的第一个难点就是我对什么是源语言规则以及什么叫满足对齐一致性这个概念不大清楚。因此首先来介绍一下这两个概念。我们用一个例子来说明：

对于这句话，其中上面的中文是源语言，下面的英文是目标语言，而中间的连线则是它们之间的对齐关系。这句话在语料库中的表示应该为：

1
2 ~~是不能忘记的。~~
3 ~~was not to be forgotten .~~
4 0-0 1-1 2-2 3-2 4-4 4-5 6-6 7-7
5

       其中bead范围内表示的是一整个句子，和是句子的首尾标识符，同样也算在对齐关系里面。而表示的是源语言，表示的是目标语言，表示的是对齐关系。
    我们首先来介绍什么是源语言规则，源语言规则有一些限制，首先要限制在一定的长度之内，这里我将长度限制为7，然后繁殖度规则，不过这里我没有将其考虑进去。还有一些概念我也说不大清楚，因此同样还是举例来说明。对于“是不能忘记的”这句话，其中包含的源语言规则就包括：是，是不，是不能，是不能忘记，是不能忘记的；不，不能，不能忘记，不能忘记的；能，能忘记，能忘记的；忘记，忘记的。通过这个例子就可以看到源语言规则即是将句子中所有可能组成遍历一遍，而其中单独的“的”不构成源语言规则是因为它没有对齐关系。
    接下来我们介绍什么叫满足对齐一致性。我同样觉得概念好像很难解释清楚，当初请教学长的时候也是画图来表示比较直观明了。如果非要说概念的话应该是就源语言和目标语言的对齐不会超出互相对齐的范围之内。用例子来表示就是与“是不”对齐的是“was not”，但是与“was not”对齐的是“是不能”，可见目标语言对齐到源语言时超出了源语言的范围，因此“是不”这个源语言规则就不满足对齐一致性，而“是不能”则满足对齐一致性。而在代码编写过程中，要判断一个源语言规则是否满足对齐一致性的简单的方法就是判断对齐连线个数，即该源语言规则对齐到相应目标语言的对齐连线数目等于相应目标语言对齐到源语言规则的对齐连线时，则该源语言规则满足对齐一致性。

小豪 2012-08-06 12:14 发表评论

测试集语料的合并

小豪 — Mon, 06 Aug 2012 04:11:00 GMT

    这是久久没有写c++程序之后，写的第一个相对比较久的程序。目的就是将nist03，04，05这三个单独的测试集进行合并，以进行bleu值的测算。三个测试集中分别包含源文，参考译文，还有4个机器译文。而最后的结果就是要分别将三个测试集的源文，参考译文，以及机器译文进行合并。
方法的思想其实很简单，其中源文和参考译文的合并只要将三个单独的文档合并成一个文档，并稍微改一下格式就可以完成了。而难点就在于机器译文的合并。因为每篇源文中对应了四个机器译文。
    单独用文字不容易说明这个问题，我们将其形象化。比如nist03的源文是A，04的源文是B，05的源文是C。而A对应的对应的机器译文是abcd，B对应的机器译文是efgh，C对应的机器译文是ijkl。
    这里解释一下什么是A对应abcd，即比如A是一整篇文档，而a，b，c，d分别是机器给出的这篇文档的4个翻译，所以机器译文的文档就是将a,b,c,d这4个译文顺序排列，并用指定的标识符来与源文进行对应。
    而如果我们将源文进行合并了之后，那么源文就变成了ABC，所以机器译文也要相应做出改变，而不能单纯地将机器译文的三个文档简单合并。ABC对应的第一个机器译文是aei，第二个机器译文是bfj,第三个机器译文是cgk,第四个机器译文是dhl，所以我们将机器译文合并后的排列顺序就应该调整为aeibfjcgkdhl。
由于对于c++我是初学者，所以我实现的方法可能比较粗暴简单。对于每个机器译文，在最开始都有一个来进行结束。因此我们只要根据这两个标识符就可以区分出所有的机器翻译，然后再对其进行重新组合。
以其中一个代码为例：

1 string PartOne(string s)
2 {
3      size_t x=0,y=1,z=0;
4      string tmp;
5      x=s.find("");
6      y=s.rfind("sysid=\"E01\"");
7       z=s.find("",y);
8      tmp.append(s,x,z-x+6);
9       return tmp;
10 }

这个代码是分割出nist03中的第一个机器译文，我们可以看出"AFC20030102.0015\" sysid=\"E01\">" 是这个译文的标识符，E01表示的是第一个译文，同理E02，E03，E04表示的就是第二，第三，第四个译文。
而由于nist03，04，05的机器译文格式不完全一样，因此为了最后计算bleu值时能够被识别，必须将所有机器译文的格式进行统一（我一开始就是没有将格式进行统一，以至于合并了之后也无法计算bleu值）。

1 string PartTwo(string s)
2 {
3     size_t x=0,y=1,z=0;
4     string tmp;
5     x=s.find("");
6     y=s.rfind("sysid=\"cha\"");
7     z=s.find("",y);
8     tmp.append(s,x,z-x+6);
9     int pos=0;
10     while(1)
11     {
12         pos=tmp.find("sysid=\"cha\"",pos+5);
13         if (-1 == pos)
14             break;
15         else
16         tmp = tmp.substr(0,pos)+"sysid=\"E01\""+tmp.substr(pos+11);
17
18     }
19     return tmp;
20 }

       以这个例子来说明，这是分割出nist04的第一个机器译文，而由于nist04的机器译文中，第一个译文是用 sysid="cha"来进行识别，因此第11行到第18行就是进行格式的统一，将cha替换成E01（我们这里默认都使用跟nist03一样的格式）。后面的机器译文也是使用类似的方法进行处理。
    这样将所有译文都分割出来并统一格式之后，再将他们合并之后就完成了整个代码的编写。
    这里再给出将所有代译文合并的过程：

1 out<<"";
2 out<3 <4 <5 <6 out<<"";

头尾的两个out是输出特定的首尾格式。out是将其输出到事先指定好的文档中。
最后对这个编写代码的过程进行思考总结。首先可能由于我对c++的编写不是太熟练，很多方法也不会用，因此将这个看去其实很简单的代码也写了好久，并不断修正各种小错误。其中遇到最大的困难还是不知道要如何更便捷的修改格式，因此采用了最粗暴的方式，这样可能会导致算法的复杂度更高，需要消耗的时间更久，在以后的学习过程中希望能够学会使用更简便的方法。

小豪 2012-08-06 12:11 发表评论