C++博客-学海无涯

（转）C++随机数生成方法

nlp — Mon, 19 Nov 2012 11:06:00 GMT

一、C++中不能使用random()函数

==================================================================================

本文由青松原创并依GPL-V2及其后续版本发放，转载请注明出处且应包含本行声明。

C++中常用rand()函数生成随机数，但严格意义上来讲生成的只是伪随机数（pseudo-random integral number）。生成随机数时需要我们指定一个种子，如果在程序内循环，那么下一次生成随机数时调用上一次的结果作为种子。但如果分两次执行程序，那么由于种子相同，生成的“随机数”也是相同的。

在工程应用时，我们一般将系统当前时间(Unix时间)作为种子，这样生成的随机数更接近于实际意义上的随机数。给一下例程如下：

#include
#include
#include
using namespace std;

int main()
{
double random(double,double);
srand(unsigned(time(0)));
for(int icnt = 0; icnt != 10; ++icnt)
cout << "No." << icnt+1 << ": " << int(random(0,10))<< endl;
return 0;
}

double random(double start, double end)
{
return start+(end-start)*rand()/(RAND_MAX + 1.0);
}
/* 运行结果
* No.1: 3
* No.2: 9
* No.3: 0
* No.4: 9
* No.5: 5
* No.6: 6
* No.7: 9
* No.8: 2
* No.9: 9
* No.10: 6
*/
利用这种方法能不能得到完全意义上的随机数呢？似乎9有点多哦？却没有1,4,7？！我们来做一个概率实验，生成1000万个随机数，看0-9这10个数出现的频率是不是大致相同的。程序如下：
#include
#include
#include
#include
using namespace std;

int main()
{
double random(double,double);
int a[10] = {0};
const int Gen_max = 10000000;
srand(unsigned(time(0)));

for(int icnt = 0; icnt != Gen_max; ++icnt)
switch(int(random(0,10)))
{
case 0: a[0]++; break;
case 1: a[1]++; break;
case 2: a[2]++; break;
case 3: a[3]++; break;
case 4: a[4]++; break;
case 5: a[5]++; break;
case 6: a[6]++; break;
case 7: a[7]++; break;
case 8: a[8]++; break;
case 9: a[9]++; break;
default: cerr << "Error!" << endl; exit(-1);
}

for(int icnt = 0; icnt != 10; ++icnt)
cout << icnt << ": " << setw(6) << setiosflags(ios::fixed) << setprecision(2) << double(a[icnt])/Gen_max*100 << "%" << endl;

return 0;
}

double random(double start, double end)
{
return start+(end-start)*rand()/(RAND_MAX + 1.0);
}
/* 运行结果
* 0: 10.01%
* 1: 9.99%
* 2: 9.99%
* 3: 9.99%
* 4: 9.98%
* 5: 10.01%
* 6: 10.02%
* 7: 10.01%
* 8: 10.01%
* 9: 9.99%
*/
可知用这种方法得到的随机数是满足统计规律的。

另：在Linux下利用GCC编译程序，即使我执行了1000000次运算，是否将random函数定义了inline函数似乎对程序没有任何影响，有理由相信，GCC已经为我们做了优化。但是冥冥之中我又记得要做inline优化得加O3才行...

不行，于是我们把循环次数改为10亿次，用time命令查看执行时间：
chinsung@gentoo ~/workspace/test/Debug $ time ./test
0: 10.00%
1: 10.00%
2: 10.00%
3: 10.00%
4: 10.00%
5: 10.00%
6: 10.00%
7: 10.00%
8: 10.00%
9: 10.00%

real 2m7.768s
user 2m4.405s
sys 0m0.038s
chinsung@gentoo ~/workspace/test/Debug $ time ./test
0: 10.00%
1: 10.00%
2: 10.00%
3: 10.00%
4: 10.00%
5: 10.00%
6: 10.00%
7: 10.00%
8: 10.00%
9: 10.00%

real 2m7.269s
user 2m4.077s
sys 0m0.025s

前一次为进行inline优化的情形，后一次为没有作inline优化的情形，两次结果相差不大，甚至各项指标后者还要好一些，不知是何缘由...

=================================================================================

random函数不是ANSI C标准，不能在gcc,vc等编译器下编译通过。可改用C++下的rand函数来实现。 1、C++标准函数库提供一随机数生成器rand，返回0－RAND_MAX之间均匀分布的伪随机整数。 RAND_MAX必须至少为32767。rand()函数不接受参数，默认以1为种子（即起始值）。随机数生成器总是以相同的种子开始，所以形成的伪随机数列也相同，失去了随机意义。（但这样便于程序调试）
2、C++中另一函数srand（），可以指定不同的数（无符号整数变元）为种子。但是如果种子相同，伪随机数列也相同。一个办法是让用户输入种子，但是仍然不理想。
3、比较理想的是用变化的数，比如时间来作为随机数生成器的种子。 time的值每时每刻都不同。所以种子不同，所以，产生的随机数也不同。
// C++随机函数（VC program）
#include
#include
#include
using namespace std;
#define MAX 100
int main(int argc, char* argv[])
{ srand( (unsigned)time( NULL ) );//srand()函数产生一个以当前时间开始的随机种子.应该放在for等循环语句前面不然要很长时间等待
　　 for (int i=0;i<10;i++)
　　 cout<　　 return 0;
}
二、rand()的用法
rand()不需要参数，它会返回一个从0到最大随机数的任意整数，最大随机数的大小通常是固定的一个大整数。这样，如果你要产生0~10的10个整数，可以表达为：
　　int N = rand() % 11;
这样，N的值就是一个0~10的随机数，如果要产生1~10，则是这样：
　　int N = 1 + rand() % 10;
　　总结来说，可以表示为：
　　a + rand() % n
其中的a是起始值，n是整数的范围。　　a + rand() % (b-a+1) 就表示　ａ～ｂ之间的一个随机数若要0~1的小数，则可以先取得0~10的整数，然后均除以10即可得到随机到十分位的10个随机小数，若要得到随机到百分位的随机小数，则需要先得到0~100的10个整数，然后均除以100，其它情况依此类推。
通常rand()产生的随机数在每次运行的时候都是与上一次相同的，这是有意这样设计的，是为了便于程序的调试。若要产生每次不同的随机数，可以使用srand( seed )函数进行随机化，随着seed的不同，就能够产生不同的随机数。
如大家所说，还可以包含time.h头文件，然后使用srand(time(0))来使用当前时间使随机数发生器随机化，这样就可以保证每两次运行时可以得到不同的随机数序列(只要两次运行的间隔超过1秒)。

nlp 2012-11-19 19:06 发表评论

（转）自然语言处理及计算语言学相关术语中英对译表

nlp — Wed, 10 Oct 2012 11:42:00 GMT

本文转自：http://www.ebigear.com/news-26-20865.html

abbreviation 缩写 [省略语]

ablative 夺格(的)

abrupt 突发音

accent 口音/{Phonetics}重音

accusative 受格（的）

acoustic phonetics 声学语音学

acquisition 习得

action verb 动作动词

active 主动语态

active chart parser 活动图句法剖析程序

active knowledge 主动知识

active verb 主动动词

actor-action-goal 施事(者)-动作-目标

actualization 实现(化)

acute 锐音

address 位址{资讯科学}/称呼（语）{语言学}

adequacy 妥善性

adjacency pair 邻对

adjective 形容词

adjunct 附加语 [附加修饰语]

adjunction 加接

adverb 副词

adverbial idiom 副词片语

affective 影响的

affirmative 肯定（的；式）

affix 词缀

affixation 加缀

affricate 塞擦音

agent 施事

agentive-action verb 施事动作动词

agglutinative 胶着（性）

agreement 对谐

AI (artificial intelligence) 人工智慧 [人工智能]

AI language 人工智慧语言 [人工智能语言]

Algebraic Linguistics 代数语言学

algorithm 演算法 [算法]

alienable 可分割的

alignment 对照 [多国语言文章词；词组；句子翻译的]

allo- 同位-

allomorph 同位语素

allophone 同位音位

alpha notation alpha 标记

alphabetic writing 拼音文字

alternation 交替

alveolar 齿龈音

ambiguity 歧义

ambiguity resolution 歧义消解

ambiguous 歧义

American structuralism 美国结构主义

analogy 类推

analyzable 可分析的

anaphor 照应语 [前方照应词]

animate 有生的

A-not-A question 正反问句

antecedent 先行词

anterior 舌前音

anticipation 预期 (音变)

antonym 反义词

antonymy 反义

A-over-A A-上-A 原则

apposition 同位语

appositive construction 同位结构

appropriate 恰当的

approximant 无擦通音

approximate match 近似匹配

arbitrariness 任意性

archiphoneme 大音位

argument 论元 [变元]

argument structure 论元结构 [变元结构]

arrangement 配列

array 阵列

articulatory configuration 发音结构

articulatory phonetics 发音语音学

artificial intelligence (AI) 人工智慧 [人工智能]

artificial language 人工语言

ASCII 美国标准资讯交换码

aspect 态 [体]

aspirant 气音

aspiration 送气

assign 指派

assimilation 同化

association 关联

associative phrase 联想词组

asterisk 标星号

ATN (augmented transition network) 扩充转移网路

attested 经证实的

attribute 属性

attributive 属性

auditory phonetics 听觉语音学

augmented transition network 扩充转移网路

automatic document classification 自动文件分类

automatic indexing 自动索引

automatic segmentation 自动切分

automatic training 自动训练

automatic word segmentation 自动分词

automaton 自动机

autonomous 自主的

auxiliary 助动词

axiom 公理

baby-talk 儿语

back-formation 逆生构词(法)

backtrack 回溯

Backus-Naur form 巴科斯诺尔形式 [巴科斯诺尔范式]

backward deletion 逆向删略

ba-construction 把─字句

balanced corpus 平衡语料库

base 词基

Bayesian learning 贝式学习

Bayesian statistics 贝式统计

behaviorism 行为主义

belief system 信念系统

benefactive 受益（格；的）

best first parser 最佳优先句法剖析器

bidirectional linked list 双向串列

bigram 双连词

bilabial 双唇音

bilateral 双边的

bilingual concordancer 双语关键词前后文排序程式

binary feature 双向特征[二分征性]

binding 约束

bit 位元 [二进位制;比特]

biuniqueness 双向唯一性

blade 舌叶

blend 省并词

block 封阻[封杀]

Bloomfieldian 布隆菲尔德(学派)的

body language 肢体语言

Boolean lattice 布林网格 [布尔网格]

borrow 借移

Bottom-up 由下而上

bottom-up parsing 由下而上剖析

bound 附着（的）

bound morpheme 附着语素 [粘着语素]

boundary marker 界线标记

boundary symbol 界线符号

bracketing 方括弧法

branching 分枝法

breadth-first search 广度优先搜寻 [宽度优先搜索]

breath group 换气单位

breathy 气息音的

buffer 缓冲区

byte 位元组

CAI (Computer Assisted Instruction) 电脑辅助教学

CALL (computer assisted language learning) 电脑辅助语言学习

canonical 典范的

capacity 能力

cardinal 基数的

cardinal vowels 基本元音

case 格位

case frame 格位框架

Case Grammar 格位语法

case marking 格位标志

CAT (computer assisted translation) 电脑辅助翻译

cataphora 下指

Categorial Grammar 范畴语法

Categorial Unification Grammar 范畴连并语法 [范畴合一语法]

causative 使动

causative verb 使役动词

causativity 使役性

centralization 央元音化

chain 炼

chart parsing 表式剖析 [图表句法分析]

checked 受阻的

checking 验证

Chinese character code 中文编码 [汉字代码]

Chinese character code for information interchange 中文资讯交换码 [汉字交换码]

Chinese character coding input method 中文输入法 [汉字编码输入]

choice 选择

Chomsky hierarchy 杭士基阶层 [Chomsky 层次结构]

citation form 基本形式

CKY algorithm (Cocke-Kasami-Younger) CKY 演算法

classifier 类别词

cleft sentence 分裂句

click 啧音

clitic 附着词

closed world assumption 封闭世界假说

cluster 音群

Cocke-Kasami-Younger algorithm CKY 演算法

coda 音节尾

code conversion 代码变换

cognate 同源（的；词）

Cognitive Linguistics 认知语言学

coherence 一致性

cohesion 凝结性 [粘着性;结合力]

collapse 合并

collective 集合的

collocation 连用语 [同现;搭配]

combinatorial construction 合并结构

combinatorial insertion 合并中插

combinatorial word 合并词

Combinatory Categorial Grammar 组合范畴语法

comment 评论

commissive 许诺[语行]

common sense semantics 常识语意学

Communication Theory 通讯理论 [通讯论;信息论]

Comparative Linguistics 比较语言学

comparison 比较

competence 语言知能

compiler 编译器

complement 补语

complementary 互补

complementary distribution 互补分布

complementizer 补语标记

complex predicate 复杂谓语

complex stative construction 复杂状态结构

complex symbol 复杂符号

complexity 复杂度

component 成分

compositionality 语意合成性 [合成性]

compound word 复合词

Computational Lexical Semantics 计算词汇语意学

Computational Lexicography 计算词典编纂学

Computational Linguistics 计算语言学

Computational Phonetics 计算语音学

Computational Phonology 计算声韵学

Computational Pragmatics 计算语用学

Computational Semantics 计算语意学

Computational Syntax 计算句法学

computer language 计算机语言

computer-aided translation 电脑辅助翻译 [计算机辅助翻译]

computer-assisted instruction (CAI) 电脑辅助教学

computer-assisted language learning 电脑辅助语言学习[计算机辅助语言学习]

concatenation 串联

concept classification 概念分类

concept dependency 概念依存

conceptual hierarchy 概念阶层

concord 谐和

concordance 关键词 (前后文) 排序

concordancer 关键词 (前后文) 排序的程式

concurrent parsing 并行句法剖析

conditional decision 条件决定 [条件决策]

conjoin 连接

conjunction 连接词 (合取;逻辑积;"与";连词)

conjunctive 连接的

connected speech 连续语言

Connectionist model 类神经网路模型

Connectionist model for natural language 自然语言类神经网路模型 [自然语言连接模型]

connotation 隐涵意义

consonant 子音 [辅音]

constituent 成分

constituent structure tree 词组结构树

constraint 限制

constraint propagation 限制条件的传递 [限定因素增殖]

constraint-based grammar formalism 限制为本的语法形式

Construct Grammar 句构语法

content word 实词

context 语境

context-free language 语境自由语言 [上下文无关语言]

context-sensitive language 语境限定语言 [上下文有关语言;上下文敏感语言]

continuant 连续音

continuous speech recognition 连续语音识别

contraction 缩约

control agreement principle 控制一致原理

control structure 控制结构

control theory 控制论

convention 约定俗成[规约]

convergence 收敛[趋同现象]

conversational implicature 会话含义

converse 相反（词;的）

cooccurrence relation 共现关系 [同现关系]

co-operative principle 合作原则

coordination 对称连接词 [同等;并列连接]

copula 系词

co-reference 同指涉 [互指]

co-referential 同指涉

coronal 前舌音

corpora 语料库

corpus 语料库

Corpus Linguistics 语料库语言学

corpus-based learning 语料库为本的学习

correlation 相关性

counter-intuitive 违反语感的

courseware 课程软体 [课件]

coverb 动介词

C-structure 成分结构

data compression 资料压缩 [数据压缩]

data driven analysis 资料驱动型分析 [数据驱动型分析]

data structure 资料结构 [数据结构]

database 资料库 [数据库]

database knowledge representation 资料库知识表示 [数据库知识表示]

data-driven 资料驱动 [数据驱动]

dative 与格

declarative knowledge 陈述性知识

decomposition 分解

deductive database 演译资料库 [演译数据库]

default 预设值 [默认;缺省]

definite 定指

Definite Clause Grammar 确定子句语法

definite state automaton 有限状态自动机

Definite State Grammar 有限状态语法

definiteness 定指

degree adverb 程度副词

degree of freedom 自由度

deixis 指示

delimiter 定界符号 [定界符]

denotation 外延

denotic logic 符号逻辑

dependency 依存关系

Dependency Grammar 依存关系语法

dependency relation 依存关系

depth-first search 深度优先搜寻

derivation 派生

derivational bound morpheme 派生性附着语素

Descriptive Grammar 描述型语法 [描写语法]

Descriptive Linguistics 描述语言学 [描写语言学]

desiderative 意愿的

determiner 限定词

deterministic algorithm 决定型演算法 [确定性算法]

deterministic finite state automaton 决定型有限状态机

deterministic parser 决定型语法剖析器 [确定性句法剖析程序]

developmental psychology 发展心理学

Diachronic Linguistics 历时语言学

diacritic 附加符号

dialectology 方言学

dictionary database 辞典资料库 [词点数据库]

dictionary entry 辞典条目

digital processing 数位处理 [数值处理]

diglossia 双言

digraph 二合字母

diminutive 指小词

diphone 双连音

directed acyclic graph 有向非循环图

disambiguation 消除歧义 [歧义消除]

discourse 篇章

discourse analysis 篇章分析 [言谈分析]

discourse planning 篇章规划

Discourse Representation Theory 篇章表征理论 [言谈表示理论]

discourse strategy 言谈策略

discourse structure 言谈结构

discrete 离散的

disjunction 选言

dissimilation 异化

distributed 分散式的

distributed cooperative reasoning 分布协调型推理

distributed text parsing 分布式文本剖析

disyllabic 双音节的

ditransitive verb 双宾动词 [双宾语动词;双及物动词]

divergence 扩散[分化]

D-M (Determiner-Measure) construction 定量结构

D-N (determiner-noun) construction 定名结构

document retrieval system 文件检索系统 [文献检索系统]

domain dependency 领域依存性 [领域依存关系]

double insertion 交互中插

double-base 双基

downgrading 降级

dummy 虚位

duration 音长{语音学}/时段{语法学/语意学}

dynamic programming 动态规划

Earley algorithm Earley 演算法

echo 回声句

egressive 呼气音

ejective 紧喉音

electronic dictionary 电子词典

elementary string 基本字串 [基本单词串]

ellipsis 省略

EM algorithm EM演算法

embedding 入

emic 功能关系的

empiricism 经验论

Empty Category Principle 虚范畴原则 [空范畴原理]

empty word 虚词

enclitics 后接成份

end user 终端用户 [最终用户]

endocentric 同心的

endophora 语境照应

entailment 蕴涵

entity 实体

entropy 熵

entry 条目

episodic memory 情节性记忆

epistemological network 认识论网路

ergative verb 作格动词

ergativity 作格性

Esperando 世界语

etic 无功能关系

etymology 词源学

event 事件

event driven control 事件驱动型控制

example-based machine translation 以例句为本的机器翻译

exclamation 感叹

exclusive disjunction 排它性逻辑 “或”

experiencer case 经验者格

expert system 专家系统

extension 外延

external argument 域外论元

extraposition 移外变形 [外置转换]

facility value 易度值

feature 特征

feature bundle 特征束

feature co-occurrence restriction 特征同现限制 [特性同现限制]

feature instantiation 特征体现

feature structure 特征结构 [特性结构]

feature unification 特征连并 [特性合一]

feedback 回馈

felicity condition 妥适条件

file structure 档案结构

finite automaton 有限状态机 [有限自动机]

finite state 有限状态

Finite State Morphology 有限状态构词法 [有限状态词法]

finite-state automata 有限状态自动机

finite-state language 有限状态语言

finite-state machine 有限状态机

finite-state transducer 有限状态置换器

flap 闪音

flat 降音

foreground information 前景讯息 [前景信息]

formal Language Theory 形式语言理论

formal Linguistics 形式语言学

formal Semantics 形式语意学

forward inference 前向推理 [向前推理]

forward-backward algorithm 前前后后演算法

frame 框架

frame based knowledge representation 框架型知识表示

Frame Theory 框架理论

free morpheme 自由语素

Fregean principle Fregean 原则

fricative 擦音

F-structure 功能结构

full text searching 全文检索

function word 功能词

Functional Grammar 功能语法

functional programming 函数型程式设计 [函数型程序设计]

functional sentence perspective 功能句子观

functional structure 功能结构

functional unification 功能连并 [功能合一]

functor 功能符

fundamental frequency 基频

garden path sentence 花园路径句

GB (Government and Binding) 管辖约束

geminate 重迭音

gender 性

Generalized Phrase Structure Grammar 概化词组结构语法 [广义短语结构语法]

Generative Grammar 衍生语法

Generative Linguistics 衍生语言学 [生成语言学]

generic 泛指

genetic epistemology 发生认识论

genetive marker 属格标记

genitive 属格

gerund 动名词

Government and Binding Theory 管辖约束理论

GPSG (Generalized Phrase Structure Grammar) 概化词组结构语法 [广义短语结构语法]

gradability 可分级性

grammar checker 文法检查器

grammatical affix 语法词缀

grammatical category 语法范畴

grammatical function 语法功能

grammatical inference 文法推论

grammatical relation 语法关系

grapheme 字素

haplology 类音删略

head 中心语

head driven phrase structure 中心语驱动词组结构 [中心词驱动词组结构]

head feature convention 中心语特征继承原理 [中心词特性继承原理]

Head-Driven Phrase Structure Grammar 中心语驱动词组结构律

heteronym 同形

heuristic parsing 经验式句法剖析

Heuristics 经验知识

hidden Markov model 隐式马可夫模型

hierarchical structure 阶层结构 [层次结构]

holophrase 单词句

homograph 同形异义词

homonym 同音异义词

homophone 同音词

homophony 同音异义

homorganic 同部位音的

Horn clause Horn 子句

HPSG (Head-Driven Phrase Structure Grammar) 中心语驱动词组结构语法

human-machine interface 人机界面

hypernym 上位词

hypertext 超文件 [超文本]

hyponym 下位词

hypotactic 主从结构的

IC (immediate constituent) 直接成份

ICG (Information-based Case Grammar) 讯息为本的格位语法

idiom 成语 [熟语]

idiosyncrasy 特异性

illocutionary 施为性

immediate constituent 直接成份

imperative 祈使句

implicative predicate 蕴含谓词

implicature 含意

indexical 标引的

indirect object 间接宾语

indirect speech act 间接言谈行动 [间接言语行为]

Indo-European language 印欧语言

inductional inference 归纳推理

inference machine 推理机器

infinitive 不定词 [to 不定式]

infix 中缀

inflection/inflexion 屈折变化

inflectional affix 屈折词缀

information extraction 资讯撷取

information processing 资讯处理 [信息处理]

information retrieval 资讯检索

Information Science 资讯科学 [信息科学; 情报科学]

Information Theory 资讯理论 [信息论]

inherent feature 固有特征

inherit 继承

inheritance 继承

inheritance hierarchy 继承阶层 [继承层次]

inheritance of attribute 属性继承

innateness position 语法天生假说

insertion 中插

inside-outside algorithm 里里外外演算法

instantiation 体现

instrumental (case) 工具格

integrated parser 集成句法剖析程式

integrated theory of discourse analysis 篇章分析综合理论 [言谈分析综合理论]

intelligence intensive production 知识密集型生产

intensifier 加强成分

intensional logic 内含逻辑

Intensional Semantics 内涵语意学

intensional type 内含类型

interjection/exclamation 感叹词

inter-level 中间成分

interlingua 中介语言

interlingual 中介语(的）

interlocutor 对话者

internalise 内化

International Phonetic Association (IPA) 国际语音学会

internet 网际网路

Interpretive Semantics 诠释性语意学

intonation 语调

intonation unit (IU) 语调单位

IPA (International Phonetic Association) 国际语音学会

IR (information retrieval) 资讯检索

IS-A relation IS-A 关系

isomorphism 同形现象

IU (intonation unit) 语调单位

junction 连接

keyword in context 上下文中关键词[上下文内关键字]

kinesics 体势学

knowledge acquisition 知识习得

knowledge base 知识库

knowledge based machine translation 知识为本之机器翻译

knowledge extraction 知识撷取 [知识题取]

knowledge representation 知识表示

KWIC (keyword in context) 关键词前后文 [上下文内关键字]

label 标签

labial 唇音

labio-dental 唇齿音

labio-velar 软颚唇音

LAD (language acquisition device) 语言习得装置

lag 发声延迟

language acquisition 语言习得

language acquisition device 语言习得装置

language engineering 语言工程

language generation 语言生成

language intuition 语感

language model 语言模型

language technology 语言科技

left-corner parsing 左角落剖析 [左角句法剖析]

lemma 词元

lenis 弱辅音

letter-to-phone 字转音

lexeme 词汇单位

lexical ambiguity 词汇歧义

lexical category 词类

lexical conceptual structure 词汇概念结构

lexical entry 词项

lexical entry selection standard 选词标准

lexical integrity 词语完整性

Lexical Semantics 词汇语意学

Lexical-Functional Grammar 词汇功能语法

Lexicography 词典学

Lexicology 词汇学

lexicon 词汇库 [词典;词库]

lexis 词汇层

LF (logical form) 逻辑形式

LFG (Lexical-Functional Grammar) 词汇功能语法

liaison 连音

linear bounded automaton 线性有限自主机

linear precedence 线性次序

lingua franca 共通语

linguistic decoding 语言解码

linguistic unit 语言单位

linked list 串列

loan 外来语

local 局部的

localism 方位主义

localizer 方位词

locus model 轨迹模型

locution 惯用语

logic 逻辑

logic array network 逻辑阵列网路

logic programming 逻辑程式设计 [逻辑程序设计]

logical form 逻辑形式

logical operator 逻辑算子 [逻辑算符]

Logic-Based Grammar 逻辑为本语法 [基于逻辑的语法]

long term memory 长期记忆

longest match principle 最长匹配原则 [最长一致法]

LR (left-right) parsing LR 剖析

machine dictionary 机器词典

machine language 机器语言

machine learning 机器学习

machine translation 机器翻译

machine-readable dictionary (MRD) 机读辞典

Macrolinguistics 宏观语言学

Markov chart 马可夫图

Mathematical Linguistics 数理语言学

maximum entropy 最大熵

M-D (modifier-head) construction 偏正结构

mean length of utterance (MLU) 语句平均长度

measure of information 讯习测度 [信息测度]

memory based 根据记忆的

mental lexicon 心理词汇库

mental model 心理模型

mental process 心理过程 [智力过程;智力处理]

metalanguage 超语言

metaphor 隐喻

metaphorical extension 隐喻扩展

metarule 律上律 [元规则]

metathesis 语音易位

Microlinguistics 微观语言学

middle structure 中间式结构

minimal pair 最小对

Minimalist Program 微言主义

MLU (mean length of utterance) 语句平均长度

modal 情态词

modal auxiliary 情态助动词

modal logic 情态逻辑

modifier 修饰语

Modular Logic Grammar 模组化逻辑语法

modular parsing system 模组化句法剖析系统

modularity 模组性(理论)

module 模组

monophthong 单元音

monotonic 单调

monotonicity 单调性

Montague Grammar 蒙泰究语法 [蒙塔格语法]

mood 语气

morpheme 词素

morphological affix 构词词缀

morphological decomposition 语素分解

morphological pattern 词型

morphological processing 词素处理

morphological rule 构词律 [词法规则]

morphological segmentation 语素切分

Morphology 构词学

Morphophonemics 词音学 [形态音位学;语素音位学]

morphophonological rule 形态音位规则

Morphosyntax 词句法

Motor Theory 肌动理论

movement 移位

MRD (machine-readable dictionary) 机读辞典

MT (machine translation) 机器翻译

multilingual processing system 多语讯息处理系统

multilingual translation 多语翻译

multimedia 多媒体

multi-media communication 多媒体通讯

multiple inheritance 多重继承

multistate logic 多态逻辑

mutation 语音转换

mutual exclusion 互斥

mutual information 相互讯息

nativist position 语法天生假说

natural language 自然语言

natural language processing (NLP) 自然语言处理

natural language understanding 自然语言理解

negation 否定

negative sentence 否定句

neologism 新词语

nested structure 套结构

network 网路

neural network 类神经网路

Neurolinguistics 神经语言学

neutralization 中立化

n-gram n-连词

n-gram modeling n-连词模型

NLP (natural language processing) 自然语言处理

node 节点

nominalization 名物化

nonce 暂用的

non-finite 非限定

non-finite clause 非限定式子句

non-monotonic reasoning 非单调推理

normal distribution 常态分布

noun 名词

noun phrase 名词组

NP (noun phrase) completeness 名词组完全性

object 宾语{语言学}/物件{资讯科学}

object oriented programming 物件导向程式设计 [面向对向的程序设计]

official language 官方语言

one-place predicate 一元述语

on-line dictionary 线上查询词典 [联机词点]

onomatopoeia 拟声词

onset 节首音

ontogeny 个体发生

Ontology 本体论

open set 开放集

operand 运算元 [操作对象]

optimization 最佳化 [最优化]

overgeneralization 过度概化

overgeneration 过度衍生

paradigmatic relation 聚合关系

paralanguage 附语言

parallel construction 并列结构

Parallel Corpus 平行语料库

parallel distributed processing (PDP) 平行分布处理

paraphrase 转述 [释意;意译;同意互训]

parole 言语

parser 剖析器 [句法剖析程序]

parsing 剖析

part of speech (POS) 词类

particle 语助词

PART-OF relation PART-OF 关系

part-of-speech tagging 词类标注

pattern recognition 型样识别

P-C (predicate-complement) insertion 述补中插

PDP (parallel distributed processing) 平行分布处理

perception 知觉

perceptron 感觉器 [感知器]

perceptual strategy 感知策略

performative 行为句

periphrasis 用独立词表达

perlocutionary 语效性的

permutation 移位

Petri Net Grammar Petri 网语法

philology 语文学

phone 语音

phoneme 音素

phonemic analysis 因素分析

phonemic stratum 音素层

Phonetics 语音学

phonogram 音标

Phonology 声韵学 [音位学;广义语音学]

Phonotactics 音位排列理论

phrasal verb 词组动词 [短语动词]

phrase 词组 [短语]

phrase marker 词组标记 [短语标记]

pitch 音调

pitch contour 调形变化

Pivot Grammar 枢轴语法

pivotal construction 承轴结构

plausibility function 可能性函数

PM (phrase marker) 词组标记 [短语标记]

polysemy 多义性

POS-tagging 词类标记

postposition 方位词

PP (preposition phrase) attachment 介词依附

Pragmatics 语用学

Precedence Grammar 优先顺序语法

precision 精确度

predicate 述词

predicate calculus 述词计算

predicate logic 述词逻辑 [谓词逻辑]

predicate-argument structure 述词论元结构

prefix 前缀

premodification 前置修饰

preposition 介词

Prescriptive Linguistics 规定语言学 [规范语言学]

presentative sentence 引介句

presupposition 前提

Principle of Compositionality 语意合成性原理

privative 二元对立的

probabilistic parser 概率句法剖析程式

problem solving 解决问题

program 程式

programming language 程式设计语言 [程序设计语言]

proofreading system 校对系统

proper name 专有名词

prosody 节律

prototype 原型

pseudo-cleft sentence 准分裂句

Psycholinguistics 心理语言学

punctuation 标点符号

pushdown automata 下推自动机

pushdown transducer 下推转换器

qualification 后置修饰

quantification 量化

quantifier 范域词

Quantitative Linguistics 计量语言学

question answering system 问答系统

queue 伫列

radical 字根 [词干;词根;部首;偏旁]

radix of tuple 元组数基

random access 随机存取

rationalism 理性论

rationalist (position) 理性论立场 [唯理论观点]

reading laboratory 阅读实验室

real time 即时

real time control 即时控制 [实时控制]

recursive transition network 递回转移网路

reduplication 重迭词 [重复]

reference 指涉

referent 指称对象

referential indices 指标

referring expression 指涉词 [指示短语]

register 暂存器 [寄存器]{资讯科学}/调高{语音学}/语言的场合层级{社会语言学}

regular language 正规语言 [正则语言]

relational database 关联式资料库 [关系数据库]

relative clause 关系子句

relaxation method 松弛法

relevance 相关性

Restricted Logic Grammar 受限逻辑语法

resumptive pronouns 复指代词

retroactive inhibition 逆抑制

rewriting rule 重写规则

rheme 述位

rhetorical structure 修辞结构

rhetorics 修辞学

robust 强健性

robust processing 强健性处理

robustness 强健性

schema 基朴

school grammar 教学语法

scope 范域 [作用域;范围]

script 脚本

search mechanism 检索机制

search space 检索空间

searching route 检索路径 [搜索路径]

second order predicate 二阶述词

segmentation 分词

segmentation marker 分段标志

selectional restriction 选择限制

semantic field 语意场

semantic frame 语意架构

semantic network 语意网路

semantic representation 语意表征 [语义表示]

semantic representation language 语意表征语言

semantic restriction 语意限制

semantic structure 语意结构

Semantics 语意学

sememe 意素

Semiotics 符号学

sender 发送者

sensorimotor stage 感觉运动期

sensory information 感官讯息 [感觉信息]

sentence 句子

sentence generator 句子产生器 [句子生成程序]

sentence pattern 句型

separation of homonyms 同音词区分

sequence 序列

serial order learning 顺序学习

serial verb construction 连动结构

set oriented semantic network 集合导向型语意网路 [面向集合型语意网路]

SGML (Standard Generalized Markup Language) 结构化通用标记语言

shift-reduce parsing 替换简化式剖析

short term memory 短程记忆

sign 信号

signal processing technology 信号处理技术

simple word 单纯词

situation 情境

Situation Semantics 情境语意学

situational type 情境类型

social context 社会环境

sociolinguistics 社会语言学

software engineering 软体工程 [软件工程]

sort 排序

speaker-independent speech recognition 非特定语者语音识别

spectrum 频谱

speech 口语

speech act assignment 言语行为指定

speech continuum 言语连续体

speech disorder 语言失序 [言语缺失]

speech recognition 语音辨识

speech retrieval 语音检索

speech situation 言谈情境 [言语情境]

speech synthesis 语音合成

speech translation system 语音翻译系统

speech understanding system 语音理解系统

spreading activation model 扩散激发模型

standard deviation 标准差

Standard Generalized Markup Language 标准通用标示语言

start-bound complement 接头词

state of affairs algebra 事态代数

state transition diagram 状态转移图

statement kernel 句核

static attribute list 静态属性表

statistical analysis 统计分析

Statistical Linguistics 统计语言学

statistical significance 统计意义

stem 词干

stimulus-response theory 刺激反应理论

stochastic approach to parsing 概率式句法剖析 [句法剖析的随机方法]

stop 爆破音

Stratificational Grammar 阶层语法 [层级语法]

string 字串[串；字符串]

string manipulation language 字串操作语言

string matching 字串匹配 [字符串]

structural ambiguity 结构歧义

Structural Linguistics 结构语言学

structural relation 结构关系

structural transfer 结构转换

structuralism 结构主义

structure 结构

structure sharing representation 结构共享表征

subcategorization 次类划分 [下位范畴化]

subjunctive 假设的

sublanguage 子语言

subordinate 从属关系

subordinate clause 从属子句 [从句;子句]

subordination 从属

substitution rule 代换规则 [置换规则]

substrate 底层语言

suffix 后缀

superordinate 上位的

superstratum 上层语言

suppletion 异型[不规则词型变化]

suprasegmental 超音段的

syllabification 音节划分

syllable 音节

syllable structure constraint 音节结构限制

symbolization and verbalization 符号化与字句化

synchronic 同步的

synonym 同义词

syntactic category 句法类别

syntactic constituent 句法成分

syntactic rule 语法规律 [句法规则]

Syntactic Semantics 句法语意学

syntagm 句段

syntagmatic 组合关系 [结构段的;组合的]

Syntax 句法

Systemic Grammar 系统语法

tag 标记

target language 目的语言 [目标语言]

task sharing 课题分享 [任务共享]

tautology 套套逻辑 [恒真式;重言式;同义反复]

taxonomical hierarchy 分类阶层 [分类层次]

telescopic compound 套装合并

template 模板

temporal inference 循序推理 [时序推理]

temporal logic 时间逻辑 [时序逻辑]

temporal marker 时貌标记

tense 时态

terminology 术语

text 文本

text analyzing 文本分析

text coherence 文本一致性

text generation 文本生成 [篇章生成]

Text Linguistics 文本语言学

text planning 文本规划

text proofreading 文本校对

text retrieval 文本检索

text structure 文本结构 [篇章结构]

text summarization 文本自动摘要 [篇章摘要]

text understanding 文本理解

text-to-speech 文本转语音

thematic role 题旨角色

thematic structure 题旨结构

theorem 定理

thesaurus 同义词辞典

theta role 题旨角色

theta-grid 题旨网格

token 实类 [标记项]

tone 音调

tone language 音调语言

tone sandhi 连调变换

top-down 由上而下 [自顶向下]

topic 主题

topicalization 主题化 [话题化]

trace 痕迹

Trace Theory 痕迹理论

training 训练

transaction 异动 [处理单位]

transcription 转写 [抄写;速记翻译]

transducer 转换器

transfer 转移

transfer approach 转换方法

transfer framework 转换框架

transformation 变形 [转换]

Transformational Grammar 变形语法 [转换语法]

transitional state term set 转移状态项集合

transitivity 及物性

translation 翻译

translation equivalence 翻译等值性

translation memory 翻译记忆

transparency 透明性

tree 树状结构 [树]

Tree Adjoining Grammar 树形加接语法 [树连接语法]

treebank 树图资料库[语法关系树库]

trigram 三连词

t-score t-数

turing machine 杜林机 [图灵机]

turing test 杜林测试 [图灵试验]

type 类型

type/token node 标记类型/实类节点

type-feature structure 类型特征结构

typology 类型学

ultimate constituent 终端成分

unbounded dependency 无界限依存

underlying form 基底型式

underlying structure 基底结构

unification 连并 [合一]

Unification-based Grammar 连并为本的语法 [基于合一的语法]

Universal Grammar 普遍性语法

universal instantiation 普遍例式

universal quantifier 全称范域词

unknown word 未知词 [未定义词]

unrestricted grammar 非限制型语法

usage flag 使用旗标

user interface 使用者界面 [用户界面]

Valence Grammar 结合价语法

Valence Theory 结合价理论

valency 结合价

variance 变异数 [方差]

verb 动词

verb phrase 动词组 [动词短语]

verb resultative compound 动补复合词

verbal association 词语联想

verbal phrase 动词组

verbal production 言语生成

vernacular 本地话

V-O construction (verb-object) 动宾结构

vocabulary 字汇

vocabulary entry 词条

vocal track 声道

vocative 呼格

voice recognition 声音辨识 [语音识别]

vowel 母音

vowel harmony 母音和谐 [元音和谐]

waveform 波形

weak verb 弱化动词

Whorfian hypothesis Whorfian 假说

word 词

word frequency 词频

word frequency distribution 词频分布

word order 词序

word segmentation 分词

word segmentation standard for Chinese 中文分词规范

word segmentation unit 分词单位 [切词单位]

word set 词集

working memory 工作记忆 [工作存储区]

world knowledge 世界知识

writing system 书写系统

X-Bar Theory X标杠理论 ["x"阶理论]

Zipf's Law 利夫规律 [齐普夫定律]

nlp 2012-10-10 19:42 发表评论

（转载）Linux下makefile教程

nlp — Tue, 07 Aug 2012 02:32:00 GMT

摘要: 转自陈皓 (CSDN)概述—— 什么是makefile？或许很多Winodws的程序员都不知道这个东西，因为那些Windows的IDE都为你做了这个工作，但我觉得要作一个好的和 professional的程序员，makefile还是要懂。这就好像现在有这么多的HTML的编辑器，但如果你想成为一个专业人士，你还是要了解HTML的标识的含义。特别在Unix下的软件编译... 阅读全文

nlp 2012-08-07 10:32 发表评论

计算主题映射概率（二）计算方法

nlp — Tue, 07 Aug 2012 02:24:00 GMT

这部分是开始计算主题映射的概率，之前由于对这个过程比较模糊，因此浪费了许多时间，当后来对整个计算过程思路清晰时，整个代码写出来也就水到渠成了。
所以首先要解释如何计算主题映射概率，设源端为e，目标端为f。拿一个例子来说明（为了简化计算，这里假设每个句子源端和目标端各有三个主题分布，实际是各有100个主题分布）。

上面的e1,e2,e3表示的源端的语言的词，而对应的数字表示的是对应的主题分布。下面的f1,f2,f3表示的目标端的语言的词，对应的数字表示的是对应的主题分布。
      首先要计算源端跟目标端所有词的共现频次，即P(e1,f1), P(e1,f2), P(e1,f3), P(e2,f1), P(e2,f2), P(e2,f3), P(e3,f1), P(e3,f2), P(e3,f3)。得到这样的9个共现频次。计算方法以P(e1,f1)为例。P(e1,f1)=e1*f1*对齐连线个数=0.2*0.1*3。
      然后计算出所有n个句子中的这9个共现频次，并将所有的9个共现频次分别相加，得到e和f总的共现频次：P(e1,f1), P(e1,f2), P(e1,f3), P(e2,f1), P(e2,f2), P(e2,f3), P(e3,f1), P(e3,f2), P(e3,f3)。
      之后再根据这9个共现频次计算出e1,e2,e3,f1,f2,f3出现的总的频次，以P(e1)为例，即P(e1)=P(e1,f1)+P(e1,f2)+P(e1,f3),类似的P(f2)=P(e1,f2)+P(e2,f2)+P(e3,f2)。
接下去就可以计算映射概率了，得到的映射概率为P(e1/f1), P(e1/f2), P(e1/f3), P(e2/f1), P(e2/f2), P(e2/f3), P(e3/f1), P(e3/f2), P(e3/f3)。计算方法是根据条件概率公式得来的，具体的计算方法以P(e1/f1)为例， P(e1/f1)= P(e1,f1)/P(f1)。
我们可以将这9个映射概率构成一个源端映射的矩阵和一个目标端映射的矩阵，即：

之后将每个句子的源端主题分布视为一个向量{P(f1),P(f2),P(f3)}，与源端映射矩阵相乘得到直积，得到源端映射到目标端的主题分布P(e1),P(e2),P(e3)。同理可得目标端映射到源端的主题分布。
最后再将得到的映射主题分布插入进原始语料库中即可。

上图中第9行即是计算出的源端映射到目标端的主题分布，第11行是目标端映射到源端的主题分布。

nlp 2012-08-07 10:24 发表评论

计算主题映射概率（一）读取文档主题分布

nlp — Mon, 06 Aug 2012 11:31:00 GMT

本次使用的语料一共有10934个文档，假设每个文档的主题分布是一样的。一个文档对应一个主题分布。因此，在计算主题映射概率之前，需要先对语料进行预处理，首先需要在语料库中读入主题分布。每个文档由来区分。
原始的语料文档的格式如下所示：

这是第一个文档中的前两句话。而读入主题分布之后的文档如下所示：

我们发现，其中加入了和这两个部分。前者是源端语言的主题分布，后者是目标端语言的主题分布。这些主题分布都是从指定文件中读入的。主题分布的文件中格式为：

这是源语言主题分布中的第一和第二个主题分布，每个主题分布包含100个主题分布概率。因此只要将每个分布读到语料中每个文档中的每个句子中。
整个算法的思想比较简单，首先找个每个文档，再在文档中定位到每个句子，在句子的对齐信息后面插入主题分布即可。首先给出的是定位到每个句子的代码：

1 string read_bead(string bead,string topic)
2 {
3     string str,str_lag,result;
4     istringstream input(bead,istringstream::in);
5     size_t x=0,y=0;
6     while(getline(input,str))
7     {
8         str_lag.append(str);
9         str_lag.push_back('\n');
10         y=str_lag.find("");//通过的标记来定位句子的末尾
11         if (y!=-1)
12         {
13             result+=read_topic(str_lag,topic);
14             str_lag.clear();
15         }
16     }
17     result=result+"";
18     return result;
19 }

找到句子之后再在句子的对齐信息之后插入主题分布：

1 string read_topic(string bead,string topic)
2 {
3     size_t x=0,y=0;
4     x=bead.find("");
5     bead.insert(x+12,topic);
6     return bead;
7 }

其中topic的string是事先从主题分布文件中读入的。
这样就完成了对语料的预处理，接下去就要进行对主题映射概率的计算。

参考文献：
1、A Topic Similarity Model for HPB_Xinyan Xiao_ACL 2012

2、Hidden Topic Markov Model

nlp 2012-08-06 19:31 发表评论

（转载）如何查询SCI和EI检索号

nlp — Mon, 06 Aug 2012 08:21:00 GMT

下面详细说明具体过程：

SCI检索号

1.进入图书馆主页；

2.选择“电子数据库”；

3.选择外文数据库中的“Web of Science”，进入到“http://isiknowledge.com”；

4.选择“Web of Science”选项卡，再点击下面的“检索”选项卡；

5.检索范围选择“标题”，然后在检索文本框中输入文章名“ New spiking cortical model for invariant texture retrieval and image processing”，点击“检索”按钮；

6.在检索结果中，其中只有一个结果，点击标题链接，弹出一个页面；

7.在新页面底部的“输出记录”第1步中选择“全记录”，第2步选择“保存为HTML格式”，点击“保存”按钮；

8.打开保存的页面，底部有“UT ISI:000272484200010”，这个就是文章的SCI检索号。

注意：

(a)如果在上述第5步中选择通过作者检索，往往得不到检索结果，就其原因是不同的缩写规则、姓名次序，以及很弱的查询功能。比如对于上述文章，通过输入文章的作者Kun Zhan或者Zhan kun或者K Zhan都检索不到这篇文章。

(b)在上述第4步中，如果不选择“Web of Science”，则系统默认进入到“所有数据库”选项卡。在此选项卡下重复上述第5步，则会出现三个结果，对这三个结果分别重复上述6－8步，则分别得到UT MEDLINE:19906586,UT ISI:000272484200010,UT INSPEC:11004876，其中只有UT ISI:000272484200010是SCI检索号，其余两个检索号表示这篇文章同时被其他数据库检索。

(c)上述注意事项(b)中也可以通过“作者”检索，比如输入Zhan Kun，列出作者所有的文章，点击“ New spiking cortical model for invariant texture retrieval and image processing”，重复6－8步，最后得到UT MEDLINE:19906586，也可能是其他检索号，不一定是SCI检索号。

EI检索号

1、2步同上；

3.选择外文数据库中的“Ei Compendex Web”，进入到Engineering Village主页；

4.在Search in中选Title，在Search for中填写文章名，比如：“Image classification based on pyramid histogram of topics”,点击search按钮；

5.在检索结果中点击Detailed，弹出详细结果；

6.其中Accession number: 20094712491983便是EI检索号。

需要注意的是，有些文章，包括会议文章，发表之后很快会被EI检索，有些则不然，延迟半年甚至一年才会被检索。

来源于：http://zengyiqiang2006.blog.163.com/blog/static/10286822620114534553537/

nlp 2012-08-06 16:21 发表评论

linux常用命令介绍（不断更新）

nlp — Mon, 06 Aug 2012 08:16:00 GMT

由于我们运行大的程序都要在服务器上运行，因此能够熟练运用一些linux命令就很重要，下面就记录一些常用的命令。

1、pwd

pwd命令也是最常用最基本的命令之一，用于显示用户当前所在的目录。
2、cd

cd命令不仅显示当前状态，还改变当前状态，它的用法跟dos下的cd命令基本一致。

（1）cd ..可进入上一层目录

（2）cd -可进入上一个进入的目录

（3）cd ~可进入用户的home目录

（4）cd XXX 进入XXX子目录

3、ls

ls命令跟dos下的dir命令一样，用于显示当前目录的内容。

4、cp

cp命令用于复制文件或目录。

cp命令可以一次复制多个文件，例如：$cp *.txt *.doc *.bak /home。即将当前目录中扩展名为txt、doc和bak的文件全部复制到/home目录中。如果要复制整个目录及其所有子目录，可以用cp -R命令。

5、mv

mv命令用于移动文件和更名文件。
例1：$mv example.txt /home。即将当前目录下的example.txt文件移动到/home目录下。

例2：$mv example.txt sample.txt。即将example.txt文件改名为sample.txt。

类似于跟cp命令，mv命令也可以一次移动多个文件。

6、mkdir

这个命令很简单，跟dos的md命令用法几乎一样，用于建立目录。

-m: 对新建目录设置存取权限,也可以用chmod命令设置;

-p: 可以是一个路径名称。此时若路径中的某些目录尚不存在,加上此选项后,系统将自动建立好那些尚不存在的目录,即一次可以建立多个目录，例如: $ mkdir -p DIRC/hello。

7、tar.gz文件的压缩与解压缩

解压：tar zxvf FileName.tar.gz
压缩：tar zcvf FileName.tar.gz DirName

具体Linux下tar bz gz等压缩包的压缩和解压可以参考：http://www.bitscn.com/os/linux/200802/127470.html

8、iconv

文本文件字符编码转换

例：iconv -f gbk -t utf8 filename1 > filename2，即将filename1中gbk编码转换成utf8编码，并另存为filename2文档。

9、chmod

使用方式 : chmod [-cfvR] [--help] [--version] mode file...

说明 : Linux/Unix 的档案调用权限分为三级 : 档案拥有者、群组、其他。利用 chmod 可以藉以控制档案如何被他人所调用。

参数 :

mode : 权限设定字串，格式如下 : [ugoa...][[+-=][rwxX]...][,...]，其中u 表示该档案的拥有者，g表示与该档案的拥有者属于同一个群体(group)者，o 表示其他以外的人，a 表示这三者皆是。

+ 表示增加权限、- 表示取消权限、= 表示唯一设定权限。

r 表示可读取，w 表示可写入，x 表示可执行，X 表示只有当该档案是个子目录或者该档案已经被设定过为可执行。

-c : 若该档案权限确实已经更改，才显示其更改动作

-f : 若该档案权限无法被更改也不要显示错误讯息

-v : 显示权限变更的详细资料

-R : 对目前目录下的所有档案与子目录进行相同的权限变更(即以递回的方式逐个变更)

范例 :将档案 file1.txt 设为所有人皆可读取 :chmod ugo+r file1.txt。

将档案 file1.txt 设为所有人皆可读取 :chmod a+r file1.txt。

将档案 file1.txt 与 file2.txt 设为该档案拥有者，与其所属同一个群体者可写入，但其他以外的人则不可写入 :chmod ug+w,o-w file1.txt file2.txt。

将 ex1.py 设定为只有该档案拥有者可以执行 :chmod u+x ex1.py。

将目前目录下的所有档案与子目录皆设为任何人可读取 :chmod -R a+r *。　　

此外chmod也可以用数字来表示权限如 chmod 777 file

语法为：chmod abc file

其中a,b,c各为一个数字，分别表示User、Group、及Other的权限。

r=4，w=2，x=1

若要rwx属性则4+2+1=7；

若要rw-属性则4+2=6；

若要r-x属性则4+1=7。

范例：

chmod a=rwx file和chmod 777 file效果相同，chmod ug=rwx,o=x file和chmod 771 file效果相同，若用chmod 4755 filename可使此程序具有root的权限。

10、head

head :

你可以通过head命令查看具体文件最初的几行内容，该命令默认是前10行内容，如果你想查看前面更多内容，你可以通过一个数字选项来设置，例如 head -20 filename.txt。

11、tail

与head命令相反，tail命令是用来查看具体文件后面几行的内容，默认情况下，是查看该文件尾10行的内容，同样，如果想查看后面更多内容，也是通过数字选项来设置，例如tail -20 filename.txt。

12、more

功能：在终端屏幕按屏显示文本文件。

语法： more ［ - 选项］文件

说明：该命令一次显示一屏文本，显示满之后，停下来，并在终端底部打印出- - More- - ，系统还将同时显示出已显示文本占全部文本的百分比，若要继续显示，按回车或空格键即可。

more命令中各个选项的含义为：

- p 显示下一屏之前先清屏。

- c 作用同- p基本一样。

- d 在每屏的底部显示更友好的提示信息：

- - More- - （XX%）［Press space to contiune , ‘q’ to quit . ］

而且若用户输入了－个错误命令则显示出错信息，而不是简单地鸣响终端。

- l 不处理（换页符）。如果没有给出这个选项，则more命令在显示了一个包含有字符的行后将暂停显示，并等待接收命令。

- s 文件中连续的空白行压缩成一个空白行显示。

执行中的命令

在more命令的执行过程中，用户可以使用more自己的一系列命令动态地根据需要来选择显示的部分。more在显示完一屏内容之后，将停下来等待用户输入某个命令。下表列出了more指令在执行中用到的一些常用命令，而有关这些命令的完整内容，可以在more执行时按h查看。这些命令的执行方法是先输入i（行数）的值，再打所要的命令，不然它会以预设值来执行命令。

i空格若指定i，显示下面的i行；否则，显示下一整屏。

i回车若指定i，显示下面的i行；否则，显示下一行。

iD 若指定i，显示下面的i行；否则，往下显示半屏（一般为11行）。

id 同iD 。

iz 同“i空格”类似，只是i将成为以下每个满屏的缺省行数。

is 跳过下面的i行再显示一个整屏。预设值为1。

if 跳过下面的i屏再显示一个整屏。预设值为1。

iB 往回跳过（即向文件首回跳）i屏，再显示一个满屏。预设值为1。

b 与iB相同。

’ 回到上次搜索的地方　

q或Q 退出more。

＝显示当前行号。

v 在当前行启动/usr/bin/vi对之进行编辑修改。

h 显示各命令的帮助信息。

i/pattern 查找匹配该模式的第i行。预设值为1。

in 查找符合表达式的倒数i行。预设值为1。

! 或：! 在子shell中执行命令。

i：n 在命令行中指定了多个文件名的情况下，可用此命令使之显示第i个文件，若i过大（出界），则显示文件名列表中的最后一个文件。

i：p 在命令行中指定了多个文件名的情况下，可用此命令使之显示倒数第i个文件。若i过大（出界），则显示第一个文件。

i：f 显示当前文件的文件名和行数。

? 重复上次键人的命令。

13、Sed

1.sed -n '2'p filename

打印文件的第二行。

2.sed -n '1,3'p filename

打印文件的1到3行

3. sed -n '/Neave/'p filename

打印匹配Neave的行(模糊匹配)

4. sed -n '4,/The/'p filename

在第4行查询模式The

5. sed -n '1,$'p filename

打印整个文件，$表示最后一行。

6. sed -n '/.*ing/'p filename

匹配任意字母，并以ing结尾的单词(点号不能少)

7 sed -n / -e '/music/'= filename

打印匹配行的行号，-e 会打印文件的内容，同时在匹配行的前面标志行号。-n只打印出实际的行号。

8.sed -n -e '/music/'p -e '/music/'= filename

打印匹配的行和行号，行号在内容的下面

9.sed '/company/' a\ "Then suddenly it happend" filename

选择含有company的行，将后面的内容"Then suddenly it happend"加入下一行。注意：它并不改变文件，所有操作在缓冲区，如果要保存输出，重定向到一个文件。

10. sed '/company/' i\ "Then suddenly it happend" filename

同9，只是在匹配的行前插入

11.sed '/company/' c\ "Then suddenly it happend" filename

用"Then suddenly it happend"替换匹配company的行的内容。

12.sed '1'd ( '1,3'd '$'d '/Neave/'d) filename

删除第一行(1到3行，最后一行，匹配Neave的行)

13.[ address [，address]] s/ pattern-to-find /replacement-pattern/[g p w n]

s选项通知s e d这是一个替换操作，并查询pattern-to-find，成功后用replacement-pattern替换它。

替换选项如下：

g 缺省情况下只替换第一次出现模式，使用g选项替换全局所有出现模式。

p 缺省s e d将所有被替换行写入标准输出，加p选项将使- n选项无效。- n选项不打印输出结果。

w 文件名使用此选项将输出定向到一个文件。(注意只将匹配替换的行写入文件，而不是整个内容)

14.sed s'/nurse/"hello "&/' filename

将'hello '增加到'nurse' 的前面。

15. sed '/company/r append.txt' filename

在匹配company的行的下一行开始加入文件append.txt的内容。

16. sed '/company/'q filename

首次匹配company后就退出sed程序

14、ln

这是linux中一个非常重要命令，请大家一定要熟悉。它的功能是为某一个文件在另外一个位置建立一个同不的链接，这个命令最常用的参数是-s,具体用法是：ln -s 源文件目标文件。当我们需要在不同的目录，用到相同的文件时，我们不需要在每一个需要的目录下都放一个必须相同的文件，我们只要在某个固定的目录，放上该文件，然后在其它的目录下用ln命令链接（link）它就可以，不必重复的占用磁盘空间。

例如：ln -s /bin/less /usr/local/bin/less
-s 是代号（symbolic）的意思。
这里有两点要注意：
第一，ln命令会保持每一处链接文件的同步性，也就是说，不论你改动了哪一处，其它的文件都会发生相同的变化；
第二，ln的链接有软链接和硬链接两种，软链接就是ln -s ** **,它只会在你选定的位置上生成一个文件的镜像，不会占用磁盘空间，硬链接ln ** **,没有参数-s, 它会在你选定的位置上生成一个和源文件大小相同的文件，无论是软链接还是硬链接，文件都保持同步变化。
第三，软链接是可以跨分区的，但是硬链接只能在同一分区内。如果你用ls察看一个目录时，发现有的文件或文件夹的颜色和别的不一样，我机子上是蓝色的，那就是一个用ln命令生成的文件，用ls -l命令去察看，就可以看到显示的link的路径了。

15、rm

rm 文件名文件名删除一个文件或多个文件

rm -rf 非空目录名递归删除一个非空目录下的一切

nlp 2012-08-06 16:16 发表评论

（转载）c++中string到int的转换

nlp — Mon, 06 Aug 2012 04:19:00 GMT

1. c++中string到int的转换

1) 在C标准库里面，使用atoi：

#include
#include
std::string text = "152";
int number = std::atoi( text.c_str() );
if (errno == ERANGE) //可能是std::errno
{
//number可能由于过大或过小而不能完全存储
}
else if (errno == ????)
//可能是EINVAL
{
//不能转换成一个数字
}

2) 在C++标准库里面，使用stringstream：(stringstream 可以用于各种数据类型之间的转换)

#include
#include
std::string text = "152";
int number;
std::stringstream ss;

ss << text;//可以是其他数据类型
ss >> number; //string -> int
if (! ss.good())
{
//错误发生
}
ss << number;// int->string
string str = ss.str();
if (! ss.good())
{
//错误发生
}

3) 在Boost库里面，使用lexical_cast：

#include
#include
try
{
std::string text = "152";
int number = boost::lexical_cast< int >( text );
}
catch( const boost::bad_lexical_cast & )
{
//转换失败
}

2.string 转 CString
CString.format(”%s”, string.c_str());
用c_str()确实比data()要好；

3.char 转 CString
CString.format(”%s”, char*);

4.char 转 string
string s(char *);
只能初始化，在不是初始化的地方最好还是用assign().

5.string 转 char *
char *p = string.c_str();

6.CString 转 string
string s(CString.GetBuffer());
GetBuffer()后一定要ReleaseBuffer(),否则就没有释放缓冲区所占的空间.

7.字符串的内容转换为字符数组和C—string
(1) data(),返回没有”\0“的字符串数组
(2) c_str()，返回有”\0“的字符串数组
(3) copy()

8.CString与int、char*、char[100]之间的转换

(1) CString互转int

将字符转换为整数，可以使用atoi、_atoi64或atol。而将数字转换为CString变量，可以使用CString的Format函数。如
CString s;
int i = 64;
s.Format(”%d”, i)
Format函数的功能很强，值得你研究一下。

void CStrDlg::OnButton1()
{
   CString
   ss=”1212.12″;
   int temp=atoi(ss);
   CString aa;
   aa.Format(”%d”,temp);
   AfxMessageBox(”var is ” + aa);
}

(2) CString互转char*

///char * TO cstring
CString strtest;
char * charpoint;
charpoint=”give string a value”; //?
strtest=charpoint;

///cstring TO char *
charpoint=strtest.GetBuffer(strtest.GetLength());

(3) 标准C里没有string,char *==char []==string, 可以用CString.Format(”%s”,char *)这个方法来将char *转成CString。
    要把CString转成char *，用操作符（LPCSTR）CString就可以了。
    CString转换 char[100]
   char a[100];
   CString str(”aaaaaa”);
   strncpy(a,(LPCTSTR)str,sizeof(a));

nlp 2012-08-06 12:19 发表评论

统计源语言规则满足对齐一致性的次数（二）实际代码编写

nlp — Mon, 06 Aug 2012 04:17:00 GMT

其实这个代码我写了两个版本，第一个版本仅仅是为了实现功能，而没有去考虑算法的复杂度与计算时间，而由于统计的语料是100万的语料，因此用第一个版本用了两三个小时都得不出结果。所以我在向学长请教之后，写出了第二个改进的版本，虽然耗时还是比较长，但是总算能够得出结果，而我也希望在日后的学习过程中能够能写出更优的算法。
算法的整体思想同样也比较简单，就是遍历整篇文档，切分其中的句子，再对句子进行单独的操作。对单个句子中，先遍历得出其中所有的源语言规则，同时统计其对齐信息，存放到map中，之后再判断是否满足对齐一致性，分别将所有出现的次数以及满足对齐一致性的次数存入两个map中，最后再输出结果。接下来看看具体代码。
由于源语言以及对齐信息对是连续的string，但是有用空格进行切分，因此首先写了一个小函数将每个部分单独切分出来，以便于后面的使用：

1 inline vector<string> split_word(string str,string sym)
2 {
3     str+=sym;
4     vector <string> result;
5     size_t pos;
6     int size=str.size();
7     for(int i=0; i 8     {
9         pos=str.find(sym,i);
10         if(pos11         {
12             string sub_string=str.substr(i,pos-i);
13             if(sub_string.length()!=0)
14             {
15                 result.push_back(sub_string);
16             }
17             i=pos+sym.size()-1;
18         }
19     }
20     return result;
21 }

这里使用了inline是因为之前看到内联函数适用于那些频繁使用的小函数，有利于提高运行效率。这里str表示的是需要进行切分的整串string，而sym表示的就是切分依据的分隔符，比如空格。第三行中在str后面又加了一个sym是为了便于切分，因为切分依据都是先找到sym的位置，再切分出sym的位置与初始位置之间的字符串。
接下来是将源语言对齐到目标语言的信息与目标语言对齐到源语言的对齐信息存入两个map中，由于其中可能存在一对多的情况，因此使用了map >来存取多个对齐关系。

1 void get_alignment_relationship(string alignment, map<int,vector<int> > &stt_alignment, map<int,vector<int> > &tts_alignment)
2 {
3     vector<string>alignment_element = split_word(alignment," ");
4     assert (alignment_element.size()>=0);
5     for (int i=0; i 6     {
7         vector<string>s_t_index= split_word(alignment_element[i],"-");
8         int s_index = atoi(s_t_index[0].c_str());
9         int t_index = atoi(s_t_index[1].c_str());
10
11         stt_alignment[s_index].push_back(t_index);
12         tts_alignment[t_index].push_back(s_index);
13     }
14     map<int,vector<int> >::iterator it1,it2;
15     it1=stt_alignment.begin();
16     stt_alignment.erase(it1);
17     it2=tts_alignment.begin();
18     tts_alignment.erase(it2);
19 }

stt_alignment 表示的是source to target，即源语言对齐到目标语言的对齐关系，而反之，tts_alignment 则表示目标语言对齐到源语言的对齐关系。
在得到对齐关系之后，通过判断对齐连线个数来判断是否符合对齐一致性：

1 inline bool is_fit_alignment(map<int,vector<int> > stt_alignment, map<int,vector<int> > tts_alignment, size_t s_begin, size_t s_end)
2 {
3     int src_size=0,tgt_size=0;
4     map<int,int> tgtcount;
5     map<int,int>::iterator iter;
6     for (int x=s_begin;x 7     {
8         src_size+=stt_alignment[x].size();
9         for (size_t a=0;a10         {
11             tgtcount[stt_alignment[x][a]]++;
12
13         }
14     }
15         for(iter=tgtcount.begin();iter!=tgtcount.end();iter++)
16         {
17             tgt_size+=tts_alignment[iter->first].size();
18         }
19         if (src_size==tgt_size && src_size!=0)
20             return true;
21         return false;
22 }

通过bool函数来判断是否满足对齐一致性。
以上就是一些主要的函数方法。写完这个代码最大的收获就是由于之前不懂得怎么在函数中返回STL容器，因此当遇到需要使用map或者vector之类的容器时，就只好在main函数中实现，而现在了解了可以在函数中使用指针来返回容器。这对于以后代码的编写提供了非常大的便利。而且通过写这个代码，也对于语料的结构以及怎么处理语料有了更深入的了解，这对于以后编写自然语言处理方面的代码有了很大的帮助。

nlp 2012-08-06 12:17 发表评论

统计源语言规则满足对齐一致性的次数（一）概念介绍

nlp — Mon, 06 Aug 2012 04:14:00 GMT

这是写的第二个个人感觉较有挑战性的代码，老师布置的任务真是一次比一次难，不过也从中学习到蛮多东西的。

这次的任务是要计算语料库中，源语言规则出现的总的次数以及满足对齐一致性的次数。

这个任务的第一个难点就是我对什么是源语言规则以及什么叫满足对齐一致性这个概念不大清楚。因此首先来介绍一下这两个概念。我们用一个例子来说明：

对于这句话，其中上面的中文是源语言，下面的英文是目标语言，而中间的连线则是它们之间的对齐关系。这句话在语料库中的表示应该为：

1
2 ~~是不能忘记的。~~
3 ~~was not to be forgotten .~~
4 0-0 1-1 2-2 3-2 4-4 4-5 6-6 7-7
5

       其中bead范围内表示的是一整个句子，和是句子的首尾标识符，同样也算在对齐关系里面。而表示的是源语言，表示的是目标语言，表示的是对齐关系。
    我们首先来介绍什么是源语言规则，源语言规则有一些限制，首先要限制在一定的长度之内，这里我将长度限制为7，然后繁殖度规则，不过这里我没有将其考虑进去。还有一些概念我也说不大清楚，因此同样还是举例来说明。对于“是不能忘记的”这句话，其中包含的源语言规则就包括：是，是不，是不能，是不能忘记，是不能忘记的；不，不能，不能忘记，不能忘记的；能，能忘记，能忘记的；忘记，忘记的。通过这个例子就可以看到源语言规则即是将句子中所有可能组成遍历一遍，而其中单独的“的”不构成源语言规则是因为它没有对齐关系。
    接下来我们介绍什么叫满足对齐一致性。我同样觉得概念好像很难解释清楚，当初请教学长的时候也是画图来表示比较直观明了。如果非要说概念的话应该是就源语言和目标语言的对齐不会超出互相对齐的范围之内。用例子来表示就是与“是不”对齐的是“was not”，但是与“was not”对齐的是“是不能”，可见目标语言对齐到源语言时超出了源语言的范围，因此“是不”这个源语言规则就不满足对齐一致性，而“是不能”则满足对齐一致性。而在代码编写过程中，要判断一个源语言规则是否满足对齐一致性的简单的方法就是判断对齐连线个数，即该源语言规则对齐到相应目标语言的对齐连线数目等于相应目标语言对齐到源语言规则的对齐连线时，则该源语言规则满足对齐一致性。

nlp 2012-08-06 12:14 发表评论