C++博客-hex108-随笔分类-Program

gdb,strace那些不常用的功能

hex108 — Tue, 17 May 2011 13:14:00 GMT

摘要: 主要想介绍一下.gdbinit文件。

gdb运行时会首先加载 ~/.gdbinit文件
例如：我在debug时，每次都需要进行handle SIGBUS noprint pass来处理SIGBUS信号，这种情况就可以把它写入 .gdbinit文件。
在.gdbinit里也可以定义函
eg: 在.gdbinit里定义print_regs
def print_regs
i r eax ebx ecx edx
end
(gdb) print_regs
eax 0xbffff4a4 -1073744732
ebx 0x28bff4 2670580
ecx 0x902c5562 -1876142750
edx 0x1 1 阅读全文

hex108 2011-05-17 21:14 发表评论

Debug

hex108 — Tue, 17 May 2011 12:26:00 GMT

debug可以帮助熟悉系统，可是时间长了会很疲卷，特别是机械的调试，如果还要面对杂乱的代码，更是雪上加霜。所以要学着从debug中钻探快乐，在系统的调试过程中发挥想象，尝试不同的debug方法。

最近看了《软件调试实战》，结合自己的经历，总结了一下：

1. 与测试用例相关

a. 如果不能达到“测试先行”，至少应该在写完代码后有相对完整的测试用例。对于正确性的保证和以后重构代码都是有好处的。

b. 每次添加新功能或修复了一个bug时，都应该增加测试用例！A历经千辛万苦终于fix 了一个bug，很久很久以后，B觉得这段代码需要改改，于是改了改，后来的结果还是改了，而且顺利提交到了库里（因为A当时遇到的bug 并没有出现！）

c. 回归测试

修改代码后进行回归测试。每次提交一个版本后自动进行回归测试，保证库里的代码的正确性。

d. 简化测试用例

好处：可以排除不起作用的因素；减少测试用例的运行时间；最重要的是，使用测试用例更容易调试（谁愿意处理那些填充了数百或数千项的数据容器呢？）

方法如：如果测试例子比较好改，可以将其改小；将输入集改小

e. 完成代码，清理后重新运行所有测试用例。

2. 关于程序的编译

a. 重视编译期间的warning，最好把warning数减为0. 不要忽略编译器警告，即使它们可能是无害的。

eg：
int add(int a,int b){
        return a +b ;
}
结果头文件里声明成了 extern int add(long a,int b)
会调试死人啊，调程序的时候一看程序定义是对的啊，怎么传的参数一下就变了；
b. 如果出现莫名其妙的错误
      如果是用Makefile组织工程时，考虑make clean，有可能修改数据结构或头文件后改变了一些东西，但是由于一些未知原因该文件并未重新编译。如果函数是C函数，有可能调用者和被调用者的参数的成员和类型不同。如果一个类方法，则访问任何类成员都将发生错误，因为这两个类的内存而已几乎是完全不同的。这可能导致Segmentation falut,或是很久之后才能检测到的内存破坏。
3. 关于链接
a. 链接器的基本工作原理
       编译器或汇编程序将源代码转换为机器代码，并输出对象谁的。对象文件中包含符号（函数或变量），这些符号有的在本模块定义的，有的在其他模块定义的，链接器就在链接对象文件时把这些未定义的符号与定义它的模块对应起来。
b. 链接顺序
     有库和归档文件时链接算法是不一样的。
     链接器参数顺序很重要，对于编译单元（如对象文件和库）和搜索路径来说都是如此。
c. C++中使用C代码时，用extern c{} 把C代码包装一下。
     关于 c++符号和名称改编：C++允许重载函数，为了生成C++代码元素的唯一符号，编译器使一种称为名称改编（name mangling）的技术，它将对象的准确规格说明（如会员名空间和函数参数的个数及类型）编码到符号中。（可以用c++filt解析出来~ eg: c++filt _Z9factoriali的结果为factorial(int)）
d. 环境变量
   LD_LIBRARY_PATH会影响动态加载的库，用LDD可以看到程序依赖哪个动态库
4. 自动化测试
   让一切自动化起来。如果重复的做一件事，就很有必要考虑自动化了。
5. 关于那些怪异的错误
    在一些显而易见有内存问题的情况下，如：间歇故障和无法解释的随机行为，这时考虑使用内存调试器了！
    如valgrind，很好用，也很简单。
    valgrind –tool=massif your_program 进行内存剖析（检测内存分配情况，优化内存使用）
    valgrind –tool=memcheck your_program 进行内存检查（检测无效的写访问，检测对未初始化的内存的读取操作，检测内存泄露等）
    valgrind –tool=helgrind your_program 查找竞争条件，可以用来辅助调试多线程程序
    valgrid –-db-attac=yes的功能很好用，可以将内存高度器和源代码测试器（如gdb）结合起来，这样就可以即时查看当时的变量的值，很好用！
6. 静态检查器
   作为常规软件构建过程中的一部分运行，用于查找一些可通过静态源代码分析发现的特定bug。
7. 关于运行时剖析工具
     不要编写自己的运行时剖析时工具：自己霞友云朋一的剖析工具通常使用系统调用time()或ctime()来测量时间。这些系统调用的问题是开销很高，而且准确度低。另处在剖析期间要收集大量数据，可能会影响程序本身的行为。
8. 环境变量
如程序的行为可能依赖于当前工作目录。在linux上，目录被注册到环境变量CWD上。这个bug碰到过，还导致了死锁。
9. 读取恰当的错误消息
某个地方出错时，满屏都是错误消息时，应该重点关注哪些消息？
Answer: 首先出现的那些消息！因为后面的消息有可能是前面导致的。这和编译出错时的情景一致：编译错误有很多，我们肯定会直觉地去寻找第一个出错的地方，谁知道是不是少了个括号导致后面一连串的错误。
10. bug不会自动消失
      如果某个版本有bug，update后，bug消失了，“真好！”，一定要弄清楚bug出现的原因是什么。以前遇到过一个bug，增加一条printf语句后，bug消失了！最后发现问题是数组越界了，而修改源代码会导致代码段，数据段的布局等改变，所以会导致偶尔对。（这种情况可以求助于内存调试工具或者静态检查的工具）
11. 学习使用gcc, gdb,strace 等工具。（熟悉以后可以再挖掘挖掘，可能有惊喜）
12. cvs/svn commit之前一定要diff一下，看做了哪些修改，以避免不小心删掉一些东西后，然后”被提交”了。
最后，最强大的工具不在计算机中，而是调试者的判断力和分析技巧。

参考资料：

1. 《软件调试实战》：http://book.douban.com/subject/4231293/

hex108 2011-05-17 20:26 发表评论

shell编程 : Remember that the shell spends a lot of its life substituting text

hex108 — Fri, 22 Apr 2011 16:23:00 GMT

        对shell不熟，偶尔会现一些我无法理解的现象。此时该进行debug了，可选的方法有:
        a. echo变量的值
        b. shell –x

        此外，Remember that the shell spends a lot of its life substituting text.（http://linuxcommand.org/wss0100.php）例如，对于下面的程序：

hex108@Gentoo ~ $ cat test.sh 
#!/bin/sh
var=
if [ $var = "y" ] ;then
    echo "yes"
fi

if语句里的var变量经替换后变为 if [ = "y" ]，些时当然会出错。

hex108@Gentoo ~ $ ./test.sh 
./test.sh: line 3: [: =: unary operator expected

ps:现在写脚本的时候倾向于使用perl,而较少使用shell ，因为对于经常使用的脚本，可能会经常需要对它不停地进行改进，慢慢的，程序越来越大，该考虑重构了，此时才会发现perl(python等“真正的”脚本语言)比shell相对来说更好重构。

hex108 2011-04-23 00:23 发表评论

理解C指针：一个内存地址对应着一个值

hex108 — Sat, 21 Aug 2010 15:20:00 GMT

    一个内存地址存着一个对应的值，这是比较容易理解的。

    如果程序员必须清楚地知道某块内存存着什么内容和某个内容存在哪个内存地址里了，那他们的负担可想而知。
    汇编语法对“一个内存地址存着一个对应的数”，作了简单的“抽象”：把内存地址用变量名代替了，对内存地址的取值和赋值方式不变。
    c语言对此进行了进一步的抽象：变量 <==> （一个内存地址，对应的值）（这里忽略类型等信息）。

    把C语言中的基本类型(int,long,float等),指针，数组等还原为（一个内存地址，对应的值）后，就能更清淅地理解它们了。

    内存就相当于(addr,val)的大hash表,c语句的语义基本就是改变hash值。

    为了下文的方便，特定义如下语义（遵循C的标准语义）：

    var <==> (addr, val) (var为一个变量名，addr为var在内存中的首地址,val为var 的值)
    &var <==> addr
    var <==> var作为左值出现（即等式左边）时，var等价于 addr;
               var作为右值出现（即等式左边）时，var等价于 val;
    *var <==> val

    注：符号"<==>" 右边出的等式 x = y(x是一个内存地址，y是一个值); 表示将内存地址为x的内容置为值y，如addr = 3表示置内存addr里的值为3

    现在利用上面的语义解释一下这些例子：
    int i = 3;
    假设 i的内存地址为 0x8049320 ,那么这句话的语义是0x8049320 = 3，经过i = 3后，i为(0x8049320,3)

    int b = i;
    假设 b的内存地址为 0x8049324 ,那么这句话的语义是0x8049324 = i对应的val = 3,此时b为(0x8049324,3)

    int *p = &b
    指针p也是一个变量，int **p,int *p[8],在这些申明中p都只是一个指针变量，它和其他的变量的不同之处在于它的大小是定的，它的类型信息只是编译器用来进行类型检查和其他一些作用的(如果没有类型检查，你可以用任何的方式对一个变量进行操作如int i; ****i = 3)。假设p的地址为0x8049328,则根据p = &b的语义p.addr = b.addr，p为(0x8049328,0x8049324)

    *p = 5;
    语义为 0x8049324 = 5,此时只改变了内存地址为0x8049324的值，即改变了b的值(0x8049324,5)，而p的值并未改变

    int **q = &p; //如果写为int **q = &&i; gcc编译不通过
    假设q的内存地址为0x8049330,语义为 0x8049330 = addr(p) = 0x8049328;所以q为(0x8049330, 0x8049328)
    (int **q = &&i, 要是编译过了则q应该表示为(0x8049330, x),内存地址为x的地方表示为(x,0x8049320)，那么地址x为多少呢? )

    **q = 6
    语义为 val(val(q)) = val(0x8049328) = 0x8049324 = 6,将内存地址为0x8049324的内容置为6,即将b的值置为6,b为(0x8049324,6)

    对于结构，这些语义也适用，因为结构里的成员也是有对应地址的，也能表示为(addr,val)的形式。

    对“一个内存地址存着一个对应的值”的抽象程度越高，越不用关心底层，如java。
    Haskell已经没有副作用之说了，更不用关心这些了。

    就这些。

hex108 2010-08-21 23:20 发表评论

构建正则表达式引擎

hex108 — Thu, 17 Jun 2010 12:50:00 GMT

一．简介

该正则表达式暂时能识别 *,|,(,)等特殊符号，如(a|b)*abc。不过扩展到其他符号（如?）也相对比较容易，修改NFA中的构建规则即可。

二．引擎的构建

该正则表达式引擎的构建以《Compilers Principles,Techniques & Tools》3.7节为依据，暂时只能识别*,|,(,)这几个特殊的字符，其工作过程为：构建NFA -> 根据NFA构建DFA -> 用DFA匹配。

1. 构建NFA
该NFA的构建以2条基本规则和3条组合规则为基础，采用归纳的思想构建而成。
1）2条基本的规则是:
a. 以一个空值ε构建一个NFA

b. 以一个字符a构建一个NFA

2) 3条组合规则是：
a. r = s | t （其中s和t都是NFA）

b. r = s t（其中s和t都是NFA）

c. r = s *（其中s为NFA）

3) 如果需要识别如”?”等特殊符号，则可再加一些组合规则。

在具体的程序中，可以以下面的BNF为结构来实现。（具体见源程序regexp.cpp）

r -> r '|' s | r
s -> s t | s
t -> a '*' | a
a -> token | '(' r ')' | ε

2. 构建DFA
主要是求ε闭包的过程，从一个集合的ε闭包转移到一个集合的ε闭包。
以a*c为例，其NFA图如下所示（用dot画的）

为例:
起始结点3的ε闭包集为 A = {3,1,4}
A遇上字母a的转移为MOV(A,a) = { 2 }，其ε闭包集为B = { 2,1,4 }
A遇上字母c的转移为MOV(A,c) = { 6 }，其ε闭包集为B = { 6 }
同理可求出其他转移集合，最后得到的DFA如下所示:

3. 匹配
每匹配成功一个字符则DFA移动到下个相应的结点。

三．改进

1. 如龙书中所说，有时候模拟NFA而不是直接构建DFA可能达到更好的效果。
2. 每次匹配不成功都需要回溯，这个地方也可以借鉴KMP算法（不过KMP对此好像有点不适用）
3. 其他改进方法可以看看《柔性字符串匹配》和龙书《Compilers Principles,Techniques & Tools》3.7节。

四． 代码下载

svn checkout http://regexp.googlecode.com/svn/trunk/ regexp-read-only

或 regexp.rar