笨鸟先飞学编程系列之四内存操作

Posted on 2010-01-13 02:49 besterChen 阅读(5777) 评论(6) 编辑收藏引用所属分类: 笨鸟先飞学编程系列

编程序，几乎无时无刻不在使用内存，我们使用变量，调用函数，申请空间存放我们的数据，都是在对内存进行操作。

在上一个函数专题中，我本想一并讲下栈内存的使用和局部变量的定位，但由于程序的BUG几乎都是内存的误操作（主要是没有检查）引起的，所以我把相关内存操作的东西都放在这个专题中跟大家讨论。希望这个专题能给像我一样菜的朋友一定的帮助而不是浪费大家的时间。

一、简介

在一个程序中，内存被分成几个部分，像我们知道的代码段内存、堆内存、栈内存等等。

当我们进行函数调用的时候就是在间接的操作栈内存，当我们用malloc用new关键字申请一块内存空间存放我们的数据的时候，就是在操作堆内存。很明显，我们想要写程序，无疑是一定要与他们打交道的，而如今，我们知道的内存揭露、缓冲区溢出等问题很明显就是对内存操作不是太完美导致的。

因此，对内存的使用有个好的认识，从而完善自己的编程风格尽量减少内存BUG是非常必要的工作，现在，我们就进入正题，分别讨论栈内存和堆内存的运作规则，希望大家都能从中有所收获。

二、栈内存的使用

时间过的很快，一转眼，函数专题已经过去好长时间了，相信朋友们对函数的使用方法已经掌握的跟我一样熟练了，如果细心的朋友肯定会发现，在我们的函数专题中，我讲述的非常粗糙，很多的知识点我一点就带过去了，很多的知识点还没有讲到。

是的，函数的调用最直接的关系就是栈内存的使用，像定位函数的参数，定位返回地址，定位子函数中的局部变量，都是要在对栈的了解的基础上才能进行的。现在我们就来深入的讨论下栈内存格式。

1、 函数与栈内存的关系

栈是一个数据结构，它遵循“后进先出”的原则，就像手枪的弹匣，先压入弹匣的子弹最后被打出来一样。

可能很多的朋友会问我，为什么函数要跟栈内存关联到一起，而不使用别的内存（比如堆内存），好现在我们回想下我们函数专题的一些知识。

“

A函数调用B函数，B函数调用C函数，C函数调用D函数……

等D函数执行完毕了，就会返回到C函数继续执行，C函数执行完了，就会返回到B函数……。

”

大家看它们的调用关系，是不是很像栈这个结构的规则：最先调用的最后执行完毕，最后调用的函数最先执行完毕。

是的，正是由于他们之间的这个关系，所以它们被联系在一起了，这样的好处是什么呢？

2、 通过实例来观察函数与栈的关系

好，为了让大家更方便的进入主题，我直接使用函数专题第三节__stdcalll的例子，如果可以的话，希望大家能跟着我一起调试这段代码。

00401000 >/$ 83EC 0C sub esp, 0C

00401003 |. 33C0 xor eax, eax

00401005 |. 8D4C24 04 lea ecx, dword ptr [esp+4]

00401009 |. 894424 08 mov dword ptr [esp+8], eax

0040100D |. 894424 04 mov dword ptr [esp+4], eax

00401011 |. 894424 00 mov dword ptr [esp], eax

00401015 |. 8D4424 00 lea eax, dword ptr [esp]

00401019 |. 50 push eax

0040101A |. 8D5424 0C lea edx, dword ptr [esp+C]

0040101E |. 51 push ecx

0040101F |. 52 push edx

00401020 |. 68 34804000 push Func.00408034 ; ASCII "%d,%d,%d"

00401025 |. E8 87000000 call Func.scanf>

0040102A |. 8B4424 10 mov eax, dword ptr [esp+10]

0040102E |. 8B4C24 14 mov ecx, dword ptr [esp+14]

00401032 |. 8B5424 18 mov edx, dword ptr [esp+18]

00401036 |. 83C4 10 add esp, 10 ; 平衡Scanf的参数使用的堆栈

00401039 |. 50 push eax

0040103A |? 51 push ecx

0040103B |? 52 push edx

0040103C |? E8 0F000000 call Func.MaxNum>

{

00401050 >/$ 8B4C24 04 mov ecx, dword ptr [esp+4]

00401054 |. 8B4424 08 mov eax, dword ptr [esp+8]

00401058 |. 3BC8 cmp ecx, eax

0040105A |. 7C 0B jl short Func.00401067

0040105C |. 8B4424 0C mov eax, dword ptr [esp+C]

00401060 |. 3BC8 cmp ecx, eax

00401062 |. 7D 0B jge short Func.0040106F

00401064 |. C2 0C00 retn 0C

00401067 |? 8B4C24 0C mov ecx, dword ptr [esp+C]

0040106B |. 3BC1 cmp eax, ecx

0040106D |> 7D 02 jge short Func.00401071

0040106F \> 8BC1 mov eax, ecx

00401071 |. C2 0C00 retn 0C ; __stdcall的调用方式，在子函数中平衡堆栈

}

00401041 |? 50 push eax

00401042 |? 68 30804000 push Func.00408030 ; ASCII "%d",LF

00401047 |? E8 34000000 call Func.printfGetStringTypeWsWyte

0040104C \. 83C4 14 add esp, 14 ; 这只平衡printf参数跟开始申请的0xC的栈就可以了。

0040104F C3 retn

好，为了节省时间，我们重点看调用MaxNum这个函数的代码，如下图:

这时的堆栈情况如下:

我们F8单步执行到0x0040103C这个地址这时的栈情况如下:

F7单步走一下，来到下面的代码:

这时，我们再看堆栈情况:

这时ESP中的内容:0x00401041是什么呀?我们再回头看第一张截图:

哈哈，0x00401041就是调用MaxNum的下一条语句哈。就是说，在CALL一个函数的时候，程序先将返回地址压栈然后再JMP到目标函数的首地址：

0040103C CALL 0x00401050 <= => push 0040103C+5

Jmp 0x00401050

这里的push 0040103C+5就是给函数返回的时候指明了方向，它让程序知道，等子函数执行完了该跳转到哪里，继续执行。

好，我们继续F8单步走，走到函数末尾:

这时的堆栈情况几乎没有变化（因为没有对它进行操作……），我们再次F8，这时要着重观察参数以及栈的变化，好，F8。

哈哈，代码回到了0x00401041这个地址，再注意看堆栈:

如果我们仔细的观察这个变化，就会发现:

retn 0x0C <= => JMP esp

add esp， 0x0C

这时堆栈就又回到了第二张图片中堆栈的情况相同了。MaxNum这个函数的调用前和调用后是一样的。这就是传说中的栈平衡原理。

这时，我们可以知道，函数调用跟栈联系到一起的好处：可以极大的节省内存空间，实现内存空间有效的重复使用。而堆栈平衡也是为了我们从子函数中出来以后能够继续准确的定位本函数的局部变量、返回地址等信息。

三、栈溢出初探

通过上一小节的学习，我们知道，调用一个函数的时候，程序会自动的先将返回地址压入栈中，而这个地址却起到通知程序执行完子函数之后该到那个地方继续执行的关键作用。

同样，通过上面的学习，我们也知道，我们函数的参数，函数中的局部变量几乎都是存放在栈中的，既然这样，就让我们设想一下，如果我们的一个局部变量足够的大，大到把这个返回地址都覆盖了，回出现什么情况呢？

好让我们试一下，编写如下的程序：

/*栈溢出演示程序*/

#include<stdio.h>

#include<string.h>

char name[] = "Hello everyone! Nice to meet you…";

int main()

{

char outputBuffer[8] = {0}; // 这里只分配了8个字节的栈空间

// 将指定的字符串复制到这个缓冲区中，如果这个指定的字符串大于8个字节，则就溢出了

strcpy(outputBuffer, name);

for(int i=0;i<8&& outputBuffer [i];i++)

printf("\\0x%x", outputBuffer [i]);

return 0;

}

程序如下:

相信，如果你经常玩电脑，这个错误提示你应该是见到过的，但是这提示中的两个数字是啥意思呢？如果这个是地址，我们的程序要想没有对这地址进行操作，但是我们对字符串操作了，这有一个可能就是这些数字是一个字符串，我们对照着ASC码表，看下它们是什么？

是：“oyre”?按照小尾的方式读这个字符串应该是“eryo”，它正好是我们整个字符串: "Hello everyone! Nice to meet you…"中的第9个字符开始的连续的4个字符。

当然这个是我们的猜测，我们用OD载入这个程序看看具体的情况:

这时的堆栈如下:

再F8单步一下,继续观察栈的情况:

我们用OD数据窗口中跟随，换种方式解析:

OK,现在应该比较清楚了，我们对比下栈被破坏的前后图片，我们可以知道。0x0012FF84中存放的是函数的返回地址，我们的字符”eryone”刚好把这个地址给覆盖了，那如果我们吧这几个字符替换成我们别的代码的首地址，那不就是让程序自动执行了我们的代码了么？

我们实验下，我在看雪找了个shellcode，用来弹出一个消息框，代码如下:

// MessageBox提示HelloWorld的shellcode

// 取自看雪论坛

unsigned char shellcode[] =

"\xEB\x42\x8B\x59\x3C\x8B\x5C\x0B\x78\x03\xD9\x8B\x73\x20\x03\xF1"

"\x33\xFF\x4F\x47\xAD\x33\xED\x0F\xB6\x14\x01\x38\xF2\x74\x08\xC1"

"\xCD\x03\x03\xEA\x40\xEB\xF0\x3B\x6C\x24\x04\x75\xE6\x8B\x73\x24"

"\x03\xF1\x66\x8B\x3C\x7E\x8B\x73\x1C\x03\xF1\x8B\x04\xBE\x03\xC1"

"\x5B\x5F\x53\xC3\xEB\x4F\x33\xC0\x64\x33\x40\x30\x8B\x40\x0C\x8B"

"\x70\x1C\xAD\x8B\x48\x08\x58\x33\xDB\x33\xFF\x66\xBF\x33\x32\x57"

"\x68\x75\x73\x65\x72\x8B\xFC\x53\x51\x53\x50\x50\x53\x57\x68\x54"

"\x12\x81\x20\xE8\x8A\xFF\xFF\xFF\xFF\xD0\x8B\xC8\x68\x25\x59\x3A"

"\xE4\xE8\x7C\xFF\xFF\xFF\xFF\xD0\x59\x68\x97\x19\x6C\x2D\xE8\x6F"

"\xFF\xFF\xFF\xFF\xD0\xE8\xAC\xFF\xFF\xFF"

"hello,world!";

现在代码已经确定了，那么怎么能跳转到我们的这个shellcode中去执行呢？

我们知道，我们shellcode的位置是不确定的，但是当前的栈位置是可以确定的，那么我们可以将调用我们shellcode代码的机器指令存放到栈中，然后用一条”JMP ESP”指令来执行我们调用shellcode的代码，这样程序就不自动的掉转到我们的shellcode中去执行了么？

OK,既然思路已经有了，那我们目前的任务就明确了:

1、找到JMP esp指令的地址。

2、确定我们jmp shellcode的机器码。

第一个任务比较容易，我们用OD,到0x7Cxxxxxx地址出，查找指令jmp esp的机器码（FFE4）：

点击OK，我们来到了如下的位置:

OK，现在第一个任务完成了，我们只要把函数调用的返回地址填写成这个地址:0x7FFA4512这样，胆码就会掉转到栈中去执行下一条指令。

接下来要做的就是确定跳转到我们代码的机器码是多少。如果大家写过内联钩子的话，应该很清楚这个机器码是由远地址减进地址再减5得到的，也就是说，我们需要先确定我们shellcode的位置然后计算一下，由于我数学学的有点那个啥~，所以，这里我们全借助OD在给我们生成机器码。

我们从shellcode中随便取几个字符，（这里我取前13个字符）去掉\x，然后再OD中，打开内存试图（ALT+M）选中第一条内存地址按ctrl+b，将我们选取的字符粘贴进去，开始查找，如下图:

点击OK，来到如下地方:

OK,我们的shellcode位置就在0x00408030这个地方了。

接下来，我们需要到栈中，写一下jmp 0x00408030，看下机器码是多少:

我们先编写临时的代码如下：