C++博客-CPP&&设计模式小屋-随笔分类-P2P DHT

P2P之UDP穿透NAT的原理与实现（附源代码）（转）

CPP&&设计模式小屋 — Thu, 04 Jan 2007 05:37:00 GMT

P2P之UDP穿透NAT的原理与实现（附源代码）

作者：shootingstars | 日期：2004-05-25 | 字体：大中小

P2P 之 UDP穿透NAT的原理与实现（附源代码）
原创：shootingstars
参考：http://midcom-p2p.sourceforge.net/draft-ford-midcom-p2p-01.txt

论坛上经常有对P2P原理的讨论，但是讨论归讨论，很少有实质的东西产生（源代码）。呵呵，在这里我就用自己实现的一个源代码来说明UDP穿越NAT的原理。

首先先介绍一些基本概念：
    NAT(Network Address Translators)，网络地址转换：网络地址转换是在IP地址日益缺乏的情况下产生的，它的主要目的就是为了能够地址重用。NAT分为两大类，基本的NAT和NAPT(Network Address/Port Translator)。
    最开始NAT是运行在路由器上的一个功能模块。

    最先提出的是基本的NAT，它的产生基于如下事实：一个私有网络（域）中的节点中只有很少的节点需要与外网连接（呵呵，这是在上世纪90年代中期提出的）。那么这个子网中其实只有少数的节点需要全球唯一的IP地址，其他的节点的IP地址应该是可以重用的。
    因此，基本的NAT实现的功能很简单，在子网内使用一个保留的IP子网段，这些IP对外是不可见的。子网内只有少数一些IP地址可以对应到真正全球唯一的IP地址。如果这些节点需要访问外部网络，那么基本NAT就负责将这个节点的子网内IP转化为一个全球唯一的IP然后发送出去。(基本的NAT会改变IP包中的原IP地址，但是不会改变IP包中的端口)
    关于基本的NAT可以参看RFC 1631

    另外一种NAT叫做NAPT，从名称上我们也可以看得出，NAPT不但会改变经过这个NAT设备的IP数据报的IP地址，还会改变IP数据报的TCP/UDP端口。基本NAT的设备可能我们见的不多（呵呵，我没有见到过），NAPT才是我们真正讨论的主角。看下图：
                                Server S1
                         18.181.0.31:1235
                                      |
          ^ Session 1 (A-S1) ^      |
          | 18.181.0.31:1235 |      |
          v 155.99.25.11:62000 v      |
                                      |
                                     NAT
                                 155.99.25.11
                                      |
          ^ Session 1 (A-S1) ^      |
          | 18.181.0.31:1235 |      |
          v   10.0.0.1:1234    v      |
                                      |
                                   Client A
                                10.0.0.1:1234
    有一个私有网络10.*.*.*，Client A是其中的一台计算机，这个网络的网关（一个NAT设备）的外网IP是155.99.25.11(应该还有一个内网的IP地址，比如10.0.0.10)。如果Client A中的某个进程（这个进程创建了一个UDP Socket,这个Socket绑定1234端口）想访问外网主机18.181.0.31的1235端口，那么当数据包通过NAT时会发生什么事情呢？
    首先NAT会改变这个数据包的原IP地址，改为155.99.25.11。接着NAT会为这个传输创建一个Session（Session是一个抽象的概念，如果是TCP，也许Session是由一个SYN包开始，以一个FIN包结束。而UDP呢，以这个IP的这个端口的第一个UDP开始，结束呢，呵呵，也许是几分钟，也许是几小时，这要看具体的实现了）并且给这个Session分配一个端口，比如62000，然后改变这个数据包的源端口为62000。所以本来是（10.0.0.1:1234->18.181.0.31:1235）的数据包到了互联网上变为了（155.99.25.11:62000->18.181.0.31:1235）。
    一旦NAT创建了一个Session后，NAT会记住62000端口对应的是10.0.0.1的1234端口，以后从18.181.0.31发送到62000端口的数据会被NAT自动的转发到10.0.0.1上。（注意：这里是说18.181.0.31发送到62000端口的数据会被转发，其他的IP发送到这个端口的数据将被NAT抛弃）这样Client A就与Server S1建立以了一个连接。

    呵呵，上面的基础知识可能很多人都知道了，那么下面是关键的部分了。
    看看下面的情况：
    Server S1                                     Server S2
18.181.0.31:1235                              138.76.29.7:1235
        |                                             |
        |                                             |
        +----------------------+----------------------+
                               |
   ^ Session 1 (A-S1) ^      |      ^ Session 2 (A-S2) ^
   | 18.181.0.31:1235 |      |      | 138.76.29.7:1235 |
   v 155.99.25.11:62000 v      |      v 155.99.25.11:62000 v
                               |
                            Cone NAT
                          155.99.25.11
                               |
   ^ Session 1 (A-S1) ^      |      ^ Session 2 (A-S2) ^
   | 18.181.0.31:1235 |      |      | 138.76.29.7:1235 |
   v   10.0.0.1:1234    v      |      v   10.0.0.1:1234    v
                               |
                            Client A
                         10.0.0.1:1234
    接上面的例子，如果Client A的原来那个Socket(绑定了1234端口的那个UDP Socket)又接着向另外一个Server S2发送了一个UDP包，那么这个UDP包在通过NAT时会怎么样呢？
    这时可能会有两种情况发生，一种是NAT再次创建一个Session，并且再次为这个Session分配一个端口号（比如：62001）。另外一种是NAT再次创建一个Session，但是不会新分配一个端口号，而是用原来分配的端口号62000。前一种NAT叫做Symmetric NAT，后一种叫做Cone NAT。我们期望我们的NAT是第二种，呵呵，如果你的NAT刚好是第一种，那么很可能会有很多P2P软件失灵。（可以庆幸的是，现在绝大多数的NAT属于后者，即Cone NAT）

    好了，我们看到，通过NAT,子网内的计算机向外连结是很容易的（NAT相当于透明的，子网内的和外网的计算机不用知道NAT的情况）。
    但是如果外部的计算机想访问子网内的计算机就比较困难了（而这正是P2P所需要的）。
    那么我们如果想从外部发送一个数据报给内网的计算机有什么办法呢？首先，我们必须在内网的NAT上打上一个“洞”（也就是前面我们说的在NAT上建立一个Session），这个洞不能由外部来打，只能由内网内的主机来打。而且这个洞是有方向的，比如从内部某台主机（比如：192.168.0.10）向外部的某个IP(比如：219.237.60.1)发送一个UDP包，那么就在这个内网的NAT设备上打了一个方向为219.237.60.1的“洞”，（这就是称为UDP Hole Punching的技术）以后219.237.60.1就可以通过这个洞与内网的192.168.0.10联系了。（但是其他的IP不能利用这个洞）。

呵呵，现在该轮到我们的正题P2P了。有了上面的理论，实现两个内网的主机通讯就差最后一步了：那就是鸡生蛋还是蛋生鸡的问题了，两边都无法主动发出连接请求，谁也不知道谁的公网地址，那我们如何来打这个洞呢？我们需要一个中间人来联系这两个内网主机。
现在我们来看看一个P2P软件的流程，以下图为例：

    首先，Client A登录服务器，NAT A为这次的Session分配了一个端口60000，那么Server S收到的Client A的地址是202.187.45.3:60000，这就是Client A的外网地址了。同样，Client B登录Server S，NAT B给此次Session分配的端口是40000，那么Server S收到的B的地址是187.34.1.56:40000。
    此时，Client A与Client B都可以与Server S通信了。如果Client A此时想直接发送信息给Client B，那么他可以从Server S那儿获得B的公网地址187.34.1.56:40000，是不是Client A向这个地址发送信息Client B就能收到了呢？答案是不行，因为如果这样发送信息，NAT B会将这个信息丢弃（因为这样的信息是不请自来的，为了安全，大多数NAT都会执行丢弃动作）。现在我们需要的是在NAT B上打一个方向为202.187.45.3（即Client A的外网地址）的洞，那么Client A发送到187.34.1.56:40000的信息,Client B就能收到了。这个打洞命令由谁来发呢，呵呵，当然是Server S。
    总结一下这个过程：如果Client A想向Client B发送信息，那么Client A发送命令给Server S，请求Server S命令Client B向Client A方向打洞。呵呵，是不是很绕口，不过没关系，想一想就很清楚了，何况还有源代码呢（侯老师说过：在源代码面前没有秘密 8）），然后Client A就可以通过Client B的外网地址与Client B通信了。

    注意：以上过程只适合于Cone NAT的情况，如果是Symmetric NAT，那么当Client B向Client A打洞的端口已经重新分配了，Client B将无法知道这个端口（如果Symmetric NAT的端口是顺序分配的，那么我们或许可以猜测这个端口号，可是由于可能导致失败的因素太多，我们不推荐这种猜测端口的方法）。

    下面是一个模拟P2P聊天的过程的源代码，过程很简单，P2PServer运行在一个拥有公网IP的计算机上，P2PClient运行在两个不同的NAT后（注意，如果两个客户端运行在一个NAT后，本程序很可能不能运行正常，这取决于你的NAT是否支持loopback translation，详见http://midcom-p2p.sourceforge.net/draft-ford-midcom-p2p-01.txt，当然，此问题可以通过双方先尝试连接对方的内网IP来解决，但是这个代码只是为了验证原理，并没有处理这些问题），后登录的计算机可以获得先登录计算机的用户名，后登录的计算机通过send username message的格式来发送消息。如果发送成功，说明你已取得了直接与对方连接的成功。
    程序现在支持三个命令：send , getu , exit

    send格式：send username message
    功能：发送信息给username

    getu格式：getu
    功能：获得当前服务器用户列表

    exit格式：exit
    功能：注销与服务器的连接（服务器不会自动监测客户是否吊线）

    代码很短，相信很容易懂，如果有什么问题，可以给我发邮件zhouhuis22@sina.com 或者在CSDN上发送短消息。同时，欢迎转发此文，但希望保留作者版权8-）。

    最后感谢CSDN网友 PiggyXP 和 Seilfer的测试帮助

P2PServer.c

/* P2P 程序服务端
*
* 文件名：P2PServer.c
*
* 日期：2004-5-21
*
* 作者：shootingstars(zhouhuis22@sina.com)
*
*/
#pragma comment(lib, "ws2_32.lib")

#include "windows.h"
#include "..\proto.h"
#include "..\Exception.h"

UserList ClientList;

void InitWinSock()
{
WSADATA wsaData;

if (WSAStartup(MAKEWORD(2, 2), &wsaData) != 0)
{
  printf("Windows sockets 2.2 startup");
  throw Exception("");
}
else{
  printf("Using %s (Status: %s)\n",
   wsaData.szDescription, wsaData.szSystemStatus);
  printf("with API versions %d.%d to %d.%d\n\n",
   LOBYTE(wsaData.wVersion), HIBYTE(wsaData.wVersion),
   LOBYTE(wsaData.wHighVersion), HIBYTE(wsaData.wHighVersion));

}
}

SOCKET mksock(int type)
{
SOCKET sock = socket(AF_INET, type, 0);
if (sock < 0)
{
printf("create socket error");
throw Exception("");
}
return sock;
}

stUserListNode GetUser(char *username)
{
for(UserList::iterator UserIterator=ClientList.begin();
      UserIterator!=ClientList.end();
       ++UserIterator)
{
  if( strcmp( ((*UserIterator)->userName), username) == 0 )
   return *(*UserIterator);
}
throw Exception("not find this user");
}

int main(int argc, char* argv[])
{
try{
  InitWinSock();

  SOCKET PrimaryUDP;
  PrimaryUDP = mksock(SOCK_DGRAM);

  sockaddr_in local;
  local.sin_family=AF_INET;
  local.sin_port= htons(SERVER_PORT);
  local.sin_addr.s_addr = htonl(INADDR_ANY);
  int nResult=bind(PrimaryUDP,(sockaddr*)&local,sizeof(sockaddr));
  if(nResult==SOCKET_ERROR)
   throw Exception("bind error");

  sockaddr_in sender;
  stMessage recvbuf;
  memset(&recvbuf,0,sizeof(stMessage));

  // 开始主循环.
  // 主循环负责下面几件事情:
  // 一:读取客户端登陆和登出消息,记录客户列表
  // 二:转发客户p2p请求
  for(;;)
  {
   int dwSender = sizeof(sender);
   int ret = recvfrom(PrimaryUDP, (char *)&recvbuf, sizeof(stMessage), 0, (sockaddr *)&sender, &dwSender);
   if(ret <= 0)
   {
    printf("recv error");
    continue;
   }
   else
   {
    int messageType = recvbuf.iMessageType;
    switch(messageType){
    case LOGIN:
     {
      // 将这个用户的信息记录到用户列表中
      printf("has a user login : %s\n", recvbuf.message.loginmember.userName);
      stUserListNode *currentuser = new stUserListNode();
      strcpy(currentuser->userName, recvbuf.message.loginmember.userName);
      currentuser->ip = ntohl(sender.sin_addr.S_un.S_addr);
      currentuser->port = ntohs(sender.sin_port);

      ClientList.push_back(currentuser);

      // 发送已经登陆的客户信息
      int nodecount = (int)ClientList.size();
      sendto(PrimaryUDP, (const char*)&nodecount, sizeof(int), 0, (const sockaddr*)&sender, sizeof(sender));
      for(UserList::iterator UserIterator=ClientList.begin();
        UserIterator!=ClientList.end();
        ++UserIterator)
      {
       sendto(PrimaryUDP, (const char*)(*UserIterator), sizeof(stUserListNode), 0, (const sockaddr*)&sender, sizeof(sender));
      }

      break;
     }
    case LOGOUT:
     {
      // 将此客户信息删除
      printf("has a user logout : %s\n", recvbuf.message.logoutmember.userName);
      UserList::iterator removeiterator = NULL;
      for(UserList::iterator UserIterator=ClientList.begin();
       UserIterator!=ClientList.end();
       ++UserIterator)
      {
       if( strcmp( ((*UserIterator)->userName), recvbuf.message.logoutmember.userName) == 0 )
       {
        removeiterator = UserIterator;
        break;
       }
      }
      if(removeiterator != NULL)
       ClientList.remove(*removeiterator);
      break;
     }
    case P2PTRANS:
     {
      // 某个客户希望服务端向另外一个客户发送一个打洞消息
      printf("%s wants to p2p %s\n",inet_ntoa(sender.sin_addr),recvbuf.message.translatemessage.userName);
      stUserListNode node = GetUser(recvbuf.message.translatemessage.userName);
      sockaddr_in remote;
      remote.sin_family=AF_INET;
      remote.sin_port= htons(node.port);
      remote.sin_addr.s_addr = htonl(node.ip);

      in_addr tmp;
      tmp.S_un.S_addr = htonl(node.ip);
      printf("the address is %s,and port is %d\n",inet_ntoa(tmp), node.port);

      stP2PMessage transMessage;
      transMessage.iMessageType = P2PSOMEONEWANTTOCALLYOU;
      transMessage.iStringLen = ntohl(sender.sin_addr.S_un.S_addr);
      transMessage.Port = ntohs(sender.sin_port);

      sendto(PrimaryUDP,(const char*)&transMessage, sizeof(transMessage), 0, (const sockaddr *)&remote, sizeof(remote));

      break;
     }

    case GETALLUSER:
     {
      int command = GETALLUSER;
      sendto(PrimaryUDP, (const char*)&command, sizeof(int), 0, (const sockaddr*)&sender, sizeof(sender));

int nodecount = (int)ClientList.size();
sendto(PrimaryUDP, (const char*)&nodecount, sizeof(int), 0, (const sockaddr*)&sender, sizeof(sender));

      for(UserList::iterator UserIterator=ClientList.begin();
        UserIterator!=ClientList.end();
        ++UserIterator)
      {
       sendto(PrimaryUDP, (const char*)(*UserIterator), sizeof(stUserListNode), 0, (const sockaddr*)&sender, sizeof(sender));
      }
      break;
     }
    }
   }
  }

}
catch(Exception &e)
{
printf(e.GetMessage());
return 1;
}

return 0;
}

/* P2P 程序客户端
*
* 文件名：P2PClient.c
*
* 日期：2004-5-21
*
* 作者：shootingstars(zhouhuis22@sina.com)
*
*/

#pragma comment(lib,"ws2_32.lib")

#include "windows.h"
#include "..\proto.h"
#include "..\Exception.h"
#include
using namespace std;

UserList ClientList;

#define COMMANDMAXC 256
#define MAXRETRY 5

SOCKET PrimaryUDP;
char UserName[10];
char ServerIP[20];

bool RecvedACK;

void InitWinSock()
{
WSADATA wsaData;

SOCKET mksock(int type)
{
SOCKET sock = socket(AF_INET, type, 0);
if (sock < 0)
{
printf("create socket error");
throw Exception("");
}
return sock;
}

void BindSock(SOCKET sock)
{
sockaddr_in sin;
sin.sin_addr.S_un.S_addr = INADDR_ANY;
sin.sin_family = AF_INET;
sin.sin_port = 0;

if (bind(sock, (struct sockaddr*)&sin, sizeof(sin)) < 0)
throw Exception("bind error");
}

void ConnectToServer(SOCKET sock,char *username, char *serverip)
{
sockaddr_in remote;
remote.sin_addr.S_un.S_addr = inet_addr(serverip);
remote.sin_family = AF_INET;
remote.sin_port = htons(SERVER_PORT);

stMessage sendbuf;
sendbuf.iMessageType = LOGIN;
strncpy(sendbuf.message.loginmember.userName, username, 10);

sendto(sock, (const char*)&sendbuf, sizeof(sendbuf), 0, (const sockaddr*)&remote,sizeof(remote));

int usercount;
int fromlen = sizeof(remote);
int iread = recvfrom(sock, (char *)&usercount, sizeof(int), 0, (sockaddr *)&remote, &fromlen);
if(iread<=0)
{
throw Exception("Login error\n");
}

// 登录到服务端后，接收服务端发来的已经登录的用户的信息
cout<<"Have "< for(int i = 0;i {
  stUserListNode *node = new stUserListNode;
  recvfrom(sock, (char*)node, sizeof(stUserListNode), 0, (sockaddr *)&remote, &fromlen);
  ClientList.push_back(node);
  cout<<"Username:"<userName<  in_addr tmp;
  tmp.S_un.S_addr = htonl(node->ip);
  cout<<"UserIP:"<  cout<<"UserPort:"<port<  cout<<""< }
}

void OutputUsage()
{
cout<<"You can input you command:\n"
  <<"Command Type:\"send\",\"exit\",\"getu\"\n"
  <<"Example : send Username Message\n"
  <<"          exit\n"
  <<"          getu\n"
  <}

/* 这是主要的函数：发送一个消息给某个用户(C)
*流程：直接向某个用户的外网IP发送消息，如果此前没有联系过
*      那么此消息将无法发送，发送端等待超时。
*      超时后，发送端将发送一个请求信息到服务端，
*      要求服务端发送给客户C一个请求，请求C给本机发送打洞消息
*      以上流程将重复MAXRETRY次
*/
bool SendMessageTo(char *UserName, char *Message)
{
char realmessage[256];
unsigned int UserIP;
unsigned short UserPort;
bool FindUser = false;
for(UserList::iterator UserIterator=ClientList.begin();
      UserIterator!=ClientList.end();
      ++UserIterator)
{
  if( strcmp( ((*UserIterator)->userName), UserName) == 0 )
  {
   UserIP = (*UserIterator)->ip;
   UserPort = (*UserIterator)->port;
   FindUser = true;
  }
}

if(!FindUser)
return false;

strcpy(realmessage, Message);
for(int i=0;i {
RecvedACK = false;

  sockaddr_in remote;
  remote.sin_addr.S_un.S_addr = htonl(UserIP);
  remote.sin_family = AF_INET;
  remote.sin_port = htons(UserPort);
  stP2PMessage MessageHead;
  MessageHead.iMessageType = P2PMESSAGE;
  MessageHead.iStringLen = (int)strlen(realmessage)+1;
  int isend = sendto(PrimaryUDP, (const char *)&MessageHead, sizeof(MessageHead), 0, (const sockaddr*)&remote, sizeof(remote));
  isend = sendto(PrimaryUDP, (const char *)&realmessage, MessageHead.iStringLen, 0, (const sockaddr*)&remote, sizeof(remote));

  // 等待接收线程将此标记修改
  for(int j=0;j<10;j++)
  {
   if(RecvedACK)
    return true;
   else
    Sleep(300);
  }

  // 没有接收到目标主机的回应，认为目标主机的端口映射没有
  // 打开，那么发送请求信息给服务器，要服务器告诉目标主机
  // 打开映射端口（UDP打洞）
  sockaddr_in server;
  server.sin_addr.S_un.S_addr = inet_addr(ServerIP);
  server.sin_family = AF_INET;
  server.sin_port = htons(SERVER_PORT);

  stMessage transMessage;
  transMessage.iMessageType = P2PTRANS;
  strcpy(transMessage.message.translatemessage.userName, UserName);

sendto(PrimaryUDP, (const char*)&transMessage, sizeof(transMessage), 0, (const sockaddr*)&server, sizeof(server));
Sleep(100);// 等待对方先发送信息。
}
return false;
}

// 解析命令，暂时只有exit和send命令
// 新增getu命令，获取当前服务器的所有用户
void ParseCommand(char * CommandLine)
{
if(strlen(CommandLine)<4)
return;
char Command[10];
strncpy(Command, CommandLine, 4);
Command[4]='\0';

if(strcmp(Command,"exit")==0)
{
  stMessage sendbuf;
  sendbuf.iMessageType = LOGOUT;
  strncpy(sendbuf.message.logoutmember.userName, UserName, 10);
  sockaddr_in server;
  server.sin_addr.S_un.S_addr = inet_addr(ServerIP);
  server.sin_family = AF_INET;
  server.sin_port = htons(SERVER_PORT);

  sendto(PrimaryUDP,(const char*)&sendbuf, sizeof(sendbuf), 0, (const sockaddr *)&server, sizeof(server));
  shutdown(PrimaryUDP, 2);
  closesocket(PrimaryUDP);
  exit(0);
}
else if(strcmp(Command,"send")==0)
{
  char sendname[20];
  char message[COMMANDMAXC];
  int i;
  for(i=5;;i++)
  {
   if(CommandLine[i]!=' ')
    sendname[i-5]=CommandLine[i];
   else
   {
    sendname[i-5]='\0';
    break;
   }
  }
  strcpy(message, &(CommandLine[i+1]));
  if(SendMessageTo(sendname, message))
   printf("Send OK!\n");
  else
   printf("Send Failure!\n");
}
else if(strcmp(Command,"getu")==0)
{
  int command = GETALLUSER;
  sockaddr_in server;
  server.sin_addr.S_un.S_addr = inet_addr(ServerIP);
  server.sin_family = AF_INET;
  server.sin_port = htons(SERVER_PORT);

sendto(PrimaryUDP,(const char*)&command, sizeof(command), 0, (const sockaddr *)&server, sizeof(server));
}
}

// 接受消息线程
DWORD WINAPI RecvThreadProc(LPVOID lpParameter)
{
sockaddr_in remote;
int sinlen = sizeof(remote);
stP2PMessage recvbuf;
for(;;)
{
  int iread = recvfrom(PrimaryUDP, (char *)&recvbuf, sizeof(recvbuf), 0, (sockaddr *)&remote, &sinlen);
  if(iread<=0)
  {
   printf("recv error\n");
   continue;
  }
  switch(recvbuf.iMessageType)
  {
  case P2PMESSAGE:
   {
    // 接收到P2P的消息
    char *comemessage= new char[recvbuf.iStringLen];
    int iread1 = recvfrom(PrimaryUDP, comemessage, 256, 0, (sockaddr *)&remote, &sinlen);
    comemessage[iread1-1] = '\0';
    if(iread1<=0)
     throw Exception("Recv Message Error\n");
    else
    {
     printf("Recv a Message:%s\n",comemessage);

     stP2PMessage sendbuf;
     sendbuf.iMessageType = P2PMESSAGEACK;
     sendto(PrimaryUDP, (const char*)&sendbuf, sizeof(sendbuf), 0, (const sockaddr*)&remote, sizeof(remote));
    }

delete []comemessage;
break;

   }
  case P2PSOMEONEWANTTOCALLYOU:
   {
    // 接收到打洞命令，向指定的IP地址打洞
    printf("Recv p2someonewanttocallyou data\n");
    sockaddr_in remote;
    remote.sin_addr.S_un.S_addr = htonl(recvbuf.iStringLen);
    remote.sin_family = AF_INET;
    remote.sin_port = htons(recvbuf.Port);

    // UDP hole punching
    stP2PMessage message;
    message.iMessageType = P2PTRASH;
    sendto(PrimaryUDP, (const char *)&message, sizeof(message), 0, (const sockaddr*)&remote, sizeof(remote));

    break;
   }
  case P2PMESSAGEACK:
   {
    // 发送消息的应答
    RecvedACK = true;
    break;
   }
  case P2PTRASH:
   {
    // 对方发送的打洞消息，忽略掉。
    //do nothing ...
    printf("Recv p2ptrash data\n");
    break;
   }
  case GETALLUSER:
   {
    int usercount;
    int fromlen = sizeof(remote);
    int iread = recvfrom(PrimaryUDP, (char *)&usercount, sizeof(int), 0, (sockaddr *)&remote, &fromlen);
    if(iread<=0)
    {
     throw Exception("Login error\n");
    }

    ClientList.clear();

    cout<<"Have "<    for(int i = 0;i    {
     stUserListNode *node = new stUserListNode;
     recvfrom(PrimaryUDP, (char*)node, sizeof(stUserListNode), 0, (sockaddr *)&remote, &fromlen);
     ClientList.push_back(node);
     cout<<"Username:"<userName<     in_addr tmp;
     tmp.S_un.S_addr = htonl(node->ip);
     cout<<"UserIP:"<     cout<<"UserPort:"<port<     cout<<""<    }
    break;
   }
  }
}
}

int main(int argc, char* argv[])
{
try
{
  InitWinSock();

  PrimaryUDP = mksock(SOCK_DGRAM);
  BindSock(PrimaryUDP);

cout<<"Please input server ip:";
cin>>ServerIP;

cout<<"Please input your name:";
cin>>UserName;

ConnectToServer(PrimaryUDP, UserName, ServerIP);

  HANDLE threadhandle = CreateThread(NULL, 0, RecvThreadProc, NULL, NULL, NULL);
  CloseHandle(threadhandle);
  OutputUsage();

  for(;;)
  {
   char Command[COMMANDMAXC];
   gets(Command);
   ParseCommand(Command);
  }
}
catch(Exception &e)
{
  printf(e.GetMessage());
  return 1;
}
return 0;
}

/* 异常类
*
* 文件名：Exception.h
*
* 日期：2004.5.5
*
* 作者：shootingstars(zhouhuis22@sina.com)
*/

#ifndef __HZH_Exception__
#define __HZH_Exception__

#define EXCEPTION_MESSAGE_MAXLEN 256
#include "string.h"

class Exception
{
private:
char m_ExceptionMessage[EXCEPTION_MESSAGE_MAXLEN];
public:
Exception(char *msg)
{
strncpy(m_ExceptionMessage, msg, EXCEPTION_MESSAGE_MAXLEN);
}

char *GetMessage()
{
return m_ExceptionMessage;
}
};

#endif

/* P2P 程序传输协议
*
* 日期：2004-5-21
*
* 作者：shootingstars(zhouhuis22@sina.com)
*
*/

#pragma once
#include

// 定义iMessageType的值
#define LOGIN 1
#define LOGOUT 2
#define P2PTRANS 3
#define GETALLUSER 4

// 服务器端口
#define SERVER_PORT 2280

// Client登录时向服务器发送的消息
struct stLoginMessage
{
char userName[10];
char password[10];
};

// Client注销时发送的消息
struct stLogoutMessage
{
char userName[10];
};

// Client向服务器请求另外一个Client(userName)向自己方向发送UDP打洞消息
struct stP2PTranslate
{
char userName[10];
};

// Client向服务器发送的消息格式
struct stMessage
{
int iMessageType;
union _message
{
  stLoginMessage loginmember;
  stLogoutMessage logoutmember;
  stP2PTranslate translatemessage;
}message;
};

// 客户节点信息
struct stUserListNode
{
char userName[10];
unsigned int ip;
unsigned short port;
};

// Server向Client发送的消息
struct stServerToClient
{
int iMessageType;
union _message
{
stUserListNode user;
}message;

};

//======================================
// 下面的协议用于客户端之间的通信
//======================================
#define P2PMESSAGE 100               // 发送消息
#define P2PMESSAGEACK 101            // 收到消息的应答
#define P2PSOMEONEWANTTOCALLYOU 102 // 服务器向客户端发送的消息
                                     // 希望此客户端发送一个UDP打洞包
#define P2PTRASH        103          // 客户端发送的打洞包，接收端应该忽略此消息

// 客户端之间发送消息格式
struct stP2PMessage
{
int iMessageType;
int iStringLen; // or IP address
unsigned short Port;
};

using namespace std;
typedef list UserList;

CPP&&设计模式小屋 2007-01-04 13:37 发表评论

Peer-to-Peer (P2P) communication across middleboxes(转)

CPP&&设计模式小屋 — Thu, 04 Jan 2007 05:35:00 GMT

摘要: Internet Draft B. FordDocument: draft-ford-midcom-p2p-01.txt M.I.T.Expires: April 27, 2004 ... 阅读全文

CPP&&设计模式小屋 2007-01-04 13:35 发表评论

P2P直播相关(转)

CPP&&设计模式小屋 — Tue, 19 Dec 2006 09:17:00 GMT

最近对P2P直播技术进行了一些研究，谈谈个人对Tvkoo软件的优缺点的看法，一方面希望Tvkoo能做的更好，另一方面也抛砖引玉一下：

P2P直播的技术难点有：
一、防火墙的穿透：超过90％的电脑都在防火墙后面，如果让2台在防火墙后面的电脑能够实现P2P互联，这是一个技术的难点。有2种方式：

1. 要求用户配置TCP端口：BT和电驴采用的方式，配置需要网络专业知识。一般做法是通过在防火墙上开启TCP端口来实现，如果开启了端口或者本身有Internet IP地址的，为高联通性电脑；在防火墙内并且没有开启TCP端口的电脑，为低联通性电脑。高联通性电脑可以和其它的高联通性电脑已经低联通性电脑进行P2P；而低联通电脑只能和高联通性电脑进行P2P。因此在BT、电驴中，有Internet IP或者已经在防火墙上开启端口的电脑速度很快，而在防火墙后面的电脑(一般为局域网上网方式)就比较慢了。而通过局域网方式上网的电脑超过70%，如果没有网络基础，或者没有网管特殊配置，只能处于低联通性，速度很慢。

2. 防火墙自动穿透。无需用户配置，自动让2台在防火墙后面的电脑能P2P互联。P2P连接可以使用TCP和UDP 2种方式。由于WinXP SP2限制了一个应用程序的TCP连接数，因此采用TCP方式进行P2P的话，要安装TCP限制的破解软件。而Tvkoo是使用UDP进行数据传送的，因此不会有TCP限制。这是为什么有些用户说：通过Netstat看不到很多的TCP连接而怀疑Tvkoo是不是P2P软件的原因。

Tvkoo的P2P穿透力是我见到最强的软件了，当然由于没有使用TCP，使得在仅允许HTTP访问的防火墙后面的计算机没有办法访问。Skype在P2P穿透时有一个技巧，让一些有Internet IP的电脑使用TCP的80端口，在仅允许HTTP访问的防火墙后面的电脑通过类似HTTP的访问方式连接这些80端口的电脑进行P2P连接。Tvkoo也可以考虑一下这个方式。

二、WMV格式的分析

目前P2P直播都是使用WMV格式，通过模拟HTTP服务器的方式，把WMV数据流传送给Media Player。这是P2P直播的关键点。需要将Media Encoder发出的HTTP数据进行拆包，然后组成30秒－1分钟的P2P数据块，然后通过P2P方式将数据块发送给Tvkoo客户端，Tvkoo模拟成HTTP服务器将传输完成的数据块发送给Media Player。这部分Tvkoo做的也不错。

三、如何有效的选择P2P的节点

这是Tvkoo的弱项。因为一台电脑在P2P传输时，最多连接几十台其它的电脑。当几万台电脑同时传送一个P2P数据块时，要有一个优化算法。比如：美国有5000个用户，中国电信有5000个用户，中国网通有5000个用户，而每个用户最多只能连30－50个节点，如果不凑巧，一个电信的用户连接了20个网通的用户和30个美国的用户，就不断的出现断断续续的情况了。这就是为什么人一多，Tvkoo就卡，并且Tvkoo要把国外IP封掉的原因了。

有什么好的方式解决这个问题呢？我先抛砖引玉一下：

(1) 作为P2P直播的营运商，可以多设几台P2P种子服务器，分布在不同的网段中。比如：北方网通设一台(组)，南方电信设一台(组)，种子的内容是一样的。种子服务器多了，可以降低优化算法的难度。

(2) 种子服务器和普通节点的优先级：种子服务器的优先级总数低于普通节点的，如果普通节点的速度快了，就减少从种子服务器获取的数据量。

(3) 全球IP地址表。P2P节点仲裁服务器中，应该有一个全球IP地址表，分中国大陆、香港、台湾、北美、欧洲、澳洲、其它。中国大陆先按照营运商分：电信、网通、铁通、联通、教育网等，再按照省份分类。(网上有下载，可以整理)

(4) 高速网段表。在P2P访问中，节点动态地将速度快的其它节点IP地址传回服务器，服务器根据全球IP地址表算出网段，以网段-网段的方式记录在数据库中。

(5) 当一个新用户连入节点时，在全球IP地址表中找到最近的节点，按照比例依次分配最快网段的节点；最近的节点；差一个级别的稍近的节点；随机节点以及种子服务器。

(6) P2P在数据传送中，可以将30秒视频作为1块数据包；数据包中按照每16KB作为一个数据块。每个时间段(如2秒)，本节点向其它节点交换一下数据块的传送情况，然后计算一下数据包中每个数据块的拥有率，优先传送拥有率低的数据块。在拥有率相当的情况下，随机选择。

(7) 在数据交换中，对于传送慢的节点，定期剔除，然后问节点仲裁服务器要新的节点。

(8) 如果数据包中小于10%的数据块没有传送完毕，在时间充足的情况下，对于余下的数据块，可以同一个数据块向多个节点请求。

(9) 节点仲裁服务器也会将新的P2P节点强行加载到另一个节点上，但不能超过节点最大连接数。

CPP&&设计模式小屋 2006-12-19 17:17 发表评论

Kademlia: 基于异或运算的P2P信息系统(翻译稿)

CPP&&设计模式小屋 — Mon, 11 Sep 2006 08:18:00 GMT

Petar Maymounkov and David Mazi`eres

fpetar,dmg@cs.nyu.edu

http://kademlia.scs.cs.nyu.edu

摘要

本文我们将描述一个在容易出错的网络环境中拥有可证实的稳定性和高性能的点对点(P2P)系统。我们的系统使用一个很新颖的基于异或运算的拓扑来发送查询并且定位节点, 这简化了算法并且使验证更加容易。这种拓扑结构具有以下特性，它能通过交换消息传达和加强节点间的有用联系信息。本系统利用这个信息来发送平行的,异步的查询消息来对付节点的失效而不会给用户带来超时时延。

1 ．介绍

本论文描述Kademlia , 一个点对点（P2P）的<键, 值>元组存储和查询系统。 Kademlia拥有许多的可喜的特点，这些特点是任何以前的P2P系统所无法同时提供的。它减少了节点必须发送的用来相互认识的配置消息的数量。在做键查询的同时, 配置消息将会被自动传播。节点拥有足够的知识和灵活性来通过低时延路径发送查询请求。 Kademlia使用平行的,异步的查询请求来避免节点失效所带来的超时时延。通过节点记录相互的存在的算法可以抵抗某些基本的拒绝服务（DoS）攻击。最后, 仅仅使用在分布式运行时间上较弱的假设（通过对现有点对点系统的测量而确认的这些假设），我们可以正式的证实Kademlia的许多重要特性。

Kademlia 使用了许多点对点（P2P）系统的基本方法。键是一个160-bit的隐式数量(例如, 对一些大型数据进行SHA-1哈希的值)。每个参与的机器都拥有一个节点ID, 160位的键。 <键, 值>对将存储在那些ID与键很‘接近’的节点上, 这里‘接近’当然是按照一个接近度的概念来计算的。最后, 一个基于节点ID的路由算法使得任何人可以在一个目的键附近定位到一个服务器。

Kademlia 的许多的优点都是得益于它使用了一个很新颖的方法, 那就是用节点间的键作异或运算的结果来作为节点间的距离。异或运算是对称的, 允许Kademlia的参与者接收来自相同分布的并且包含在其路由表中的节点的查找请求。如果没有这个性质，就像Chord一样，系统无法从它们收到的查询请求中学习到有用的路由信息。更糟的是，由于Chord中的运算是不对称的， Chord的路由表更加严格。 Chord节点的查找表的每一项都必须存储精确的按ID域的间隔递增的节点。在这个间隔内的任何节点都比这个间隔内的某些键大，因此离键很远。相反，Kademlia 可以在一定的间隔内发送请求给任何节点，允许基于时延来选择路由，甚至发送平行的，异步的查询。

为了在特定的ID附近定位节点，Kademlia自始至终使用一个单程的路由算法。相反，其它一些系统使用一种算法来接近目标ID,然后在最后的几个跳数使用另外一种算法。在现有系统中，Kademlia与pastry的第一阶段最像，（虽然作者并没有用这种方式来描述），Kademlia 的异或运算可以使当前节点到目标ID的距离粗略的持续减半，以此来寻找节点。在第二阶段，Pastry不再使用距离运算，而是改为比较ID的数字区别。它使用第二种，数字区别运算作为替代。不幸的是，按第二种运算计算的接近比第一种的远得多，这造成特定节点ID值的中断，降低了性能，并且导致在最差行为下的正式分析的尝试失败。

2 ．系统描述

每个Kademlia节点有一个160位的节点ID。在Chord系统中，ID是通过某种规则构造出来的，但在这片文章中，为了简化，我们假设每台机器在加入系统时将选择一个随机的160位值。每条节点发送的消息包含它的节点ID，同时允许接收者记录下发送者的存在信息，如果有必要的话。

键，同样也是160位的标识符。为了发布和寻找<键，值>对，Kademlia依赖一个概念，那就是两标识符之间的距离的概念。给定两个标识符， x和y， Kademlia定义两者的位异或（XOR）的结果作为两者的距离，d(x，y)＝x⊕y。我们首先注意到异或运算是一个有意义的运算，虽然不是欧几里得运算。很明显具有下面的性质： d(x，x)＝0；如果x≠y, 则d(x, y)>0；任意的x, y: d(x, y) = d(y, x)。异或运算还满足三角性质：d(x, y) + d(y, z) ≥ d(x, z)。这个三角性质之所以成立是基于下面这个事实： d(x, z) = d(x, y) + d(y, z); 并且任意的a>=0, b≥0: a+b≥a⊕b。

跟Chord的顺时针循环运算一样，异或运算也是单向的。对于给定的一个点x以及距离Δ，仅有一个点y，使得d(x, y) = Δ。单向性确保所有对于相同的键的查询将汇聚到相同路径中来，而不管是什么起源节点。因此，在查找路径上缓存<键，值>对可以减少‘撞车’的机会。跟Pastry而不是Chord一样，异或运算也是对称的。（对所有的x以及y， d(x,y) = d(y,x）)

2 ．1．节点状态

Kademlia 节点存储互相的联系信息，以用于路由查询消息。对于任何0 =< i < 160, 每个节点保存那些到本节点的距离为2ⁱ到2ⁱ^＋1之间的节点信息列表，包括。我们把这些列表称为K-桶。每个K-桶中的节点按最后联系的时间排序――最久未联系的节点放在头部，最近联系的节点放在尾部。对于比较小的i值，K-桶通常是空的（因为没有合适的节点存在于系统中）。对于比较大的i值，列表节点数可以达到k的大小，k是一个系统级别的冗余参数。k值的选择必须满足一个条件，那就是任意k个节点在一个小时内都失效的可能性很小（例如k =20）。

图1： 以当前已在线时间的函数的形式显示了节点在接下来的一小时后继续在线的比例。X轴代表分钟，y轴代表那些已经在线了x分钟的节点中将继续在线1小时的比例。

当一个Kademlia节点收到来自另外一个节点的任何消息（请求的或者回复的），它将更新自己的一个K-桶，即发送节点ID对应的那个桶。如果发送节点已经存在于接收者的K-桶中，接收者会把它移到列表的尾部。如果这个节点还没有存在于对应的K-桶中并且这个桶少于k个节点，则接收者把发送者插入到列表的尾部。如果对应的K-桶已经满了，则发送者将向该K-桶中的最久未联系节点发送ping命令测试是否存在，如果最久未联系节点没有回复，则把它从列表中移除，并把新的发送者插入到列表尾部。如果它回复了，则新的发送者信息会丢弃掉。

K- 桶非常高效的实现了剔除最久未联系节点的策略，存活的节点将永远不会从列表中移除。这种偏向保留旧节点的做法是我们对由Saroiu等人收集的Gnutella协议的跟踪数据进行分析而得出来的。图1以当前已存在时间的函数的形式显示了Gnutella节点在一小时后继续在线的比例。一个节点存活的时间越长，则这个节点继续存活一小时的可能性越大。通过保留存活时间最长的那些节点，K-桶中存储的节点继续在线的概率大大提高了。

K- 桶的第二个优点是它提供了对一定的拒绝服务（DoS）的攻击的抵抗。系统中不断涌入新节点并不会造成节点路由状态的更新过快。Kademlia节点只有在旧节点离开系统时才会向k-桶中插入新节点。

2 ．2．Kademlia协议

Kademlia 协议由4个远程过程调用（RPC）组成：PING，STORE，FIND_NODE, FIND_VALUE。 PING RPC 测试节点是否存在。STORE指示一个节点存储一个<键，值>对以用于以后的检索。

FIND_NODE 把160位ID作为变量，RPC的接收者将返回k个它所知道的最接近目标ID的元组。这些元组可以来自于一个K-桶，也可以来自于多个K-桶（当最接近的K-桶没有满时）。在任何情况下， RPC接收者都必须返回k项（除非这个节点的所有的K-桶的元组加起来都少于k个，这种情况下RPC接收者返回所有它知道的节点）

FIND_VALUE 和FIND_NODE行为相似――返回元组。仅有一点是不同的，如果RPC接收者已经收到了这个键的STORE RPC,则只需要返回这个已存储的值。

在所有RPC中，接收者都必须回应一个160位的随机RPC ID,这可以防止地址伪造。PING中则可以为RPC接收者在RPC回复中捎回以对发送者的网络地址获得额外的保证。

Kademlia 参与者必须做的最重要的工作是为一个给定的节点ID定位k个最接近节点。我们称这个过程为节点查询。Kademlia使用一种递归算法来做节点查询。查询的发起者从最接近的非空的K-桶中取出а个节点（或者，如果这个桶没有а项，则只取出它所知道的最接近的几个节点）。发起者然后向选定的а个节点发送平行的，异步的FIND_NODE RPC。а是一个系统级别的并行参数，比如为3。

在这个递归的步骤中，发起者重新发送FIND_NODE给那些从上次RPC中学习到的节点（这个递归可以在之前的所有的а个RPC返回之前开始）。在这返回的与目标最接近的k个节点中，发起者将选择а个还没有被询问过的节点并且重新发送FIND_NODE RPC给它们。没有立即作出响应的节点将不再予以考虑除非并且直到它们作出响应。如果经过一轮的FIND_NODE都没有返回一个比已知最接近的节点更接近的节点，则发起者将重新向所有k个未曾询问的最接近节点发送FIND_NODE。直到发起者已经询问了k个最接近节点并且得到了响应，这个查询才结束。当а＝1时，查询算法在消息开支和检测失效节点时的时延上与Chord非常相似。然而，Kademlia可以做到低时延路由因为它有足够的灵活性来选择k个节点中的一个去做查询。

按照上面的查询过程，大多数的操作都可以实现。要存储一个<键，值>对，参与者定位k个与键最接近的节点然后向这些节点发送STORE RPC。另外，每个节点每个小时都会重新发布它所有的<键，值>对。这可以以高概率的把握确保<键，值>对的持续存在于系统中（我们将会在验证概略一节中看到）。通常来说，我们还要求<键，值>对的原始发布者每隔24小时重新发布一次。否则，所有的<键，值>对在最原始发布的24小时后失效，以尽量减少系统中的陈旧信息。

最后，为了维持<键，值>对在发布－搜索生命周期中的一致性，我们要求任何时候节点w拥有一个新节点u，u比w更接近w中的一些<键，值>对。w将复制这些<键，值>对给u并且不从自己的数据库中删除。

为了查找到一个<键，值>对，节点首先查找k个ID与键接近的节点。然而，值查询使用FIND_VALUE而不是FIND_NODE RPC。而且，只要任何节点返回了值，则这个过程立即结束。为了缓存(caching)的缘故，只要一个查询成功了，这个请求节点将会把这个<键，值>对存储到它拥有的最接近的并且没能返回值的节点上。

由于这个拓扑的单向性，对相同的键的以后的搜索将很有可能在查询最接近节点前命中已缓存的项。对于一个特定的键，经过多次的查找和传播，系统可能在许多的节点上都缓存了这个键。为了避免“过度缓存”，我们设计了一个<键，值>对在任何节点的数据库中的存活时间与当前节点和与键ID最接近的节点ID之间的节点数成指数级的反比例关系。简单的剔除最久未联系节点会导致相似的生存时间分布，没有很自然的方法来选择缓存大小，因为节点不能提前知道系统将会存储多少个值。

一般来说，由于存在于节点之间的查询的通信，桶会保持不停地刷新。为了避免当没有通信时的病态情况，每个节点对在一个小时内没有做过节点查询的桶进行刷新，刷新意味着在桶的范围内选择一个随机ID然后为这个ID做节点搜索。

为了加入到这个网络中，节点u必须与一个已经加入到网络中的节点w联系。u把w加入到合适的桶中，然后u为自己的节点ID做一次节点查找。最后，节点u刷新所有比最接近的邻居节点更远的K-桶。在这个刷新过程中，节点u进行了两项必需的工作：既填充了自己的K-桶，又把自己插入到了其它节点的K-桶中。

3 ．验证概述

为了验证我们系统中的特有的函数，我们必须证实绝大多数的操作花费 [ log n] + c 的时间开销，并且c是一个比较小的常数，并且 < 键，值>查找将会以很高的概率返回一个存储在系统中的键。

我们首先做一些定义。对于一个覆盖距离的范围为 [ 2 i , 2 i +1) 的 K- 桶，定义这个桶的索引号为i。定义节点的深度h为160－i，其中i是最小的非空的桶的索引号。定义在节点x中节点y的桶高度为y将插入到x的桶的索引号减去x的最不重要的空桶的索引号。由于节点ID是随机选择的，因此高度的不统一分布是不太可能的。因此，在非常高的概率下，任意一个给定节点的高度在log n之内，其中n是系统中的节点数。而且，对于一个ID，最接近节点在第k接近的节点中的桶高度很有可能是在常数log k之内。

下一步我们将假设一个不变的条件，那就是每个节点的每个K-桶包含至少一个节点的联系信息，如果这个节点存在于一个合适的范围中。有了这个假设，我们可以发现节点的查找过程是正确的并且时间开销是指数级的。假设与目标ID最接近的节点的深度是h。如果这个节点的h个最有意义的K-桶都是非空的，查询过程在每一步都可以查找到一个到目标节点的距离更接近一半的节点（或者说距离更近了一个bit），因此在 h - log k 步后目标节点将会出现。如果这个节点的一个K-桶是空的，可能是这样的一种情况，目标节点恰好在空桶对应的距离范围之内。这种情况下，最后的几步并不能使距离减半。然而，搜索还是能正确的继续下去就像键中与空桶相关的那个位已经被置反了。因此，查找算法总是能在 h - log k 步后返回最接近节点。而且，一旦最接近节点已经找到，并行度会从а扩展到k。寻找到剩下的k-1个最接近节点的步数将不会超过最接近节点在第k接近节点中的桶高度，即不太可能超过log k加上一个常数。

为了证实前面的不变条件的正确性，首先考虑桶刷新的效果，如果不变条件成立。在被刷新后，一个桶或者包含k个有效节点，或者包含在它范围内的所有节点，如果少于k个节点存在的话（这是从节点的查找过程的正确性而得出来的。）新加入的节点也会被插入到任何没有满的桶中去。因此，唯一违反这个不变条件的方法就是在一个特别的桶的范围内存在k+1个活更多的节点，并且桶中的k个节点在没有查找或刷新的干涉下全部失效。然而，k值被精确的选择以保证使所有节点在一小时内（最大的刷新时间）全都失效的概率足够小。

实际上，失败的概率比k个节点在1小时内全都离开的概率小得多，因为每个进入或外出的请求消息都会更新节点的桶。这是异或运算的对称性产生的，因为在一次进入或外出的请求中，与一个给定节点通信的对端节点的ID在该节点的桶范围之内的分布是非常均匀的。

而且，即使这个不变条件在单个节点的单个桶中的确失效了，这也只影响到运行时间（在某些查询中添加一个跳数），并不会影响到节点查找的正确性。只有在查找路径中的k个节点都必须在没有查找或刷新的干涉下在相同的桶中丢失k个节点，才可能造成一次查找失败。如果不同的节点的桶没有重叠，这种情况发生的概率是2^-k*k。否则，节点出现在多个其它的节点的桶中，这就很可能会有更长的运行时间和更低概率的失败情况。

现在我们来考虑下<键，值>对的恢复问题。当一个<键，值>对发布时，它将在k个与键接近的节点中存储。同时每隔一小时将重新发布一次。因为即使是新节点（最不可靠的节点）都有1/2的概率持续存活一个小时，一个小时后<键，值>对仍然存在于k个最接近节点中的一个上的概率是1-2^-k 。这个性质并不会由于有接近键的新节点的插入而改变，因为一旦有这样的节点插入，它们为了填充它们的桶将会与他们的最接近的那些节点交互，从而收到附近的它们应该存储的<键，值>对。当然，如果这k个最接近键的节点都失效了，并且这个<键，值>对没有在其它任何地方缓存，Kademlia将会丢失这个<键，值>对。

4 ．讨论

我们使用的基于异或拓扑的路由算法与Pastry [1], Tapestry [2]的路由算法中的第一步和 Plaxton的分布式搜索算法都非常的相似。然而，所有的这三个算法，当他们选择一次接近目标节点b个bit的时候都会产生问题（为了加速的目的）。如果没有异或拓扑，我们还需要一个额外的算法结构来从与目标节点拥有相同的前缀但是接下来的b个bit的数字不同的节点找到目标节点。所有的这三个算法在解决这个问题上采取的方法都是各不相同的，每个都有其不足之处；它们在大小为 O (2 b log 2 b n ) 的主表之外都另外需要一个大小为 O (2 b ) 的次要路由表，这增加了自举和维护的开支，使协议变的更加复杂了，而且对于Pastry和Tapestry来说阻止了正确性与一致性的正式分析。Plaxton虽然可以得到证实，但在像点对点（P2P）网络中的极易失效的环境中不太适应。

相反，Kademlia则非常容易的以不是2的基数被优化。我们可以配置我们的桶表来使每一跳b个bit的速度来接近目标节点。这就要求满足一个条件，那就是任意的 0 < j < 2^b 和 0 ≤ i < 160 /b ，在与我们的距离为[j2^160-(i+1)b, (j+1)2^160-(i+1)b] 的范围内就要有一个桶，这个有实际的项的总量预计不会超过个桶。目前的实现中我们令b＝5。

5 ．总结

使用了新颖的基于异或运算的拓扑，Kademlia是第一个结合了可证实的一致性和高性能，最小时延路由，和一个对称，单向的拓扑的点对点(P2P)系统。此外，Kademlia引入了一个并发参数，а，这让人们可以通过调整带宽的一个常数参数来进行异步最低时延的跳选择和不产生时延的失效恢复。最后，Kademlia是第一个利用了节点失效与它的已运行时间成反比这个事实的点对点（P2P）系统。

参考文献

[1] A. Rowstron and P. Druschel. Pastry: Scalable, distributed object location and routing for large-scale peer-to-peer systems. Accepted for Middleware, 2001, 2001. http://research.microsoft.com/˜antr/pastry/.

[2] Ben Y. Zhao, John Kubiatowicz, and Anthony Joseph. Tapestry: an infrastructure for fault-tolerant wide-area location and routing. Technical Report UCB/CSD-01-1141, U.C. Berkeley, April 2001.

[3] Andr´ea W. Richa C. Greg Plaxton, Rajmohan Rajaraman. Accessing nearby copies of replicated objects in a distributed environment. In Proceedings of the ACM SPAA, pages 311–320, June 1997.

[4] Stefan Saroiu, P. Krishna Gummadi and Steven D. Gribble. A Measurement Study of Peer-to-Peer File Sharing Systems. Technical Report UW-CSE-01-06-02, University of Washington, Department of Computer Science and Engineering, July 2001.

[5] Ion Stoica, Robert Morris, David Karger, M. Frans Kaashoek, and Hari Balakrishnan. Chord: A scalable peer-to-peer lookup service for internet applications. In Proceedings of the ACM SIGCOMM ’01 Conference, San Diego, California, August 2001.

CPP&&设计模式小屋 2006-09-11 16:18 发表评论

Kademlia详解 (转贴NeoRagex2002)

CPP&&设计模式小屋 — Mon, 11 Sep 2006 06:09:00 GMT

Kademlia详解 (转贴NeoRagex2002)

前两天在网上看到世界知名的电骡服务器Razorback 2被查封、4人被拘禁的消息，深感当前做eMule / BitTorrent等P2P文件交换软件的不易。以分布式哈希表方式(DHT，Distributed Hash Table)来代替集中索引服务器可以说是目前可以预见到的为数不多的P2P软件发展趋势之一，比较典型的方案主要包括：CAN、CHORD、Tapestry、Pastry、Kademlia和Viceroy等，而Kademlia协议则是其中应用最为广泛、原理和实现最为实用、简洁的一种，当前主流的P2P软件无一例外地采用了它作为自己的辅助检索协议，如eMule、Bitcomet、Bitspirit和Azureus等。鉴于Kademlia日益增长的强大影响力，今天特地在blog里写下这篇小文，算是对其相关知识系统的总结。

1. Kademlia简述

Kademlia(简称Kad)属于一种典型的结构化P2P覆盖网络(Structured P2P Overlay Network)，以分布式的应用层全网方式来进行信息的存储和检索是其尝试解决的主要问题。在Kademlia网络中，所有信息均以的哈希表条目形式加以存储，这些条目被分散地存储在各个节点上，从而以全网方式构成一张巨大的分布式哈希表。我们可以形象地把这张哈希大表看成是一本字典：只要知道了信息索引的key，我们便可以通过Kademlia协议来查询其所对应的value信息，而不管这个value信息究竟是存储在哪一个节点之上。在eMule、BitTorrent等P2P文件交换系统中，Kademlia主要充当了文件信息检索协议这一关键角色，但Kad网络的应用并不仅限于文件交换。下文的描述将主要围绕eMule中Kad网络的设计与实现展开。

2. eMule的Kad网络中究竟存储了哪些信息?

只要是能够表述成为字典条目形式的信息Kad网络均能存储，一个Kad网络能够同时存储多张分布式哈希表。以eMule为例，在任一时刻，其Kad网络均存储并维护着两张分布式哈希表，一张我们可以将其命名为关键词字典，而另一张则可以称之为文件索引字典。

a. 关键词字典：主要用于根据给出的关键词查询其所对应的文件名称及相关文件信息，其中key的值等于所给出的关键词字符串的160比特SHA1散列，而其对应的value则为一个列表，在这个列表当中，给出了所有的文件名称当中拥有对应关键词的文件信息，这些信息我们可以简单地用一个3元组条目表示：(文件名，文件长度，文件的SHA1校验值)，举个例子，假定存在着一个文件“warcraft_frozen_throne.iso”，当我们分别以“warcraft”、“frozen”、“throne”这三个关键词来查询Kad时，Kad将有可能分别返回三个不同的文件列表，这三个列表的共同之处则在于它们均包含着一个文件名为“warcraft_frozen_throne.iso”的信息条目，通过该条目，我们可以获得对应iso文件的名称、长度及其160比特的SHA1校验值。

b. 文件索引字典：用于根据给出的文件信息来查询文件的拥有者(即该文件的下载服务提供者)，其中key的值等于所需下载文件的SHA1校验值(这主要是因为，从统计学角度而言，160比特的SHA1文件校验值可以唯一地确定一份特定数据内容的文件)；而对应的value也是一个列表，它给出了当前所有拥有该文件的节点的网络信息，其中的列表条目我们也可以用一个3元组表示：(拥有者IP，下载侦听端口，拥有者节点ID)，根据这些信息，eMule便知道该到哪里去下载具备同一SHA1校验值的同一份文件了。

3. 利用Kad网络搜索并下载文件的基本流程是怎样的?

基于我们对eMule的Kad网络中两本字典的理解，利用Kad网络搜索并下载某一特定文件的基本过程便很明白了，仍以“warcraft_frozen_throne.iso”为例，首先我们可以通过warcraft、frozen、throne等任一关键词查询关键词字典，得到该iso的SHA1校验值，然后再通过该校验值查询Kad文件索引字典，从而获得所有提供“warcraft_frozen_throne.iso”下载的网络节点，继而以分段下载方式去这些节点下载整个iso文件。

在上述过程中，Kad网络实际上所起的作用就相当于两本字典，但值得再次指出的是，Kad并不是以集中的索引服务器(如华语P2P源动力、Razorback 2、DonkeyServer 等，骡友们应该很熟悉吧)方式来实现这两本字典的存储和搜索的，因为这两本字典的所有条目均分布式地存储在参与Kad网络的各节点中，相关文件信息、下载位置信息的存储和交换均无需集中索引服务器的参与，这不仅提高了查询效率，而且还提高了整个P2P文件交换系统的可靠性，同时具备相当的反拒绝服务攻击能力；更有意思的是，它能帮助我们有效地抵制FBI的追捕，因为俗话说得好：法不治众…看到这里，相信大家都能理解“分布式信息检索”所带来的好处了吧。但是，这些条目究竟是怎样存储的呢?我们又该如何通过Kad网络来找到它们?不着急，慢慢来。

4. 什么叫做节点的ID和节点之间的距离?

Kad网络中的每一个节点均拥有一个专属ID，该ID的具体形式与SHA1散列值类似，为一个长达160bit的整数，它是由节点自己随机生成的，两个节点拥有同一ID的可能性非常之小，因此可以认为这几乎是不可能的。在Kad网络中，两个节点之间距离并不是依靠物理距离、路由器跳数来衡量的，事实上，Kad网络将任意两个节点之间的距离d定义为其二者ID值的逐比特二进制和数，即，假定两个节点的ID分别为a与b，则有：d=a XOR b。在Kad中，每一个节点都可以根据这一距离概念来判断其他节点距离自己的“远近”，当d值大时，节点间距离较远，而当d值小时，则两个节点相距很近。这里的“远近”和“距离”都只是一种逻辑上的度量描述而已；在Kad中，距离这一度量是无方向性的，也就是说a到b的距离恒等于b到a的距离，因为a XOR b==b XOR a

5. 条目是如何存储在Kad网络中的?

从上文中我们可以发现节点ID与条目中key值的相似性：无论是关键词字典的key，还是文件索引字典的key，都是160bit，而节点ID恰恰也是160bit。这显然是有目的的。事实上，节点的ID值也就决定了哪些条目可以存储在该节点之中，因为我们完全可以把某一个条目简单地存放在节点ID值恰好等于条目中key值的那个节点处，我们可以将满足(ID==key)这一条件的节点命名为目标节点N。这样的话，一个查找条目的问题便被简单地转化成为了一个查找ID等于Key值的节点的问题。

由于在实际的Kad网络当中，并不能保证在任一时刻目标节点N均一定存在或者在线，因此Kad网络规定：任一条目，依据其key的具体取值，该条目将被复制并存放在节点ID距离key值最近(即当前距离目标节点N最近)的k个节点当中；之所以要将重复保存k份，这完全是考虑到整个Kad系统稳定性而引入的冗余；这个k的取值也有讲究，它是一个带有启发性质的估计值，挑选其取值的准则为：“在当前规模的Kad网络中任意选择至少k个节点，令它们在任意时刻同时不在线的几率几乎为0”；目前，k的典型取值为20，即，为保证在任何时刻我们均能找到至少一份某条目的拷贝，我们必须事先在Kad网络中将该条目复制至少20份。

由上述可知，对于某一条目，在Kad网络中ID越靠近key的节点区域，该条目保存的份数就越多，存储得也越集中；事实上，为了实现较短的查询响应延迟，在条目查询的过程中，任一条目可被cache到任意节点之上；同时为了防止过度cache、保证信息足够新鲜，必须考虑条目在节点上存储的时效性：越接近目标结点N，该条目保存的时间将越长，反之，其超时时间就越短；保存在目标节点之上的条目最多能够被保留24小时，如果在此期间该条目被其发布源重新发布的话，其保存时间还可以进一步延长。

6. Kad网络节点需要维护哪些状态信息?

在Kad网络中，每一个节点均维护了160个list，其中的每个list均被称之为一个k-桶(k-bucket)，如下图所示。在第i个list中，记录了当前节点已知的与自身距离为2^i~2^(i+1)的一些其他对端节点的网络信息(Node ID，IP地址，UDP端口)，每一个list(k-桶)中最多存放k个对端节点信息，注意，此处的k与上文所提到的复制系数k含义是一致的；每一个list中的对端节点信息均按访问时间排序，最早访问的在list头部，而最近新访问的则放在list的尾部。

k-桶中节点信息的更新基本遵循Least-recently Seen Eviction原则：当list容量未满(k-桶中节点个数未满k个)，且最新访问的对端节点信息不在当前list中时，其信息将直接添入list队尾，如果其信息已经在当前list中，则其将被移动至队尾；在k-桶容量已满的情况下，添加新节点的情况有点特殊，它将首先检查最早访问的队首节点是否仍有响应，如果有，则队首节点被移至队尾，新访问节点信息被抛弃，如果没有，这才抛弃队首节点，将最新访问的节点信息插入队尾。可以看出，尽可能重用已有节点信息、并且按时间排序是k-桶节点更新方式的主要特点。从启发性的角度而言，这种方式具有一定的依据：在线时间长一点的节点更值得我们信任，因为它已经在线了若干小时，因此，它在下一个小时以内保持在线的可能性将比我们最新访问的节点更大，或者更直观点，我这里再给出一个更加人性化的解释：MP3文件交换本身是一种触犯版权法律的行为，某一个节点反正已经犯了若干个小时的法了，因此，它将比其他新加入的节点更不在乎再多犯一个小时的罪……-_-b

由上可见，设计采用这种多k-bucket数据结构的初衷主要有二：a. 维护最近-最新见到的节点信息更新；b. 实现快速的节点信息筛选操作，也就是说，只要知道某个需要查找的特定目标节点N的ID，我们便可以从当前节点的k-buckets结构中迅速地查出距离N最近的若干已知节点。

7. 在Kad网络中如何寻找某特定的节点?

已知某节点ID，查找获得当前Kad网络中与之距离最短的k个节点所对应的网络信息(Node ID，IP地址，UDP端口)的过程，即为Kad网络中的一次节点查询过程(Node Lookup)。注意，Kad之所以没有把节点查询过程严格地定义成为仅仅只查询单个目标节点的过程，这主要是因为Kad网络并没有对节点的上线时间作出任何前提假设，因此在多数情况下我们并不能肯定需要查找的目标节点一定在线或存在。

整个节点查询过程非常直接，其方式类似于DNS的迭代查询：
a. 由查询发起者从自己的k-桶中筛选出若干距离目标ID最近的节点，并向这些节点同时发送异步查询请求；
b .被查询节点收到请求之后，将从自己的k-桶中找出自己所知道的距离查询目标ID最近的若干个节点，并返回给发起者；
c. 发起者在收到这些返回信息之后，再次从自己目前所有已知的距离目标较近的节点中挑选出若干没有请求过的，并重复步骤1；
d. 上述步骤不断重复，直至无法获得比查询者当前已知的k个节点更接近目标的活动节点为止。
e. 在查询过程中，没有及时响应的节点将立即被排除；查询者必须保证最终获得的k个最近节点都是活动的。

简单总结一下上述过程，实际上它跟我们日常生活中去找某一个人打听某件事是非常相似的，比方说你是个Agent Smith，想找小李(key)问问他的手机号码(value)，但你事先并不认识他，你首先肯定会去找你所认识的和小李在同一个公司工作的人，比方说小赵，然后小赵又会告诉你去找与和小李在同一部门的小刘，然后小刘又会进一步告诉你去找和小李在同一个项目组的小张，最后，你找到了小张，哟，正好小李出差去了(节点下线了)，但小张恰好知道小李的号码，这样你总算找到了所需的信息。在节点查找的过程中，“节点距离的远近”实际上与上面例子中“人际关系的密切程度”所代表的含义是一样的。

最后说说上述查询过程的局限性：Kad网络并不适合应用于模糊搜索，如通配符支持、部分查找等场合，但对于文件共享场合来说，基于关键词的精确查找功能已经基本足够了(值得注意的是，实际上我们只要对上述查找过程稍加改进，并可以令其支持基于关键词匹配的布尔条件查询，但仍不够优化)。这个问题反映到eMule的应用层面来，它直接说明了文件共享时其命名的重要性所在，即，文件名中的关键词定义得越明显，则该文件越容易被找到，从而越有利于其在P2P网络中的传播；而另一方面，在eMule中，每一个共享文件均可以拥有自己的相关注释，而Comment的重要性还没有被大家认识到：实际上，这个文件注释中的关键词也可以直接被利用来替代文件名关键词，从而指导和方便用户搜索，尤其是当文件名本身并没有体现出关键词的时候。

8. 在Kad网络中如何存储和搜索某特定的条目?

从本质上而言，存储、搜索某特定条目的问题实际上就是节点查找的问题。当需要在Kad网络中存储一个条目时，可以首先通过节点查找算法找到距离key最近的k个节点，然后再通知它们保存条目即可。而搜索条目的过程则与节点查询过程也是基本类似，由搜索发起方以迭代方式不断查询距离key较近的节点，一旦查询路径中的任一节点返回了所需查找的value，整个搜索的过程就结束。为提高效率，当搜索成功之后，发起方可以选择将搜索到的条目存储到查询路径的多个节点中，作为方便后继查询的cache；条目cache的超时时间与节点-key之间的距离呈指数反比关系。

9. 一个新节点如何首次加入Kad网络?

当一个新节点首次试图加入Kad网络时，它必须做三件事，其一，不管通过何种途径，获知一个已经加入Kad网络的节点信息(我们可以称之为节点I)，并将其加入自己的k-buckets；其二，向该节点发起一次针对自己ID的节点查询请求，从而通过节点I获取一系列与自己距离邻近的其他节点的信息；最后，刷新所有的k-bucket，保证自己所获得的节点信息全部都是新鲜的。

CPP&&设计模式小屋 2006-09-11 14:09 发表评论