用C#编写网络电话

用C#编写网络电话2010-08-14思路：要想做一个网络电话，基本遵循以下步骤

1、一方实时的录音，把模拟信号转换成数字信号；

2、把声音实时压缩；

3、通过网络协议把压缩后的数据传输给接收方；

4、接收方解压缩接受到的音频数据；

5、实时的把接收到的数字信号转换成模拟信号并播放出来。

下面我们来看看每一步面临的挑战及其解决方案。

1、第一步，实时录音，DirectxSound有录音方面的API，托管的类分别是Microsoft.DirectX.DirectSound.CaptureDevicesCollection，Microsoft.DirectX.DirectSound.Capture和Microsoft.DirectX.DirectSound.CaptureBuffer，CaptureDevicesCollection用来枚举本机的可用的录音设备，Capture则表示一个录音设备，CaptureBuffer是用来存放录音数据的缓冲区，我们开始录音后，音频数据会不断的写入到环形的流式缓冲区，然后我们定期从缓冲区中把录音数据取出来返回给上层应用层就可以了。关于环形的流式缓冲区，可以看参考链接部分。

2、声音的压缩是一个很难抉择的步骤，默认的DirectSound只能播放和录制PCM格式（WAV）的音频数据，但这种声音格式特别大。常用的声音压缩格式有h.7231,gsm,amr,h.711等等，各种压缩算法都有自己的码率和适用范围。因为我们做的是互联网的语音电话，不考虑慢速网络和无线连接下的情况，也不用考虑终端设备的CPU能不能支持我们选用的压缩算法，我们做的语音电话双方都是PC机，应该什么解压缩算法都不会引起什么性能上的问题，所以只要网络快一些，选择哪个压缩都无所谓了，网上有h.711的压缩算法，我打算就采用这个，他的码率是64Kbps，比PCM的1.544Mbps和2.048Mbps要小的多。然后我们进行了音频数据压缩后，还可以对字节流进行GZIP或者7ZIP压缩，前者用SharpZip，后者7zip的官方有c#的使用代码，大家可以测试一下这两个算法的性能后做出适合自己的决定。关于各种压缩格式的特性可以参考我做的PPT及提供的参考链接。

3、网络电话注重实时性，而把声音从网络上传输就要走IP网络，而IP网络不是一个等时系统，所以我们就要尽量的去模拟实时的语音传输，提到实时，肯定UDP比TCP要实时，因为TCP要保证传输的可靠性，有序性等，而专门用于实时传输有一个应用层协议是RTP协议，这个协议一般就是建立在UDP基础上的，它在每个包头提供了一些序列号、时间戳等信息，但UDP本身并不会使用这些信息，这时候就有一个RTCP协议来用这些信息进行流量控制和拥塞控制，比如说RTCP检测到网络拥挤，会告诉发送方变换一种低码率的语音压缩算法来传输数据。这些大多都需要自己去实现，本文的源码没有去实现这些，关于RTP和RTCP可以参考相关资料或者我做的PPT。

4、每个压缩算法都有相应的解压缩算法，呵呵。