从神九用到CAN总线讲起（6）方法很关键

邢远 · 发表于 2013-7-28 23:22:18

国家兴亡匹夫有责，从神九用到CAN总线讲起（6）方法很关键
我们很多应用选用CAN总线是因为它特别可靠，按CiA的宣传资料是一千年才会发生一次错帧残留，按Bosch CAN2.0规范是帧出错率*4.7*10-11。其中4.7*10-11是错帧漏检率Pun，而帧出错率*Pun是错帧残留率Pres。一千年一次在我们有生之年是碰不到的，自然非常好，不过它这个值错了，错误的数据会导致盲目乐观的态度。

它的计算过程是：假定误码率为每0.7秒有1位错，当位时间为2us时，有ber= 1/（0.7*106/2）=2.8*10-6并以此来计算公式中的error rate。这是简化的情况，与Bosch 分析时采用的方法不同，在那里error rate相当于bad状态概率，例如分析时采用的为10-3，在帧长为100bit时，它的计算偏小了约3倍。

假定总线工作于500kbps，总线负载率为40%，平均帧长为100 bit，那么每小时送7.2×106个帧。按我的计算结果（见以后博文），错帧漏检率Pun=1.15*10-7,在bad状态概率为1*10-3时错帧残留率是1.15*10-10，每小时的失效率是8.82×10-4/h。也就是每1200小时=50天要失效一次。如果像上面CiA介绍总线负载率为100%时，就会是每20天失效一次。

有人会说，我的系统从来没有失效过。说到数值问题，第一是你的系统可能干扰较少，在单帧长度为统计误码率时遇到的最坏情况远小于1*10-3，但是你不能否定别人的最坏情况可能达到1*10-3；第二，许多应用属于闭环控制，由于对象的响应比较慢，即使有错帧漏检，其引起的扰动刚开始就被新来的正确数据纠正了，你就没有感觉，但是你不能否定存在无法及时更新的可能性；第三，也许你在应用上还有别的纠错措施使错帧的影响减弱了，例如各种滤波算法，所以你感觉不到，但是你已经付出了相应的代价，例如降低了系统的动态指标。

现在说可信赖性分析方法。对整个国家而言，平均概率是重要的。但是最坏情况发生时，人身和财产损失对当事人是百分之百地已经发生。所以要按最坏概率作出发点。例如一，人的价值是无价的，所以欧美各国已进入到目标为交通零伤亡的时代，如果你的车不以此为目标，你就会在竞争中失败；例如二，有的项目全国都只有有限的数量，一次失效都是难以承受的，例如火箭卫星**之类。所以无论民用或军工都该以最坏情况作出发点。

关于错帧漏检的分析方法，据我所知大致有几种方法：第一是用软件仿真的方法，可以有控制地注入位错，然后按协议的规定检查，错帧是否溜过去，不过一般采取随机注入位错的方法，即一般随机测试的Monte Carlo方法；第二种是用分析方法，构造出会溜过去的帧，然后统计这种帧的个数，我就是用这种方法；也许还有第三种，用形式逻辑的方法来分析，不过我还不懂，不知道是否走得通。

Bosch采用的是第一种方法。（ J. Unruh, H.J. Mathony, K.H. Kaiser: "Error Detection Analysis of Automotive Communication Protocols". SAE Int. Congress, No. 900699, Detroit, USA, 1990.）

Bosch对造成错帧漏检的二种原因均有论述，第一种原因是CAN位填充规则时出错发生部分数据流相位移动，第二次是出错又使相位又对上了，在有相移的部分造成收发数据比较时有大量差，超出了CRC检出错的能力；第二种是在定义帧长度的位中出了错，收发二边对帧长度有了不同理解，碰巧后边又发生位错，使变形后的帧通过了CRC检验和格式检验。关于这二种情况我后面都要用到，到时候详细介绍。

采用软件仿真的办法要求概率的分布是均匀的，而且样本的量较大，正是在这二点细节上这种办法是有缺点的，从而导致结果的准确度低。

首先出现漏检事件的出错位分布不是均匀的，发生在标识位等处的错会因数据移相，造成帧长变化而较易检测出来，不易漏检；而发生在数据域内的错则除了CRC检验没有其他检验可发现，易漏检；发生在帧尾部的错立马就被视作格式错，不漏检。

其次是样本的大小，Bosch文章中针对的是80~90位的帧，CRC检验的覆盖面为58~66位，这样帧本身就有258=2.88×1017种，注入的位置有58×57/2组，全部实例有4.76×1020个。每一个帧在注入错前后要算二次CRC，还要做其他格式检查。例如有没有发生填充位错，有没有发生帧长变化导致格式错等。现仅就CRC检验来说：每个学过CRC计算的人都知道它要分很多步骤，1989年左右还是16位机的时代（例如VAX11系列），假定累加器由A构成，生成多项式为立即数G，步骤有

1.如A15=0跳到第3步，否则进到2，
2.A与G异或，
3.进位位设新数据，
4.A与进位位左移一位，
5.判CRC覆盖区是否结束，如否则回到1，如是就结束。

一位要循环5步，就算用机器代码，那时的计算机还只在10M左右，即0.5us。完成58位循环要29us，验算一条帧需58us。于是可以算出不停机运行一年可检验365*24*3600*106/58=5.43*1011条帧。全部实例有4.76×1020个，可见测试的样本还不到实例的10-8。即使当时的计算机速度估计不准，仍然是样本太小了。

样本小要作结论是无法置信的，例如100万辆车你遇到1辆性能很好就说车好，或者你遇到1辆车坏了就说车一塌胡涂都是偏颇的。

虽然CiA一方面推荐Bosch的残差值：出错率*4.7*10-11，实际上CiA还给出了另一个更大的残差值：CiA, CiA Draft Standard 304 V1.0.1 “CANopen framework for safety-relevant communication”，第26页：The worst case residual error probability of the CAN protocol is PRe st = 7*10-9，它来自一篇Joachim Charzinski的论文，在那里有：Pres<7.2*10-9*qbad。所以他们自己已否定了Bosch的残差值。只是CANopen中的值还是比我的数据1.15*10-7小了很多。

资料下载

方案下载

KNX World

素材下载

智育未来

影音资源

从神九用到CAN总线讲起（6）方法很关键

浏览过的版块

热心会员

推广达人

宣传达人

灌水之王

突出贡献

优秀版主

荣誉管理

论坛元老

最佳新人

!jz_grzx!