cams服务器,关于Linux版本CAMS服务器Linux系统内...

关于Linux版本CAMS服务器Linux系统内存占率高的原因说明
问题描述:
Linux版本CAMS服务器,在用top等命令查看服务器操作系统内存的使用情况时,发现系统内存占用率非常高,有时会达到90%以上。
原因分析:
内存占用率高是linux系统的特点。Linux会最大限度的使用物理内存,避免使用交换空间,除了内核和应用程序占用的内存外,Linux系统会将剩余内存用于做高速缓存(cache),这样做的优势就是正在运行的程序的访存延迟会比较小,减少不必要的换入换出,提高系统的性能,这对于linux的主要应用面定位于服务器是合理的。相对而言windows操作系统总会在内存中留有足够多的空间,为的是是在频繁地启动关闭应用程序时会更快速,所以一般会有100m的页面文件在硬盘上,不同的操作系统对内存的管理方式不同,Linux系统内存占用率高是正常现象,不会影响到CAMS的正常运行。
解决方法:
一般情况下这是一种正常情况,可通过使用Linux系统专项内存查看命令Free来证实。
举个例子,以root用户登陆,在终端下执行free,系统显示如下:
[root@JXND root]# free
total used free shared buffers cached
Mem: 2068320 1994212 74108 0 382612 1122692
-/+ buffers/cache: 488908 1579412
Swap: 1004052 0 1004052
一般会显示三行,即Mem; -/+ buffers/cache;Swap
具体的含义如下:
Mem行:
total表示服务器的物理内存,如这台服务器的物理内存是2G(2068320)
used表示当前一共使用了多少物理内存(包括内核+应用程序+buffer/cache),如这台服务器当前已使用内存1994212KB
shared表示共享内存,一般为0;buffer cache列表示多少内存用于buffer和cache.如这台服务器当前有382612+1122692=1505304KB用于buffer/cache
-/+ buffers/cache
Used 表示去掉buffer/cache后的值(这才是内核+应用程序占用的内存数!)如这台服务器当前内核+应用程序一共占用内存488908KB;free表示去除内核及应用程序占用内存之外后剩余的内存数,如这台服务器表示还剩余内存1579412KB
Swap行:
total表示交换分区的使用情况,如这台服务器的交换分区是1004052KB,当前没有被使用。
从中可以看出,表面上系统内存只有74108KB Free,这样算下来系统的内存使用率是:(2068320-74108)/2068320=96.4%.(这是真实情况,是由于linux系统的特点决定的)
实际上内核和应用程序只占了488908KB(见-/+ buffers/cache行used列), 占用率为488908/2068320=23.6%(这是通常意义上的内存使用率)
linux系统内存占用率高是由于linux系统把大部分剩余的内存都用于做buffer/cache,以提高系统的性能,这是正常现象。
CAMS常见业务问题汇编V1.0. 1 1、Cams双机切换后,备机Cams服务无法启动导致重新切回主机... 2 2、Cams双机切换后,业务无法正常运行... 2 3、Cams双机采用二层VPN无法建立隧道... 2 4、WinXP如何启用自带802.1x客户端... 2 5、MA5200与Cams双机配合的局限... 2 6、Cams开户时帐号、用户名与密码问题... 3 7、如何在Cams上查询Portal业务端口... 3 8、Cams按流量计费问题... 3 9、Cams查询用户数据流量异常问题... 3 10、Cams重新安装,如何确保数据库用户数据不丢失... 3 11、Cams用户治理中无法查询到用户... 3 12、误配置了Cams的ACL,导致Web治理前台无法登录... 4 13、LAN接入用户经常大面积无故掉线问题... 4 14、Cams中修改所有帐号用户的开户日期... 4 15、HP ML350 G3服务器安装双网卡,需要修改Bios配置,否则安装完linux后,可能出现网卡不能正常工作 4 16、Radius报文中涉及ip地址属性的说明... 4 17、Cams治理前台查看系统状况,显示与Oracle连接不正常,则需重新启动tomcat4. 5 18、Cams的QoS配置特性说明... 5 19、Cams无法强制LAN接入用户下线问题... 5 20、Cams的V100R001版本不支持分档计费,V100R002开始支持... 5 21、Cams运行一段时间后死机问题... 5 22、Exp命令备份Oracle数据库的问题... 6 23、开帐号用户时为何总提示要重新登录?... 6 24、日志中的“Fail to get PRocess function point”问题... 6 25、IP地址与帐号绑定时无法通过认证问题... 6 26、Portal业务问题... 7 1、目前仅MA5200可与Cams配合实现Portal业务... 7 2、Portal与Cams平台装在同一台机器上,无法正确弹出重定向认证页面... 7 3、使用Portal时Web强制到Cams的前台治理界面... 7 4、为什么Web强制页面总是“宽带业务无法使用”?... 7 5、老版本Cams在Web重定向时无法打开Portal认证页面... 7 6、Portal 2.0基本交互过程分析... 7 附录一 Portal消息中ErrorID的含义... 9 附录二 MA5200F做Portal业务的典型配置... 10
CAMS常见业务问题汇编V1.0
说明:本汇编只针对Cams业务,由Linux或Oracle安装配置造成的故障问题不在此文范围内。另外有个好消息,明年Cams可能移植到Windows平台上。
1、Cams双机切换后,备机Cams服务无法启动导致重新切回主机
这是备机Cams安装配置问题,可能是备机/etc/init.d目录下的Camsd文件没有可执行权限(ls ?l时应是rwx-rx-rx),或oracle和IP资源配置有问题,因为Cams服务的启动依靠这两个资源。可以先分别切换oracle和IP资源是否成功来初步定位问题。
2、Cams双机切换后,业务无法正常运行
这个问题比较棘手,大部分是因为双机切换后,Cams虚IP地址对应的MAC地址发生变化,需要交换机设备及时更新ARP表项。Cams的双机软件Lifekeeper在切换时会发出一免费ARP更新报文,该报文的目的IP是本子网最后一个IP地址,我司交换机认为该更新报文非法,丢弃之,导致ARP表项不能及时更新,只能等待老化。
3、Cams双机采用二层VPN无法建立隧道
Cams双机系统+NAS组件,3680路由器采用L2TP的VPN接入认证。路由器发code=1的radius包目的地址是Cams双机虚地址,而Cams发出code=2的回包源地址是主Cams服务器地址,导致认证无法通过,VPN隧道不能建立。
4、3680E与Cams对接实现L2TP VPN业务,用户正常下线后,Cams显示仍然在线
Cams记录用户的一次正常上、下线,是通过Radius Code=4的报文里acct-session-id唯一标识的。同一用户上下线时,3680E所发两个Code=4的报文中,acct-session-id应该是相同且唯一的。通过查看Cams调试级别的用户日志,发现3680E所发的acct-session-id值为空,导致Cams无法识别每个用户,因此该用户虽然下线,但Cams仍然显示其在线。此问题在3680E早期版本和部分新版本中存在。
5、WinXP如何启用自带802.1x客户端
MS的Win XP自带802.1x客户端,在DHCP获得IP时,可与Cams配合实现LAN接入业务。Cams+MA5200方式:XP的”网络属性”里选中“启动IEEE 802.1x”,以及“md5质询”,再选中下面的“当计算机信息可用时身份验证为计算机”(否则会出现Windows无法登录的错误)。使用802.1x业务时,将XP的网卡禁用再启用,即可看到右下角提示信息“单击此处输入用户名和密码”。 MA5200需要配置dot1x的policy,6320版本的具体命令是: vlan port <vlan id> <num> dot1x-policy eap-dhcp 对于启用802.1x的交换机,需要在system-view下配置dot1x dhcp-launch。假如客户为静态IP地址,则无法使用XP自带的客户端。因为按国标,交换机不主动发EAP-Request,而应由用户方发起认证。
6、MA5200与Cams双机配合的局限
MA5200与Cams双机配合,MA5200上必须分别配置主备机两机IP地址作为主、从认证计费服务器地址,不能配置双机虚地址做认证,因为MA5200分析了Radius回包的源地址。而一般交换机不需要做此配置。
7、Cams开户时帐号、用户名与密码问题
帐号用户的业务名和用户名是有区别的,开户时需要分别指定业务名和用户名。业务名是用户上网时需要认证的名字,用户名是用户登录自助服务界面时需要使用的名字。业务名与用户名不区分大小写,两者密码缺省是一样的,也可以分别配置密码。
8、如何在Cams上查询Portal业务端口
Portal业务端口为50100,在Cams主机上有两条命令可以查询: netstat -algrep 50100 lsof -i udpgrep 50100
9、Cams按流量计费问题
Cams按流量计费,只有MA5200实现了按用户连接统计,华为3Com各类交换机都是按端口统计,所以假如Cams与交换机配合按流量计费,只能一个用户接一个端口,否则统计接同一端口的所有用户流量都是该端口的总流量。因此若按流量计费,务必使用MA5200+Cams方式。
10、Cams查询用户数据流量异常问题
Cams系统中查询的用户流量数据往往会很离谱,这是因为Cams查询用户时的流量统计信息与具体设备有关。Cams治理前台“系统治理/系统参数/LAN接入业务参数”中,“流量统计单位”默认是1024字节,需要根据具体设备调整。比如3026E,使用huawei或标准radius时,发送的流量信息以字节为单位,该参数就要改成1字节。否则用户流量会显示的很大(是实际的1024倍)。
11、Cams重新安装,如何确保数据库用户数据不丢失
Cams重新安装不损失数据库用户数据,在安装平台组件的时候必须采用Custom定制安装,而不能选择Full安装方式。且不能选定制安装中的第四项(执行数据库脚本)。另外,假如采取这种方式重新安装Cams,无法避免30天临时License使用期限的问题。即Cams临时License在30天过期后,这样重新安装不能再使用30天。
12、Cams用户治理中无法查询到用户
Cams用户治理里查询用户,需要注重时间段限制,假如碰到客户反映无法查询到某用户时,就调整查询起始时间。Cams中缺省为一年间隔。
13、误配置了Cams的ACL,导致Web治理前台无法登录
在Cams主机上,以Oracle用户登录,执行sqlplus cams/cams@cams,在SQL>提示符下执行: SQL> delete from tbl_acl; SQL> commit;当Cams的ACL配置错误,可采用这个办法来清除ACL。注重SQL语句后带分号。
14、LAN接入用户经常大面积无故掉线问题
若有802.1x的LAN接入用户大面积掉线故障时,可检查Cams与LAN接入设备的配置。在Cams“系统治理/系统参数/公用系统参数”中设置的“老化时间间隔”必须大于设备上设置的计费更新包的时间间隔。老化时间间隔缺省为30分钟。这是因为Cams要根据设备发来的计费更新报文(code=4)来判定用户是否在线,假如在老化时间内没收到计费更新报文,就认为该用户掉线,于是强制用户下线。
15、Cams中修改所有帐号用户的开户日期
有些客户希望所有帐号用户的开户日期能够统一到一个时间点上,此时可直接对数据库进行操作,以Oracle用户登录系统后: sqlplus cams/cams@cams SQL>update tbl_user set create_time=to_date('2003-09-01','YYYY-MM-DD'); SQL>commit; SQL>exit 这样就更改所有帐号用户的开户日期为2003年9月1号。
16、HP ML350 G3服务器安装双网卡,需要修改Bios配置,否则安装完Linux后,可能出现网卡不能正常工作
17、Radius报文中涉及IP地址属性的说明
Nas-ip-addr属性记录的是发起认证请求的设备地址,Framed-ip-addr是接入用户的IP地址,格式为9位10进制数字。在换算成IP地址时,先转换为16进制,再拆分成点分十进制的IP地址即可。
18、Cams治理前台查看系统状况,显示与Oracle连接不正常,则需重新启动tomcat4
root用户执行: # tomcat4 stop # tomcat4 start
19、Cams的QoS配置特性说明
Cams“业务治理/LAN接入业务”中的QoS配置,需要设备侧配合支持,我司交换机3026E和3526E均支持QoS配置,但只支持上行限速,粒度为1M,MA5200粒度可到64K。 Cams中先指定QoS费率(1024K=1M),交换机侧需配置Radius协议类型为huawei(使用Huawei扩展Radius协议)。
20、Cams无法强制LAN接入用户下线问题
Cams无法强制LAN接入用户下线,与Huawei扩展Radius协议有关。只要不是非凡老的交换机版本,在radius-server host(scheme) XXX模式下配置server-type huawei(或server-type portal,对于5200E的新命令行版本只能是portal)命令即可。 Cams强制下线的报文是扩展Radius协议定义的。Cams给设备发code=20的报文,设备回计费结束报文code=4,然后对用户执行下线操作。任何不支持Huawei Radius +1.1协议的设备都无法实现强制下线功能,如ISN8850。
21、Cams的V100R001版本不支持分档计费,V100R002开始支持
分档计费的典型实例:某包月限时20小时的用户,在当月使用完20小时后,仍可继续使用,但费率重新计算。
22、Cams运行一段时间后死机问题
该故障现象比较常见,在排除网络故障、计算机硬件故障的可能性后,90%都是由于安装Oracle8.1.7.4补丁不正确所致。打8174补丁虽然比较复杂,但假如没有严格按指导书操作,则会在运行中出现内存溢出的问题,导致Cams系统死机。解决此问题的方法: 1、 停掉Cams服务、停掉数据库,使用exp全备份数据库数据; 2、 删除Cams安装目录,如/root/cams; 3、 停掉数据库的监听(lsnrctl stop),重新打8174补丁; 4、 重新安装Cams。
23、Exp命令备份Oracle数据库的问题
以Oracle用户执行exp备份的时候提示: exp-00056:oracle error 12541 encountered ora-12541:tns:no listener exp-00000:export terminate unsUCcessful 那么就需要启动监听lsnrctl start,数据库不需要启动。 exp-00008:oracle error 904 encountered ora-00904:invalid column name exp-00000:export terminate unsuccessful 说明安装8174补丁时没有严格按指导书操作,没执行四个SQL脚本文件。需要重新安装8174的补丁。
24、开帐号用户时为何总提示要重新登录?
通过Cams前台Web治理系统开户时,增加帐号用户后,申请LAN接入业务,无法弹出申请业务界面,而直接提示“操作失败,操作员需要重新登录”。这是因为IE浏览器安全级别配置过高,在IE的“工具/Internet选项/安全”,将“该区域的安全级别”设为默认级别即可。
25、日志中的“Fail to get process function point”问题
这是比较典型的故障现象,Cams可以收到code=1的Radius包,但用户无法通过认证。在Cams日志中记录:2003-11-07 15:46:56 : [ERROR (1)] : PT[4]: Fail to get process function point, maybe you don't have right to use this service!原因是Cams的配置文件目录,通常是/root/cams/etc目录下service.conf文件被清空或错误配置。例如对于NAS业务,需要补充上: SERVICE NAS /root/cams/libs/libprocnas.so ProcFuncCfg 注重大小写,并按实际Cams安装路径和业务恢复该文件即可。
26、IP地址与帐号绑定时无法通过认证问题
在做IP地址与帐号绑定的功能时,用户无法通过认证,在设备上观察Radius报文,发现设备发出code=1的报文后,Cams回应的code=3的报文里有: [18 Reply-Message ] [57] [Bound IP-Address is inconsistent with the accessing IP!]
[hw-26 Connect_ID ] [6] [11] *0.533754 S3526E RDS/8/DEBUG:Slot=1;RejectMsg= [Bound IP-Address is inconsistent with the accessing IP!] 意思是配置绑定的IP地址与Cams接收到的客户访问的IP地址不一致。我们检查code=1的报文里Framed-ip-addr是否正确,该属性携带客户IP地址信息,假如没有该属性,则很可能是802.1x客户端里没有选中要上传IP地址。假如该属性不正确,则需要检查客户的IP地址是否是配置绑定的IP。
27、运行userinfo-linux文件,提示需要java runtime
为申请License而执行userinfo-linux文件采集系统信息时,提示需要安装java runtime问题。假如没有安装Cams,则可能出现这个问题,需要设置环境变量,在/etc/profile文件中加入一行: export JAVA_HOME=/usr/java/j2sdk1.4.0/ Linux系统中可能不是j2sdk1.4.0目录名,根据实际目录名修改即可。
28、Portal业务问题
1、目前仅MA5200可与Cams配合实现Portal业务
2、Portal与Cams平台装在同一台机器上,无法正确弹出重定向认证页面
1.00-0150版本之后,Portal组件分为Portal Server和Portal Client,假如与平台装在同一台机器上,则必须先安装Cams平台组件,再安装Portal Server,最后安装Portal Client。由于Cams平台包含了tomcat4,所以在安装Portal Client的时候可选择不安装tomcat4。
3、使用Portal时Web强制到Cams的前台治理界面
使用Portal业务时强制到Cams的Web治理页面,当Cams与Portal合装在一台机器上的时候可能出现这个问题,主要是安装Portal的顺序错误导致。解决办法,先停止tomcat4,再到/var/tomcat4/work/目录下删除所有文件,重新启动tomcat4即可。 /var/tomcat4/work/目录存放Portal的临时文件,假如安装顺序错误,该目录下文件始终生效导致业务不正常。
4、为什么Web强制页面总是“宽带业务无法使用”?
Portal 2.0业务假如Web重定向后提示小窗口:宽带业务无法使用。一般都是Cams中Portal业务端口组信息配置有错误。配置原则是: 1、 当只有一个端口组时可配置起始端口到终止端口为0-z; 2、 但有多个组的时候,要严格按规则配置,规则为<设备名>-VLAN-<槽位号>-<VLAN ID>@VLAN,例如MA5200F-VLAN-02-0010@VLAN,槽位号是两位数字,VLAN ID是4位数字。 3、 起始端口与终止端口这种配置只有Portal 2.0支持。 4、 Portal服务器的log里Code : CODE_PP_DEVICE_REQUEST的报文中The attribute content 字段是用户客户端的IP地址,该地址应该在Cams配置的Portal IP地址组里,否则强制Web后页面也是“宽带业务无法使用”。
5、老版本Cams在Web重定向时无法打开Portal认证页面
1.00-0150版本之前的Cams做Portal业务,需要修改/var/tomcat4/conf/server.xml文件,将其中Base="ROOT"改为Base=“portal“。否则无法打开Portal认证页面。
6、Portal 2.0基本交互过程分析
在实际使用中,发现Portal业务不正常时,我们需要打开portal调试级别日志或MA5200的debug portal信息来判定故障所在。因此有必要了解Portal的工作过程。 Cams配置Portal本地Challenge为“否“:
Seq Source Target Code内容说明 1 Portal协议模块 Tomcat CODE_PP_DEVICE_REQUEST 携带客户IP地址信息 2 Tomcat Portal协议模块 CODE_PP_DEVICE_RESPONSE 3 Portal协议模块 Tomcat CODE_PP_DOMAIN_REQUEST 4 Cams MA5200 REQ_INFO 请求设备发送端口信息 5 MA5200 Cams ACK_INFO 在attribute content中携带端口信息 6 Cams MA5200 REQ_CHALLENGE 请求设备发CHAP验证字 7 MA5200 Cams ACK_CHALLENGE 应答 8 Cams MA5200 REQ_AUTH 请求设备发认证报文
随后MA5200会将Radius Code=1的报文发来,开始Radius交互过程。
u 假如在CODE_PP_DEVICE_RESPONSE后,没有REQ_INFO过程,则很可能是Portal用户的IP地址不在Portal配置的IP地址池范围内,可检查DEVICE_REQUEST报文中attribute content属性所携带的客户IP地址,此时ErrorID=1。 u 假如Cams发REQ_INFO后没收到ACK_INFO消息,说明设备侧配置错误,可检查Portal服务器地址和端口等配置。 u 假如Cams收到ACK_INFO后没发REQ_CHALLENGE,说明Cams上配置端口组时,起始与终止端口信息与ACK_INFO中的不一致,当然也有可能Cams的Portal配置本地challenge为“是“。 u 假如Cams发出REQ_INFO后没收到MA5200回应的ACK_INFO消息,很可能是通信端口配置错误。Cams监听Portal消息的端口是50100,而MA5200的监听端口是2000。 u 一般Cams与MA5200对接Portal业务,“本地challenge”配置为“否“,“快速认证”为“否”。 u /etc/camsd/portal/log目录下记录了Portal协议交互过程,在出现问题后,可以将该日志采集出来分析,注重先打开Portal的调试级别日志。当Cams配置Portal本地Challenge为“是“时,Cams收到ACK_INFO后,会直接发REQ_AUTH消息,通知设备开始Radius过程。另外,以上这些报文中都有一个属性为ErrorID,该值正常情况下为0,异常时为非0数字,具体含义请参考附录一,从中也可大致判定故障原因。
附录一 Portal消息中ErrorID的含义
ErrorID(即ErrCode)在不同Portal报文中的含义不同,ErrorID 字段和 Type 字段一起表示一定的意义,长度为 1字节。具体定义为: 1、对于REQ_CHALLENGE(Type=1)、REQ_AUTH(Type=3)、AFF_ACK_AUTH(Type=7)、REQ_INFO (Type=9)、NTF_USERDISCOVER (Type=x0b)和 NTF_USERIPCHANGE (Type=0x0c)报文,ErrorID 字段无意义,其值为 0。 2、对于 ACK_CHALLENGE (Type=2)报文,ErrorID 有如下含义:
ErrCode 含义 0 BAS 设备通知 Portal Server,Challenge 请求成功 1 BAS 设备通知 Portal Server,Challenge 请求被拒绝 2 BAS 设备通知 Portal Server,此用户连接已经建立 3 BAS 设备通知 Portal Server,有一个用户正在认证过程中,请稍后再试 4 BAS 设备通知 Portal Server,此用户Challenge 请求失败(发生错误)
3、对于 ACK_AUTH(Type=4)报文,ErrCode 有如下含义:
ErrCode 含义 0 BAS 设备通知 Portal Server,用户认证成功 1 BAS 设备通知 Portal Server,用户认证请求被拒绝 2 BAS 设备通知 Portal Server,此用户连接已经建立 3 BAS 设备通知 Portal Server,有一个用户正在认证过程中,请稍后再试 4 BAS 设备通知 Portal Server,此用户认证请求失败
4、对于 REQ_LOGOUT(Type=5)报文,ErrCode 有如下含义:
ErrCode 含义 0 表示此报文是 Portal Server 发给 BAS 设备的请求下线报文 1 表示此报文是 Portal Server 没有收到 BAS 设备发来的对各种请求的响应报文,而定时器时间到(即超时)时由 Portal Server 发给 BAS 设备的报文
5、对于 ACK_LOGOUT(Type=6)报文,ErrCode 有如下含义:
ErrCode 含义 0 BAS 设备通知 Portal Server,此用户下线成功 1 BAS 设备通知 Portal Server,此用户下线被拒绝 2 BAS 设备通知 Portal Server,此用户下线失败(发生错误) 3 BAS 设备通知 Portal Server,此用户已经下线
6、对于 NTF_LOGOUT (Type=8)报文,ErrCode 有如下含义:
ErrCode 含义 0 BAS 通知 Portal Server,用户强制下线
7、对于 ACK_INFO (Type=0x0a)报文,ErrCode 有如下含义:
ErrCode 含义 0 处理成功,但不表示全部消息都被获取了,有多少信息被获得应通过属性来判定 1 功能不支持,表示MA5200设备不支持这一功能 2 消息处理失败,由于某种不可知原因,使处理失败,例如询问消息格式错误等
8、对于 AFF_NTF_USERIPCHAN (Type=x0d)报文,ErrCode 有如下含义:
ErrCode 含义 0 Portal Server 通知 BAS 设备,更新用户 IP 地址成功 1 Portal Server 通知 BAS 设备,更新用户 IP 地址失败
9、对于 ACK_NTF_LOGOUT (Type=0x0e)报文,ErrCode 有如下含义:
ErrCode 含义 0 Portal Server 通知 BAS 设备,用户 IP 下线成功
附录二 MA5200F做Portal业务的典型配置
MA5200典型配置实例。
-
资料引用:http://www.knowsky.com/391492.html
Tags: 

延伸阅读

最新评论

发表评论