分类目录归档:转载文章(档)

cpu load过高问题排查(转载)

load average的概念

top命令中load average显示的是最近1分钟、5分钟和15分钟的系统平均负载。

系统平均负载被定义为在特定时间间隔内运行队列中(在CPU上运行或者等待运行多少进程)的平均进程数。如果一个进程满足以下条件则其就会位于运行队列中:

  • 它没有在等待I/O操作的结果
  • 它没有主动进入等待状态(也就是没有调用’wait’)
  • 没有被停止(例如:等待终止)

在Linux中,进程分为三种状态,一种是阻塞的进程blocked process,一种是可运行的进程runnable process,另外就是正在运行的进程running process。

进程可运行状态时,它处在一个运行队列run queue中,与其他可运行进程争夺CPU时间。 系统的load是指正在运行和准备好运行的进程的总数。比如现在系统有2个正在运行的进程,3个可运行进程,那么系统的load就是5。load average就是一定时间内的load数量。

一般来说只要每个CPU的当前活动进程数不大于3那么系统的性能就是良好的,如果每个CPU的任务数大于5,那么就表示这台机器的性能有严重问题。

CPU使用率高并不总是意味着CPU工作繁忙,它有可能是正在等待其他子系统。在进行性能分析时,将所有子系统当做一个整体来看是非常重要的,因为在子系统中可能会出现瀑布效应。衡量CPU 系统负载的指标是load,load 就是对计算机系统能够承担的多少负载的度量,简单的说是进程队列的长度。简单的例子比如食堂有五个窗口,当有小于五个学生来打饭,五个窗口都能及时处理,但是当学生个数超过5个,必然会出现等待的学生。请求大于当前的处理能力,会出现等待,引起load升高。
Load Average 就是一段时间(1min,5min,15min)内平均Load。平均负载的最佳值是1,这意味着每个进程都可以在一个完整的CPU 周期内完成。

cpu load高的排查思路

1. 首先排查哪些进程cpu占用率高。 通过命令 ps ux
2.  查看对应java进程的每个线程的CPU占用率。通过命令:ps -Lp 15047  cu

 

3.  追踪线程内部,查看load过高原因。通过命令:jstack 15047。或者打印线程 jstack pidof java > stack.out查找到对应的threadid, 再反查代码。

一般经验cpu load的飙升,一方面可能和full gc的次数增大有关,一方面可能和死循环有关系

数据库系统load高的一般原因

 

    1 业务并发调用全表扫描/带有order by 排序的SQL语句.
2 SQL语句没有合适索引/执行计划出错/update/delete where扫描全表,阻塞其他访问相同表的sql执行.
3 存在秒杀类似的业务比如聚划算10点开团或者双十一秒杀,瞬时海量访问给数据库带来冲击。
4 数据库做逻辑备份(需要全表扫描)或者多实例的压缩备份(压缩时需要大量的cpu计算,会导致系统服务器load飙高)
5 磁盘写入方式改变 比如有writeback 变为 write through
RAID卡都有写cache(Battery Backed Write Cache),写cache对IO性能的提升非常明显,因为掉电会丢失数据,所以必须由电池提供支持。
电池会定期充放电,一般为90天左右,当发现电量低于某个阀值时,会将写cache策略从writeback置为writethrough,相当于写cache会失效,这时如果系统有大量的IO操作,可能会明显感觉到IO响应速度变慢,cpu 队列堆积系统load 飙高。

判别和处理load高问题

一般根据cpu数量去判断,也就是Load平均要小于CPU的数量,负载的正常值在不同的系统中有着很大的差别。在单核处理器的工作站中,1或2都是可以接受的。多核处理器的服务器(比如24核)上,load 会到达20 ,甚至更高。

a) 数据库层面
1 top -u mysql -c 检查当前占用cpu资源最多的进程命令。-c 是为了显示出进程对应的执行命令语句,方便查看是什么操作导致系统load飙高。
2 根据不同的情况获取pid 或者MySQL的端口号
3 如果是MySQL 数据库服务导致laod 飙高,则可以使用如下命令
show processlist;
SELECT * FROM INFORMATION_SCHEMA.PROCESSLIST WHERE COMMAND <> ‘sleep’ AND TIME>100;

orzdba 工具检查逻辑读/thread active的值。用法orzdba –help
orztop 工具检查当前正在执行的慢sql,用法orztop -P $port
4 获取异常的sql之后,剩下的比较好解决了。结合第一部分中的几条原因
a 选择合适的索引
b 调整sql 语句 比如对应order by 分页采用延迟关联
c 业务层面增加缓存,减少对数据库的直接访问等
b) OS 系统层面 检查系统IO

使用iostat 命令查看r/s(读请求),w/s(写请求),avgrq-sz(平均请求大小),await(IO等待), svctm(IO响应时间)

r/s ,w/s是每秒读/写请求的次数。

util是设备的利用率。如果它接近100%,通常说明设备能力趋于饱和(并不绝对,比如设备有写缓存)。有时候可能会出现大于100%的情况,这多半是计算时四舍五入引起的。
svctm是平均每次请求的服务时间。这里有一个公式:(r/s+w/s)*(svctm/1000)=util。举例子:如果util达到100%,那么此时  svctm=1000/(r/s+w/s),假设IOPS是1000,则svctm大概在1毫秒左右,如果长时间大于这个数值,说明系统出了问题。
await是平均每次请求的等待时间。这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,队列时间越短,反之差值越大,队列时间越长,说明系统出了问题。
avgqu-sz是平均请求队列的长度。毫无疑问,队列长度越短越好。

转自:https://www.cnblogs.com/lddbupt/p/5779655.html

参考资料

http://blog.csdn.net/u011183653/article/details/19489603

http://blog.itpub.net/22664653/viewspace-1262635/

财务会计基础复式记账法

一、账户
账户(acount)是会计记账的基础,它揭示了交易或事项对一项具体资产或权益影响的系统安排。用户对于每项资产、负债、权益、收入及费用应该设立不同的账户。账户有实账户(realacount)与虚账户(nominalacount)之分。

实账户也称永久账户,是指资产、负债、权益账户,这些账户期末都有结余,并体现于资产负债表上。虚账户也称暂时账户,是指收入、费用账户,体现于收益表上。虚账户必须在期末结平,而实账户则无此要求。

为了全面、分类地反映经济业务的发生对会计要素产生的数量上的影响,会计准则规定了账户的结构。由于约定成俗的原因,每一个账户,左方都是借方,右方都是贷方,用来记录数量上的变动。至于到底账户的哪方登记增加数抑或是减少数,取决于账户的性质及经济业务的内容。为与对会计要素的划分相一致,我们也将账户从总体上划分为资产类、负债类、所有者权益类、收入类、费用类来进行解释。

由于会计分期的基本假设,所以在账户中会有本期发生额和余额之分。本期发生额是指在账户中计入借方或贷方的增加数或者减少数,可分为借方发生额和贷方发生额。余额是指在一个特定的期末,将期初余额(若不存在,就不需考虑)、借方发生额、贷方发生额进行比较以后得到的结果,本期的期末余额则是下期的期初余额。但并不是所有的账户都存在余额。回忆前面所提的两个等式:

(1)资产=负债+所有者权益;

(2)收入-费用=利润。

等式(1)反映的是企业在特定时点上的财务状况,也就是一个企业的资产、负债、所有者权益的结存情况(包括数量和金额),是存量,因此它们都存在余额;

等式(2)反映的是企业在一定期间的经营活动,是流量。鉴于此,为了计算经营成果,在期末计算利润时,必须将收入和费用账户予以结平,因此收入、费用账户没有余额。

表表明了各个账户的登记规则。

值得注意的是在会计实务中,对某些账户如应收账款、应付账款、存货、固定资产、短期借款等账户,仅仅有总括的信息是不够的。为了更好地了解情况,就必须对账户进行分级,因此有一级账户(也称总分类账)和二级账户之分。例如,对于“存货”这个一级账户而言,为了更详细地反映其构成,可以设置“原材料”、“在产品”、“产成品”这些二级账户。如果必要,还可以设置三级账户(明细账户),如在“产成品”这个二级账户下再根据本企业所生产的产品种类设置“产品A”、“产品B”等三级账户。

二、复式记账规则
复式记账是会计核算的一种重要的方法。它针对每一笔经济业务在两个或两个以上相互联系的账户中以相等的金额进行记录。借贷记账法属于复式记账法的一种,它把相互联系的账户计入一些特定账户的借方或贷方,记账规则是有借必有贷,借贷必相等。

这个记账规则包含着两个层次的意思:第一,经济业务发生以后,所计入的账户必须至少包含一个借方账户和一个贷方账户。当然,可以是一个借方账户同时对应两个或多个贷方账户,也可以是多个借方账户同时对应一个贷方账户。在经济业务较为复杂时,可能会出现多个借方账户对应多个贷方账户。第二,不管借方、贷方各自涉及多少个账户,借方的合计金额与贷方的合计金额必然相等。

另外值得注意的是,总分类账户和明细分类账户之间是一种统驭与被统驭的关系,但是两者反映的是同一笔经济业务,区别只是在于反映的详尽程度不同,所以两者应该采用平行登记原则。此原则可以概括为:

(1)对于企业发生的每一笔经济业务,一方面需要在总分类账户中进行登记,另一方面要在其所属的明细账户中登记;

(2)在进行总分类账和明细账户的登记时,方向必须相同,同为借记或贷记,而且所涉及的金额必须相等;

(3)总分类账和明细账户对同一笔经济业务的登记应该在同一个会计期间内完成。

三、基本平衡与交易分类
在复式记账中,有借必有贷,借贷必相等。这条规则向我们揭示了会计记录中的基本平衡关系:资产=负债+所有者权益。根据这个基本平衡关系,我们可以将企业发生的形形色色的经济业务概括为以下几类,见表

表各类型的含义如下:

类型一:会计等式两边同时增加,并保持平衡。类型一可以是资产和负债同时增加,例如通过借款获得现金,则资产方现金增加,负债方银行借款也增加;也可是资产和所有者权益同时增加,如某投资者以设备入股,则资产方固定资产增加,所有者权益中的实收资本也增加。

类型二:会计等式两边同时减少,并保持平衡,类型二可以是资产和负债同时减少,也可以是资产和所有者权益同时减少。例如,用现金支付职工的应付工资,则资产方现金减少,同时负债方应付工资也减少。

类型三:会计等式左边即资产内部一增一减,会计等式保持平衡。例如,用现金购买原材料,则在资产方内部,现金减少,而存货增加。

类型四:会计等式右边即负债与所有者权益一增一减、负债内部一增一减以及所有者权益内部项目之间一增一减总共三种情况,但会计等式仍然保持平衡。例如,公司通过银行借款来支付到期的应付票据,则负债内部银行借款增加而应付票据减少。

一个企业存在的前提是经营活动能正常开展,因此经营活动事项是企业业务的最主要组成部分。但是,作为企业由于各种原因几乎都需要向外借款周转资金,如生产的扩大等,筹资活动是必不可少的。当企业有闲置资金时,考虑到现金的收益率是众多资产中最低的,所以企业一般也会将暂时不用的现金用来投资以期望获得较高的回报,于是又出现了投资活动。

企业的经济业务无不是围绕经营、筹资、投资而展开的,这些业务交易也大致为经营活动、筹资活动和投资活动。筹资活动是指导致企业资本及债务规模和构成发生变化的活动,如吸收投资、借款、发行股票、分配股利、偿还债务等;投资活动是指企业长期资产的购建和不包括现金等价物范围内的投资及处置活动,如购买设备、取得投资收益等;经营活动是指企业筹资活动和投资活动以外的所有交易和事项。

ntp服务器同步时间详细配置(转载)

NTP服务端:linl_S    IP:10.0.0.15
NTP客户端:lin_C    IP:10.0.0.16

NTP服务概述

1、原理

NTP(Network TimeProtocol,网络时间协议)是用来使计算机时间同步的一种协议。它可以使计算机对其服务器或时钟源做同步化,它可以提供高精准度的时间校正(LAN上与标准间差小于1毫秒,WAN上几十毫秒),切可介由加密确认的方式来防止恶意的协议攻击。
模式:C/S模式
运行模式:

2、端口(123)

1 [root@linl_S ~]# vim /etc/services 
2 nntp            119/tcp         readnews untp   # USENET News Transfer Protocol
3 nntp            119/udp         readnews untp   # USENET News Transfer Protocol
4 ntp             123/tcp
5 ntp             123/udp                         # Network Time Protocol
拓展:
NNTP(Network News Transport Protocol),中文释义:(RFC-977)网络新闻传输协议。这是一个主要用于阅读和发布新闻文章(俗称为“帖子”,比较正式的名字是“新闻组邮件”)到Usenet 上的Internet应用协议,也负责新闻在服务器间的传送。
安装NTP
默认是已安装,如果是最小化安装系统,则需要手动安装。
1)NTP相关软件包
1 [root@linl_S ~]# ls /mnt/Packages/ntp*
2 /mnt/Packages/ntp-4.2.6p5-1.el6.x86_64.rpm         #NTP服务端软件包
3 /mnt/Packages/ntpdate-4.2.6p5-1.el6.x86_64.rpm     #NTP客户端软件包
2)安装NTP服务端软件包:
1 [root@linl_S ~]# yum -y install ntp         #NTP两个软件包都会安装上
2 ...
3 Installed:
4   ntp.x86_64 0:4.2.6p5-1.el6                                      
5 Dependency Installed:
6   ntpdate.x86_64 0:4.2.6p5-1.el6                                  
7 Complete!
    安装客户端:
1 [root@linl_C ~]# rpm -ivh /mnt/Packages/ntpdate-4.2.6p5-1.el6.x86_64.rpm     #只安装ntpdate安装包
2 warning: /mnt/Packages/ntpdate-4.2.6p5-1.el6.x86_64.rpm: Header V3 RSA/SHA256 Signature, key ID fd431d51: NOKEY
3 Preparing...                ########################################### [100%]
4     package ntpdate-4.2.6p5-1.el6.x86_64 is already installed
    NTP配置文件所在位置
1 [root@linl_S ~]# ls /etc/ntp.conf 
2 /etc/ntp.conf
3)启动NTP服务
 1 [root@linl_S ~]# service ntpd start          #启动ntp服务
 2 Starting ntpd:                                             [  OK  ]
 3 [root@linl_S ~]# netstat -anptu |grep 123    #查看端口123是否开放
 4 udp        0      0 10.0.0.15:123               0.0.0.0:*                               5846/ntpd           
 5 udp        0      0 127.0.0.1:123               0.0.0.0:*                               5846/ntpd           
 6 udp        0      0 0.0.0.0:123                 0.0.0.0:*                               5846/ntpd           
 7 udp        0      0 fe80::20c:29ff:fea9:c1ae:123 :::*                                    5846/ntpd           
 8 udp        0      0 ::1:123                     :::*                                    5846/ntpd           
 9 udp        0      0 :::123                      :::*                                    5846/ntpd           
10 [root@linl_S ~]# chkconfig ntpd on           #开机自启动
实战1:手动同步NTP时间服务器

1)在lin_S服务器上查看可用的NTP时间服务器

1 [root@linl_S ~]# vi /etc/ntp.conf 
2 # Use public servers from the pool.ntp.org project.
3 # Please consider joining the pool (http://www.pool.ntp.org/join.html).
4 server 0.rhel.pool.ntp.org iburst       #找一个可以使用的NTP时间服务器
5 server 1.rhel.pool.ntp.org iburst
6 server 2.rhel.pool.ntp.org iburst
7 server 3.rhel.pool.ntp.org iburst

2)在lin_C客户端上与NTP时间服务器进行同步

1 [root@linl_C ~]# ntpdate 0.rhel.pool.ntp.org
2 22 May 22:04:41 ntpdate[5733]: adjust time server 202.118.1.130 offset 0.027428 sec
拓展:
在lin_S服务端(已启动NTP服务)与NTP时间服务器进行同步会报错。
1 [root@linl_S ~]# ntpdate 0.rhel.pool.ntp.org
2 22 May 22:06:17 ntpdate[2464]: the NTP socket is in use, exiting
问题分析:
出现该错误的原因是lin_S服务器正在运行ntpd服务,就不能用ntpdate来手动更新时间了。
解决方法:
关闭ntpd服务
1 [root@linl_S ~]# service ntpd stop
2 Shutting down ntpd:                                        [  OK  ]
3 [root@linl_S ~]# ntpdate 0.rhel.pool.ntp.org
4 22 May 22:13:27 ntpdate[2495]: adjust time server 202.118.1.130 offset -0.068183 sec

实战2:搭建内网NTP服务器,内网服务器通过此NTP服务器进行时间同步

1)修改NTP配置文件

      蓝色底纹部分为增加项

 1 [root@linl_S ~]# vi /etc/ntp.conf 
 2 # Permit all access over the loopback interface.  This could
 3 # be tightened as well, but to do so would effect some of
 4 # the administrative functions.
 5 restrict 127.0.0.1
 6 restrict -6 ::1
 7 restrict 10.0.0.0 mask 255.255.255.0       #允许10.0.0.0 网段中的服务器访问本ntp服务器进行时间同步
 8 restrict 10.0.0.16                         #允许单个IP地址访问本ntp服务器
 9 # Use public servers from the pool.ntp.org project.
10 # Please consider joining the pool (http://www.pool.ntp.org/join.html).
11 server 210.72.145.44    #指定本ntp服务器的上游ntp服务器为210.72.145.44,并且设置为首先服务器。同步时间为:从上到下,写的越靠上,优先级越高。(此服务器同步不了时间,寻找下一个ntp服务器)。此IP地址是中国国家授时中心ntp服务器。                    
12 server 133.100.11.8     #当上面服务器同步不了,则寻找第二个。此IP地址是日本福冈大学ntp服务器。
13 server 0.rhel.pool.ntp.org iburst
14 server 1.rhel.pool.ntp.org iburst
15 server 2.rhel.pool.ntp.org iburst
16 server 3.rhel.pool.ntp.org iburst
17 server 127.127.1.0           #local clock 如果上面的服务器都无法同步时间,就和本地系统时间同步。127.127.1.0在这里是一个IP地址,不是网段。
18 fudge 127.127.1.0 stratum 10    #127.127.1.0 为第10层。ntp 和127.127.1.0同步完后,就变成了11层。  ntp是层次阶级的。同步上层服务器的stratum 大小不能超过或等于16。

2)启动ntpd服务

1 [root@linl_S ~]# /etc/init.d/ntpd start
2 Starting ntpd:                                             [  OK  ]
3 [root@linl_S ~]# netstat -ln |grep 123
4 udp        0      0 10.0.0.15:123               0.0.0.0:*                               
5 udp        0      0 127.0.0.1:123               0.0.0.0:*                               
6 udp        0      0 0.0.0.0:123                 0.0.0.0:*                               
7 udp        0      0 fe80::20c:29ff:fea9:c1ae:123 :::*                                    
8 udp        0      0 ::1:123                     :::*                                    
9 udp        0      0 :::123                      :::*
3)查看ntpd服务状态
指令“ntpq -p”可以列出目前我们的NTP与相关的上层NTP的状态,以上的几个字段的意义如下:
remote:即remote – 本机和上层ntp的ip或主机名,“+”表示优先,“*”表示次优先。
refid:参考的上一层NTP主机的地址
st:即stratum阶层
poll:下次更新在几秒之后

offset:时间补偿的结果

 1 [root@linl_S ~]# ntpq -p         #列出本NTP服务器与上游服务器的连接状态
 2      remote           refid      st t when poll reach   delay   offset  jitter
 3 ==============================================================================
 4  210.72.145.44   .INIT.          16 u    -   64    0    0.000    0.000   0.000
 5  133.100.11.8    .INIT.          16 u    -   64    0    0.000    0.000   0.000
 6 *dns1.synet.edu. 202.118.1.47     2 u   32   64    3   60.058    7.261   6.860
 7  news.neu.edu.cn .INIT.          16 u    -   64    0    0.000    0.000   0.000
 8  202.118.1.130   .INIT.          16 u    -   64    0    0.000    0.000   0.000
 9  42.96.167.209   .INIT.          16 u    -   64    0    0.000    0.000   0.000
10  LOCAL(0)        .LOCL.          10 l   96   64    2    0.000    0.000   0.000
11 [root@linl_S ~]# ntpstat         #列出是否与上游服务器连接。需要过5分钟
12 synchronised to NTP server (202.112.29.82) at stratum 3     #可以看到我们当前在3层
13    time correct to within 257 ms    #ms 毫秒是一种较为微小的时间单位,是一秒的千分之一。
14    polling server every 64 s

4)客户端同步时间

1 [root@linl_C ~]# date -s "2015-5-23 11:30"    #先设置一个错误的时间点
2 Sat May 23 11:30:00 CST 2015
3 [root@linl_C ~]# ntpdate lin_S    #进行ntp时间同步
4 23 May 11:34:10 ntpdate[6686]: step time server 10.0.0.15 offset 31622622.275270 sec
5 [root@linl_C ~]# date             
6 Mon May 23 11:34:16 CST 2016      #时间同步成功
常见错误:如下所示。
其实,这不是一个错误。而是由于每次重启NTP服务器之后大约要3-5分钟客户端才能与server建立正常的通讯连接。当此时用客户端连接服务端就会报这样的信息。一般等待几分钟就可以了。
1 [root@linl_C ~]# ntpdate lin_S
2 23 May 11:38:02 ntpdate[6694]: no server suitable for synchronization found
5)和NTP相关的配置文件
/etc/sysconfig/clock        #这个是linux 的主要时区设定文件。每次开机后,Linux会自动的读取这个文件来设定自己系统所默认要显示的时间。
1 [root@linl_S ~]# cat /etc/sysconfig/clock
2 # The time zone of the system is defined by the contents of /etc/localtime.
3 # This file is only for evaluation by system-config-date, do not rely on its
4 # contents elsewhere.
5 ZONE="Asia/Shanghai"
拓展1:linux系统时间和BIOS时间是不是一定一样?
查看硬件BIOS时间:
hwclock -r    读出BIOS的时间参数
hwclock -w    将当前系统时间写入BIOS中
1 [root@linl_C ~]# date -s "2016-5-22 13:50"
2 Sun May 22 13:50:00 CST 2016
3 [root@linl_C ~]# hwclock -r
4 Mon 23 May 2016 01:53:50 PM CST  -0.110948 seconds
5 [root@linl_C ~]# hwclock -w
6 [root@linl_C ~]# hwclock -r
7 Sun 22 May 2016 01:50:48 PM CST  -0.783098 seconds     #已将系统date时间写入到BIOS时间
拓展2:不同机器之间的时间同步
为了避免主机时间因为长期运作下所导致的时间偏差,进行时间同步(synchronize)的工作是非常必要的。
同步时间,可以使用ntpdate命令,也可以使用ntp服务。
方法一:使用ntpdate 比较简单。格式如下:
1 [root@linl_C ~]# ntpdate lin_S
2 23 May 19:50:44 ntpdate[7507]: step time server 10.0.0.15 offset 1.239826 sec
但这样的同步,只是强制性的将系统时间设置为ntp 服务器时间。只是治标不治本。所以,一般配合cron命令,来进行定期同步设置。比如,在crontab 中添加:
1 [root@linl_C ~]# crontab -e
2 0 12 * * * /usr/sbin/ntpdate lin_S
方法二:使用ntpd 服务进行同步。
要注意的是,ntpd 有一个自我保护设置:如果本机与上源时间相差太大,ntpd 不运行。所以新设置的时间服务器一定要先ntpdate 从上源取得时间初值。然后启动ntpd 服务。
转载自:https://www.cnblogs.com/shanhua-fu/p/9281040.html

TOP命令及Free语义分析(转载)

接触 linux 的人对于 top 命令可能不会陌生(不同系统名字可能不一样,如 IBM 的 aix 中叫 topas ),它的作用主要用来监控系统实时负载率、进程的资源占用率及其它各项系统状态属性是否正常。

下面我们先来看张 top 截图:

(1)系统、任务统计信息:

前 8 行是系统整体的统计信息。第 1 行是任务队列信息,同 uptime 命令的执行结果。其内容如下:

01:06:48 当前时间
up 1:22 系统运行时间,格式为时:分
1 user 当前登录用户数
load average: 0.06, 0.60, 0.48 系统负载,即任务队列的平均长度。三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。

注意:这三个值可以用来判定系统是否负载过高——如果值

持续大于系统 cpu 个数,就需要优化你的程序或者架构了。

(2)进程、 cpu 统计信息:

第 2~6 行为进程和CPU的信息。当有多个CPU时,这些内容可能会超过两行。内容如下:

Tasks: 29 total 进程总数
1 running 正在运行的进程数
28 sleeping 睡眠的进程数
0 stopped 停止的进程数
0 zombie 僵尸进程数
Cpu(s): 0.3% us 用户空间占用CPU百分比
1.0% sy 内核空间占用CPU百分比
0.0% ni 用户进程空间内改变过优先级的进程占用CPU百分比
98.7% id 空闲CPU百分比
0.0% wa 等待输入输出的CPU时间百分比
0.0% hi Hardware IRQ
0.0% si Software IRQ

注:

(1)IRQ: IRQ全称为Interrupt Request,即是“中断请求”的意思。

(2)st(Steal Time):stole time 的缩写,该项指标只对虚拟机有效,表示分配给当前虚拟机的 CPU 时间之中,被同一台物理机上的其他虚拟机偷走的时间百分比

So, relatively speaking, what does this mean? A high steal percentage may mean that you may be outgrowing your virtual machine with your hosting company. Other virtual machines may have a larger slice of the CPU’s time and you may need to ask for an upgrade in order to compete. Also, a high steal percentage may mean that your hosting company is overselling virtual machines on your particular server. If you upgrade your virtual machine and your steal percentage doesn’t drop, you may want to seek another provider. A low steal percentage can mean that your applications are working well with your current virtual machine. Since your VM is not wrestling with other VM’s constantly for CPU time, your VM will be more responsive. This may also suggest that your hosting provider is underselling their servers, which is definitely a good thing.0.0% sisi(Software Interrupts)

(3)最后两行为内存信息:

Mem: 191272k total 物理内存总量
173656k used 使用的物理内存总量
17616k free 空闲内存总量
22052k buffers 用作内核缓存的内存量
Swap: 192772k total 交换区总量
0k used 使用的交换区总量
192772k free 空闲交换区总量
123988k cached 缓冲的交换区总量。
内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖,
该数值即为这些内容已存在于内存中的交换区的大小。
相应的内存再次被换出时可不必再对交换区写入。

PS:如何计算可用内存和已用内存?

除了 free -m 之外,也可以看 top:

Mem:    255592k total,   167568k used,    88024free,    25068k buffers
Swap:   524280k total,        0k used,   524280free,    85724k cached

3.1  实际的程序可用内存数怎么算呢?

The answer is: free + (buffers + cached)

88024k + (25068k + 85724k) = 198816k

3.2  程序已用内存数又怎么算呢?

The answer is: used – (buffers + cached)

167568k – (25068k + 85724k) = 56776k

3.3  怎么判断系统是否内存不足呢?

如果你的 swap used 数值大于 0 ,基本可以判断已经遇到内存瓶颈了,要么优化你的代码,要么加内存。

3.4  buffer 与cache 的区别

A buffer is something that has yet to be “written” to disk. A cache is something that has been “read” from the disk and stored for later use 从应用程序角度来看,buffers/cached 是等于可用的,因为buffer/cached是为了提高文件读写的性能,当应用程序需在用到内存的时候,buffer/cached会很快地被回收。
所以从应用程序的角度来说,可用内存 = 系统free memory + buffers + cached.

buffers是指用来给块设备做的缓冲大小,他只记录文件系统的metadata以及 tracking in-flight pages.
cached是用来给文件做缓冲。
那就是说:buffers是用来存储,目录里面有什么内容,权限等等。
而cached直接用来记忆我们打开的文件,如果你想知道他是不是真的生效,你可以试一下,先后执行两次命令#man X ,你就可以明显的感觉到第二次的开打的速度快很多。

实验:在一台没有什么应用的机器上做会看得比较明显。记得实验只能做一次,如果想多做请换一个文件名。

#free
#man X
#free
#man X
#free
你可以先后比较一下free后显示buffers的大小。
另一个实验:
#free
#ls /dev
#free
你比较一下两个的大小,当然这个buffers随时都在增加,但你有ls过的话,增加的速度会变得快,这个就是buffers/chached的区别。
因为Linux将你暂时不使用的内存作为文件和数据缓存,以提高系统性能,当你需要这些内存时,系统会自动释放(不像windows那样,即使你有很多空闲内存,他也要访问一下磁盘中的pagefiles)

(4)进程信息区:

统计信息区域的下方显示了各个进程的详细信息。首先来认识一下各列的含义。

序号 列名 含义
a PID 进程id
b PPID 父进程id
c RUSER Real user name
d UID 进程所有者的用户id
e USER 进程所有者的用户名
f GROUP 进程所有者的组名
g TTY 启动进程的终端名。不是从终端启动的进程则显示为 ?
h PR 优先级
i NI nice值。负值表示高优先级,正值表示低优先级
j P 最后使用的CPU,仅在多CPU环境下有意义
k %CPU 上次更新到现在的CPU时间占用百分比
l TIME 进程使用的CPU时间总计,单位秒
m TIME+ 进程使用的CPU时间总计,单位1/100秒
n %MEM 进程使用的物理内存百分比
o VIRT 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
p SWAP 进程使用的虚拟内存中,被换出的大小,单位kb。
q RES 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
r CODE 可执行代码占用的物理内存大小,单位kb
s DATA 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
t SHR 共享内存大小,单位kb
u nFLT 页面错误次数
v nDRT 最后一次写入到现在,被修改过的页面数。
w S 进程状态。
D=不可中断的睡眠状态
R=运行
S=睡眠
T=跟踪/停止
Z=僵尸进程
x COMMAND 命令名/命令行
y WCHAN 若该进程在睡眠,则显示睡眠中的系统函数名
z Flags 任务标志,参考 sched.h

(5)查看指定列

默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列。
可以通过下面的快捷键来更改显示内容:

5.1 f 键选择显示内容

通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z 即可显示或隐藏对应的列,最后按回车键确定。

5.2 o 键改变显示顺序

按 o 键可以改变列的显示顺序。按小写的 a-z 可以将相应的列向右移动,而大写的 A-Z 可以将相应的列向左移动。最后按回车键确定。

5.3 F/O 键将进程按列排序

按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。

(6)常用交互命令

从使用角度来看,熟练的掌握这些命令比掌握选项还重要一些。这些命令都是单字母的,如果在命令行选项中使用了s选项,则可能其中一些命令会被屏蔽掉。
Ctrl+L 擦除并且重写屏幕。
h或者? 显示帮助画面,给出一些简短的命令总结说明。
k 终止一个进程。系统将提示用户输入需要终止的进程PID,以及需要发送给该进程什么样的信号。一般的终止进程可以使用15信号;如果不能正常结束那就使用信号9强制结束该进程。默认值是信号15。在安全模式中此命令被屏蔽。
i 忽略闲置和僵死进程。这是一个开关式命令。
q 退出程序。
r 重新安排一个进程的优先级别。系统提示用户输入需要改变的进程PID以及需要设置的进程优先级值。输入一个正值将使优先级降低,反之则可以使该进程拥有更高的优先权。默认值是10。
S 切换到累计模式。
s 改变两次刷新之间的延迟时间。系统将提示用户输入新的时间,单位为s。如果有小数,就换算成m s。输入0值则系统将不断刷新,默认值是5 s。需要注意的是如果设置太小的时间,很可能会引起不断刷新,从而根本来不及看清显示的情况,而且系统负载也会大大增加。
f或者F 从当前显示中添加或者删除项目。
o或者O 改变显示项目的顺序。
l 切换显示平均负载和启动时间信息。
m 切换显示内存信息。
t 切换显示进程和CPU状态信息。
c 切换显示命令名称和完整命令行。
M 根据驻留内存大小进行排序。
P 根据CPU使用百分比大小进行排序。
T 根据时间/累计时间进行排序。
W 将当前设置写入~/.toprc文件中。这是写top配置文件的推荐方法。

(7)最后的技能:top 命令小技巧

1、输入大写P,则结果按CPU占用降序排序。
2、输入大写M,结果按内存占用降序排序。
3、按数字 1 则可以显示所有CPU核心的负载情况。
4、top -d 5    每隔 5 秒刷新一次,默认 1 秒
5、top -p 4360,4358    监控指定进程
6、top -U johndoe    ‘U’为 真实/有效/保存/文件系统用户名。
7、top -u 500    ‘u’为有效用户标识
8、top -bn 1    显示所有进程信息,top -n 1 只显示一屏信息,供管道调用
9、top -M   #show memory summary in megabytes not kilobytes
10、top -p 25097 -n 1 -b    # -b 避免输出控制字符,管道调用出现乱码
11、top翻页:top -bn1 | less
12、增强版的 top:htop ,一个更加强大的交互式进程管理器:

File:Htop.png

附:进程相关基础知识

内存

内存基础

通常包含物理内存和虚拟内存(virtual Memory ),好处是通过物理内存(RAM) 和部分硬盘空间(SWAP )组合增大了总体的内存空间,坏处是由于硬盘部分的虚拟内存的性能有限,并且RAM 和SWAP之间交换增加了系统的负担。 

1.  [phoenix.lif@aliadmin036158 ~]$ free

2.               total       used       free     shared    buffers     cached

3.  Mem:        7680000      7504764       175236            0       490772      3193856

4.  -/+ buffers/cache:     3820136      3859864

5.  Swap:       2096472           88      2096384

其中,Mem :  

(1) Total 为总的物理内存;

(2) Used 表示总计分配给缓存使用的数量(即buffers 和cache ,但可能部分还未实际使用);

(3)Free 表示未被分配的内存;

(4)share 表示共享内存,一般不会使用;

(5)buffers :表示系统分配但未被使用的buffers 数量;

(6)Cached :表示系统分配但未被使用的cache 数量。后面详细说明buffer 和cache 的区别。

-/+ buffers/cache:

(1)Used 表示实际使用的buffers 和cache 总量,即实际使用内存总量;

(2)Free 未被使用的buffer ,cache 及未被分配的内存之和,即系统可用内存。

Swap:  虚拟内存。如果系统物理内存用完了,但是仍有虚拟内存系统仍然可以运行虽然运行很慢;但是如果Swap 也用完了,系统就会发生错误,通常会出现”application is out of memory” 的错误,严重时造成系统死锁。通常Swap 空间分配为物理内存的2-2.5 倍,但也不用完全按照这个标准,如确定内存完全够用也没必要分配太多,我们线上的服务器就没有分配太多的Swap 空间。

tips:

实际可用内存:Free(-/+ buffers/cache) = Free(Mem)+buffers(Mem)+Cached(Mem);

已分配内存:Used(Mem) = Used(-/+ buffers/cache)+ buffers(Mem) + Cached(Mem)

物理内存总大小:total (Mem ) = used(-/+ buffers/cache) + free(-/+ buffers/cache)

Buffers & Cache

在 Linux 的实现中,文件 Cache 分为两个层面,一是 Page Cache ,另一个 Buffer Cache ,每一个Page Cache 包含若干 Buffer Cache 。内存管理系统和 VFS 只与 Page Cache 交互,内存管理系统负责维护每项 Page Cache 的分配和回收。buffer cache 是块设备的读写缓冲区,更靠近存储设备,或者直接就是disk 的缓冲区。

磁盘操作有逻辑级(文件系统)和物理级(磁盘块),这两种缓存分别是缓存逻辑和物理级数据的。如我们进行的是文件系统操作,那么文件被缓存到Page Cache ,如需要刷新文件的时候,Page Cache 将交给Buffer Cache 去完成,因为Buffer Cache 是缓存磁盘块的。即直接去操作文件就是使用Page Cache ,用dd 等命令直接操作磁盘块,就是buffer cache 缓存。

(8)Refer:

http://www.linuxidc.com/Linux/2011-03/33582.htm

http://os.51cto.com/art/201012/240719.htm

http://www.kernelhardware.org/linux-top-command/

http://unix.stackexchange.com/questions/18918/in-linux-top-command-what-are-us-sy-ni-id-wa-hi-si-and-st-for-cpu-usage

http://www.ruanyifeng.com/blog/2011/07/linux_load_average_explained.html

http://www.taobaotest.com/blogs/qa?bid=2265    linux命令free详解

http://blogread.cn/it/article/6386?f=wb    top使用技巧

http://yikebocai.com/2014/11/cpu-load-too-high/    CPU Load过高问题分析和解决方案

https://github.com/oldratlee/useful-scripts    useful-scripts:打印 java 占用资源高的线程

http://newslxw.iteye.com/blog/1495565    一篇很好的linux下内存,IO解析文章

http://alanwu.blog.51cto.com/3652632/1122077    Buffer cache和page cache的区别

http://www.penglixun.com/tech/system/the_diffrents_of_page_cache_and_buffer_cache.html    Page Cache和Buffer Cache的区别

http://csrd.aliapp.com/?p=13    The Page Cache FAQ(v0.1,欢迎补充与拍砖)

http://www.techug.com/4-process-manage-tools    Linux 进程管理之四大名捕

转自:http://blog.chinaunix.net/uid-25776631-id-5784283.html

关于ORACLE的v$process 和v$session 到达最大连接限制的问题

ORA-12520:TNS:监听程序无法为请求的服务器类型找到可用的处理程序

oracle这个错误的意思是  数据库的连接数达到最大值限制。

一、关于v$process v$session的基本知识
Oracle数据库中Session和Connection的区别。
在Oracle的官方文档上,对Session和Connection是这样解释的:
  Connection: Communicate pathway between a client process and an Oracle database instance.

连接:一个客户端进程和Oracle数据库实例之间的通信链路。

Session: A logical entity in the database instance memory that represnts the state of a current user login to a database. A single connection can have 0, 1 or more sessions established on it.
会话:用于展示当前登录到数据库用户的状态的数据库实例内存中的一个逻辑实体。一个单独的连接可以有0,1,或者更多的会话。

Connection并不是直接建立在用户进程和数据库实例之间的。而是在用户进程和Server Process(服务器进程)之间的,因此有一个Connection就一定会有一个用户进程和一个服务器进程。但不一定会存在Session。比如,如果需要将东西从A运到B,Connection可以看成是一座“桥”,而卡车把东西从A运到B后并返回A,这就是Session。所以,只要不断开连接,随时都可以在这个连接上创建出会话。

二、查看v$process v$session的基本信息
查询资源限制的视图的语法:

select * from v$resource_limit;

select * from v$process;

select * from v$session;

select * from v$session t where t.STATUS=’ACTIVE”;

process和session参数最大值估算方法
select round(sum(pga_used_mem)/1024/1024,0) total_used_M, round(sum(pga_used_mem)/count(1)/1024/1024,0) avg_used_M,
round(sum(pga_alloc_mem)/1024/1024,0) total_alloc_M, round(sum(pga_alloc_mem)/count(1)/1024/1024,0) avg_alloc_M from v$process;

三、释放资源
在sqlnet.ora文件中设置expire_time 参数。
可以使用EXPIRE_TIME参数间歇检查异常session并释放process。
官方说明:SQLNET.EXPIRE_TIME
Purpose
Use parameter SQLNET.EXPIRE_TIME to specify a the time interval, in minutes, to send a probe to verify that client/server connections are active. Setting a value greater than 0 ensures that connections are not left open indefinitely, due to an abnormal client termination. If the probe finds a terminated connection, or a connection that is no longer in use, it returns an error, causing the server process to exit. This parameter is primarily intended for the database server, which typically handles multiple connections at any one time.
Limitations on using this terminated connection detection feature are:
It is not allowed on bequeathed connections.
Though very small, a probe packet generates additional traffic that may downgrade network performance.
Depending on which operating system is in use, the server may need to perform additional processing to distinguish the connection probing event from other events that occur. This can also result in degraded network performance.

Recommended Value
10
Example
SQLNET.EXPIRE_TIME=10

这里设置是10分钟,每10分钟Oracle会确认所有session客户端连接是否正常,对于不正常的session,oracle会清理process。

同时,扩大最大连接数,同时Session自动跟着扩大。

–修改最大连接数:

alter system set processes = 500 scope = spfile;

重启数据库:

cmd :sqlplus sys/passw@databasename as sysdba

然后输入以下命令

shutdown immediate;——关闭数据库,大概需要一个小时

startup;–重启数据库,大概几分钟。

重启之后:

select count(*) from v$process    ——从298变成132

select count(*) from v$session    ——从104变成38

但是,在ArcGIS Portal 里面打开一个页面,调用了SDE图层,

上面的连接数字都增加,那么就算设置为最大500,也支撑不来多少用户使用的!!!!????

–查看当前有哪些用户正在使用数据

SELECT osuser, a.username,cpu_time/executions/1000000||’s’,b.sql_text,machine

from v$session a, v$sqlarea b

where a.sql_address =b.address order by cpu_time;

——在ArcGIS Portal 里面打开一个页面,调用了SDE图层,通过以上语句,可以看到SDE用户的连接信息。

就算关闭了浏览器,一段时间依然可以看到这些信息,半个小时后,SDE的连接才消失。

——查询数据库有没有死锁,no row selected 说明没有死锁。

select * from v$locked_object