使用云服务器会遇到的常见问题

导语：现在云服务器是很多用户会选择的网站空间，和传统的服务器相比，云服务器出现的时间相对较短，有些技术性的问题可能还有用户不太清楚，下面我们看一下在使用中，云主机会出现的问题。

Linux云服务器数据盘如何进行分区和格式化
新购买的Linux云服务器，数据盘必须做分区和格式化才能使用，否则是无法正常使用的。Linux云服务器数据盘格式化可以通过脚本格式化和手动格式化两种方式进行。

（1）格式化后，数据盘中的数据会被全部清空。所以在格式化之前，一定要确保数据盘中没有数据或对重要数据已进行备份。

（2）为避免服务发生异常，格式化前请确保云服务器已停止对外服务。

云服务器如何重启
（1）只有状态为“运行中”的服务器，才能够进行重启。

（2）云服务器重启期间，将无法正常提供服务，因此在重启之前，确保云服务器已暂停业务请求。

点击要重启的云服务器后的“重启”按钮，弹出“重启服务器”弹框，确认后点击“确定”，即可进行重启。

运维人员处理云服务器故障的方法总结

我们团队为Ucloud云计算服务提供专家技术支持,每天都要碰到无数的用户故障,毕竟IAAS涉及比较底层的东西,不管设计的是大客户也好还是小客户,有了问题就必须要解决,也要要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档，基本上这过程都会惨痛到让我们留下深刻的记忆。也记录一点心得供各位奋斗在一线的运维人员提供一点帮助

遇到服务器故障，问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手：

一、尽可能搞清楚问题的前因后果
不要一下子就扎到服务器前面，你需要先搞明白对这台服务器有多少已知的情况，还有故障的具体情况。不然你很可能就是在无的放矢。

必须搞清楚的问题有：

故障的表现是什么？无响应？报错？

故障是什么时候发现的？

故障是否可重现？

有没有出现的规律（比如每小时出现一次）

*后一次对整个平台进行更新的内容是什么（代码、服务器等）？

故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)?

基础架构（物理的、逻辑的）的文档是否能找到?

是否有监控平台可用? （比如Munin、Zabbix、 Nagios、 New Relic… 什么都可以）

是否有日志可以查看?. （比如Logstack系统笔记的云日志服务）

*后两个是*方便的信息来源，特别是日志系统,作为运维人员要善于和擅长查看日志,日志往往是你在没有头绪的时候给你*大的帮助,其实很多问题都在日志系统中暴露出来,比较方便的是使用系统笔记

二、有谁在?
$ w
$ last
用这两个命令看看都有谁在线，有哪些用户访问过。这不是什么关键步骤，不过*好别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。（ne cook in the kitchen is enough.）

三、之前发生了什么?
$ history
查看一下之前服务器上执行过的命令。看一下总是没错的，加上前面看的谁登录过的信息，应该有点用。另外作为admin要注意，不要利用自己的权限去侵犯别人的隐私哦。

到这里先提醒一下，等会你可能会需要更新 HISTTIMEFORMAT 环境变量来显示这些命令被执行的时间。对要不然光看到一堆不知道啥时候执行的命令，同样会令人抓狂的。

四、现在在运行的进程是啥?
$ pstree -a
$ ps aux
这都是查看现有进程的。 ps aux 的结果比较杂乱， pstree -a 的结果比较简单明了，可以看到正在运行的进程及相关用户。

五、监听的网络服务
$ netstat -ntlp
$ netstat -nulp
$ netstat -nxlp
我一般都分开运行这三个命令，不想一下子看到列出一大堆所有的服务。netstat -nalp倒也可以。不过我*不会用 numeric 选项（鄙人一点浅薄的看法：IP 地址看起来更方便）。

找到所有正在运行的服务，检查它们是否应该运行。查看各个监听端口。在netstat显示的服务列表中的PID 和 ps aux 进程列表中的是一样的。

如果服务器上有好几个Java或者Erlang什么的进程在同时运行，能够按PID分别找到每个进程就很重要了。

通常我们建议每台服务器上运行的服务少一点，必要时可以增加服务器。如果你看到一台服务器上有三四十个监听端口开着，那还是做个记录，回头有空的时候清理一下，重新组织一下服务器。

六、CPU 和内存
$ free -m
$ uptime
$ top
$ htop
注意以下问题:

还有空余的内存吗? 服务器是否正在内存和硬盘之间进行swap?

还有剩余的CPU吗? 服务器是几核的? 是否有某些CPU核负载过多了?

服务器*大的负载来自什么地方? 平均负载是多少?

七、硬件
$ lspci
$ dmidecode
$ ethtool
有很多服务器还是裸机状态，可以看一下：

找到RAID 卡 (是否带BBU备用电池?)、 CPU、空余的内存插槽。根据这些情况可以大致了解硬件问题的来源和性能改进的办法。
网卡是否设置好? 是否正运行在半双工状态? 速度是10MBps? 有没有 TX/RX 报错?

八、IO 性能
$ iostat -kx 2
$ vmstat 2 10
$ mpstat 2 10
$ dstat –top-io –top-bio
这些命令对于调试后端性能非常有用。

检查磁盘使用量：服务器硬盘是否已满?

是否开启了swap交换模式 (si/so)?

CPU被谁占用：系统进程? 用户进程? 虚拟机?

dstat 是我的*爱。用它可以看到谁在进行 IO：是不是MySQL吃掉了所有的系统资源? 还是你的PHP进程?

九、挂载点和文件系统
$ mount
$ cat /etc/fstab
$ vgs
$ pvs
$ lvs
$ df -h
$ lsof +D / /* beware not to kill your box */
一共挂载了多少文件系统?

有没有某个服务专用的文件系统? (比如MySQL?)

文件系统的挂载选项是什么： noatime? default? 有没有文件系统被重新挂载为只读模式了？

磁盘空间是否还有剩余?

是否有大文件被删除但没有清空?

如果磁盘空间有问题，你是否还有空间来扩展一个分区？

十、内核、中断和网络
$ sysctl -a | grep …
$ cat /proc/interrupts
$ cat /proc/net/ip_conntrack /* may take some time on busy servers */
$ netstat
$ ss -s
你的中断请求是否是均衡地分配给CPU处理，还是会有某个CPU的核因为大量的网络中断请求或者RAID请求而过载了？

SWAP交换的设置是什么？对于工作站来说swappinness 设为 60 就很好, 不过对于服务器就太糟了：你*好永远不要让服务器做SWAP交换，不然对磁盘的读写会锁死SWAP进程。

conntrack_max 是否设的足够大，能应付你服务器的流量?

在不同状态下(TIME_WAIT, …)TCP连接时间的设置是怎样的？

如果要显示所有存在的连接，netstat 会比较慢，你可以先用 ss 看一下总体情况。

你还可以看一下 Linux TCP tuning 了解网络性能调优的一些要点。

十一、系统日志和内核消息
$ dmesg
$ less /var/log/messages
$ less /var/log/secure
$ less /var/log/auth
查看错误和警告消息，比如看看是不是很多关于连接数过多导致？

看看是否有硬件错误或文件系统错误?

分析是否能将这些错误事件和前面发现的疑点进行时间上的比对。如果你有多台机器,看起来很不方便,可以事先把日志存储在系统笔记的云日志服务器上,支持全文模糊查找,

十二、定时任务
$ ls /etc/cron* + cat
$ for user in $(cat /etc/passwd | cut -f1 -d:); do crontab -l -u $user; done
是否有某个定时任务运行过于频繁?

是否有些用户提交了隐藏的定时任务?

在出现故障的时候，是否正好有某个备份任务在执行？

十三、应用系统日志
这里边可分析的东西就多了, 不过恐怕你作为运维人员是没功夫去仔细研究它的。关注那些明显的问题，比如在一个典型的LAMP（Linux+Apache+Mysql+Perl）应用环境里:

Apache & Nginx; 查找访问和错误日志, 直接找 5xx 错误, 再看看是否有 limit_zone 错误。

这里查看了下,并没有503的,只有403的错误.所以可以跳过

MySQL; 在mysql.log找错误消息，看看有没有结构损坏的表，是否有innodb修复进程在运行，是否有disk/index/query 问题.

PHP-FPM; 如果设定了 php-slow 日志, 直接找错误信息 (php, mysql, memcache, …)，如果没设定，赶紧设定。

Varnish; 在varnishlog 和 varnishstat 里, 检查 hit/miss比. 看看配置信息里是否遗漏了什么规则，使*终用户可以直接***你的后端？

HA-Proxy; 后端的状况如何？健康状况检查是否成功？是前端还是后端的队列大小达到*大值了？

结论
经过这5分钟之后，你应该对如下情况比较清楚了：

在服务器上运行的都是些啥？

这个故障看起来是和 IO/硬件/网络或者系统配置 (有问题的代码、系统内核调优, …)相关。

这个故障是否有你熟悉的一些特征？比如对数据库索引使用不当，或者太多的apache后台进程。

你甚至有可能找到真正的故障源头。就算还没有找到，搞清楚了上面这些情况之后，你现在也具备了深挖下去的条件。继续努力吧！

数组，其中的键通常是字符串。与二叉查找树不同，键不是直接保存在节点中，而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀，也就是这个节点对应的字符串，而根节点对应空字符串。

什么是Trie树

Trie树，又叫字典树、前缀树（Prefix Tree）、单词查找树或键树，是一种多叉树结构。如下图：

%title插图%num

上图是一棵Trie树，表示了关键字集合{“a”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”} 。从上图可以归纳出Trie树的基本性质：

根节点不包含字符，除根节点外的每一个子节点都包含一个字符。
从根节点到某一个节点，路径上经过的字符连接起来，为该节点对应的字符串。
每个节点的所有子节点包含的字符互不相同。

通常在实现的时候，会在节点结构中设置一个标志，用来标记该结点处是否构成一个单词（关键字）。

可以看出，Trie树的关键字一般都是字符串，而且Trie树把每个关键字保存在一条路径上，而不是一个结点中。

另外，两个有公共前缀的关键字，在Trie树中前缀部分的路径相同，所以Trie树又叫做前缀树（Prefix Tree）。

Trie树的优缺点

Trie树的核心思想是空间换时间，利用字符串的公共前缀来减少无谓的字符串比较以达到提高查询效率的目的。

优点：

插入和查询的效率很高，都为O(m)O(m)，其中 mm 是待插入/查询的字符串的长度。
关于查询，会有人说 hash 表时间复杂度是O(1)O(1)不是更快？但是，哈希搜索的效率通常取决于 hash 函数的好坏，若一个坏的 hash 函数导致很多的冲突，效率并不一定比Trie树高。
Trie树中不同的关键字不会产生冲突。
Trie树只有在允许一个关键字关联多个值的情况下才有类似hash碰撞发生。
Trie树不用求 hash 值，对短字符串有更快的速度。通常，求hash值也是需要遍历字符串的。
Trie树可以对关键字按字典序排序。

缺点：

当 hash 函数很好时，Trie树的查找效率会低于哈希搜索
空间消耗比较大。

Trie树的应用

1、字符串检索

检索/查询功能是Trie树*原始的功能。思路就是从根节点开始一个一个字符进行比较：

如果沿路比较，发现不同的字符，则表示该字符串在集合中不存在。
如果所有的字符全部比较完并且全部相同，还需判断*后一个节点的标志位（标记该节点是否代表一个关键字）。

struct trie_node
{
bool isKey; // 标记该节点是否代表一个关键字
trie_node *children[26]; // 各个子节点
};

2、词频统计

Trie树常被搜索引擎系统用于文本词频统计。

struct trie_node
{
int count; // 记录该节点代表的单词的个数
trie_node *children[26]; // 各个子节点
};

思路：为了实现词频统计，我们修改了节点结构，用一个整型变量count来计数。对每一个关键字执行插入操作，若已存在，计数加1，若不存在，插入后count置1。

注意：*、第二种应用也都可以用 hash table 来做。

3、字符串排序

Trie树可以对大量字符串按字典序进行排序，思路也很简单：遍历一次所有关键字，将它们全部插入trie树，树的每个结点的所有儿子很显然地按照字母表排序，然后先序遍历输出Trie树中所有关键字即可。

4、前缀匹配

例如：找出一个字符串集合中所有以ab开头的字符串。我们只需要用所有字符串构造一个trie树，然后输出以a->b->开头的路径上的关键字即可。

trie树前缀匹配常用于搜索提示。如当输入一个网址，可以自动搜索出可能的选择。当没有完全匹配的搜索结果，可以返回前缀*相似的可能。

5、作为其他数据结构和算法的辅助结构

如后缀树，AC自动机等。

Trie树的实现

这里为了方便，我们假设所有的关键字都由 a-z 的字母组成。

下面是 trie 树的一种典型实现：

#include <iostream>
#include <string>
using namespace std;
#define ALPHABET_SIZE 26
typedef struct trie_node
{
int count; // 记录该节点代表的单词的个数
trie_node *children[ALPHABET_SIZE]; // 各个子节点
}*trie;
trie_node* create_trie_node()
{
trie_node* pNode = new trie_node();
pNode->count = 0;
for(int i=0; i<ALPHABET_SIZE; ++i)
pNode->children[i] = NULL;
return pNode;
}
void trie_insert(trie root, char* key)
{
trie_node* node = root;
char* p = key;
while(*p)
{
if(node->children[*p-‘a’] == NULL)
{
node->children[*p-‘a’] = create_trie_node();
}
node = node->children[*p-‘a’];
++p;
}
node->count += 1;
}
/**
* 查询：不存在返回0，存在返回出现的次数
*/
int trie_search(trie root, char* key)
{
trie_node* node = root;
char* p = key;
while(*p && node!=NULL)
{
node = node->children[*p-‘a’];
++p;
}
if(node == NULL)
return 0;
else
return node->count;
}
int main()
{
// 关键字集合
char keys[][8] = {“the”, “a”, “there”, “answer”, “any”, “by”, “bye”, “their”};
trie root = create_trie_node();
// 创建trie树
for(int i = 0; i < 8; i++)
trie_insert(root, keys[i]);
// 检索字符串
char s[][32] = {“Present in trie”, “Not present in trie”};
printf(“%s — %s\n”, “the”, trie_search(root, “the”)>0?s[0]:s[1]);
printf(“%s — %s\n”, “these”, trie_search(root, “these”)>0?s[0]:s[1]);
printf(“%s — %s\n”, “their”, trie_search(root, “their”)>0?s[0]:s[1]);
printf(“%s — %s\n”, “thaw”, trie_search(root, “thaw”)>0?s[0]:s[1]);
return 0;
}

对于Trie树，我们一般只实现插入和搜索操作。这段代码可以用来检索单词和统计词频。

博文链接：

blog.csdn.net/lisonglisonglisong/article/details/45584721

近几年，随着互联网的高速发展和科技的不断进步，中国云计算市场也已经初具规模。云计算作为一种新兴的应用计算机技术，除了提供计算服务外，还提供了存储服务，当所有的计算行为和数据存储都暴露在聚散无形、虚无缥缈的云中的时候，这就必然会涉及到个人、企业或机构的隐私数据，会引起人们的恐慌。云技术的兴起，使人类在互联网的发展到达了又一巅峰，然而，“云”也是一把双刃剑。在信息时代，“信息”是至关重要的，隐私信息泄露无孔不入。因此，基于互联网的云计算服务也存在一定的安全问题。

那么，云计算到底存在着哪些安全问题呢?

1、数据丢失：这是由于云计算中对数据的安全控制力度不够，API访问权限控制或密钥生成、存储和管理方面的不足造成的，此外，还可能缺乏必要的数据销毁政策。

2、共享技术漏洞：由于错误配置造成的严重影响。

3、使用证书和认证体系：数据泄露等安全事件的攻击的源头经常是简单身份认证体系、弱口令和简单的密钥或证书系统，而人员工作内容变更或者离开部门时经常忘记移除相应的用户权限。

4、内奸：云计算服务供应商的内部工作人员评估不足。

5、账户、服务和通信劫持：很多数据、应用程序和资源都集中在云计算中，云计算的身份验证机制薄弱，容易产生入侵威胁。

6、不安全的应用程序接口：在开发应用程序方面，企业不够严格的审核过程。

7、没有正确运用云计算：在运用方面，技术人员的操作比不上黑客入侵技术。

8、未知的风险：长期的透明度问题，一直困扰着云服务供应商，帐户用户仅使用前端界面，他们不知道他们的供应商使用的是哪种平台或者修复水平。

9、账户劫持：网络钓鱼、欺诈和软件存在的漏洞在云环境仍然有效，使用云服务因攻击者可以窃取活动、操作业务和修改数据从而增加攻击面。攻击者也可使用云服务发起其他对外的攻击。

10、APT寄生虫：CSA形象的比喻高级可持续攻击(APT)为“寄生”形式的攻击，攻击行为潜藏入系统占领一处“据点”，缓慢地、长时间小批量窃取数据和其他知识产权的内容。

11、客户端问题：对于客户来说，云安全有网络方面的担忧。有一些反病毒软件在断网之后，性能大大下降。而实际应用当中也不乏这样的情况。由于病毒破坏，网络环境等因素，在网络上一旦出现问题，云技术就反而成了累赘，帮了倒忙。

针对种种云安全问题，我们又该如何解决呢?*重要的就是要正确识别安全威胁，研究开发出正确的威胁消灭方案，与时俱进，适应不断变化的“云安全威胁”。那么，具体要怎么做，接下来小编就跟大家介绍以下几种方法：

1、对保密文件进行加密，有效保护数据;

2、加密电子邮件，有效保证电子邮件的安全，让入侵者无法通过电子邮件窃取私密数据;

3、使用信誉良好的云服务提供商，有效保证云安全;

4、使用自动组织敏感数据的过滤器;

5、对于企业来说，应充分了解内部私有云环境及其安全系统和程序，从中汲取经验;

6、对各种需要IT支持的业务流程进行风险性和重要性的评估;

7、充分了解不同的云模式(公共云、私有云与混合云)以及不同的云类型(SaaS，PaaS，IaaS)，因为它们之间的区别将对安全控制和安全责任产生直接影响，所有企业都应具备针对云的相应观点或策略;

8、严格执行网络安全标准，充分保障云服务的安全。

目前的云计算，主要存在的问题有哪些？

可靠性和责任

可靠性问题。云用户要求云服务商能够提供一个可靠的服务，如果云服务商在实施重大任务的过程中出现严重失误，应该可以按照预期规则明确划分责任。2008年2月15日亚马逊的S3服务中断两小时。虽然随着云计算技术的成熟，服务中断可能性变得越来越小，但是100％的可靠性无法达到。即使服务中断过程非常短暂，但是数据相关完整性可能会被破坏。这种风险由谁承担，是用户、是供应商还是第三方，如保险公司等。

除了服务中断和数据完整性，正确性也存在隐患。许多情况高强度的计算任务无法独立验证结果。例如：金融公司在云端进行大规模模拟，基础硬件设施缺陷可能造成数据损坏，因此得到不正确的结果，这种情况谁应该承担责任？

策略借鉴问题。有学者提出借鉴电信业策略，但云计算和电信通讯不同：*，它不仅是数据，还包含处理指令；二是数据经常在云传输过程中发生变化；第三，云没有通常意义上的“接收者”，计算结果一般传回发送者或者存储在云端。因此，诸多的不同点也导致很难借鉴现有电信法策略。

安全、隐私和匿名

云户云隐私和匿名安全性比其他用户低[12]。为了保护云用户隐私，不仅要对用户数据密切关注，同时对数据也要谨慎处理。企业担心客户数据安全；研究人员担心研究成果被窃取；个人担心个人敏感信息被泄露。但是，这种未经授权就泄露敏感信息在过去已经发生。

共享云介质问题。由于云用户物理基础设施共享使用，敏感信息安全性有很大风险。如个人身份信息，医疗记录，商业秘密、银行记录等。如何确保这些数据安全？目前常用方法是对记录加密，但是也有被破译的危险。

云计算插件问题。不法分子利用云计算实施犯罪活动，如窃取政府密码、破坏公用网网址等。云服务商需要了解用户以确保安全服务，但是一般云用户不同意实际内容被监控。很多公司已经推出基于语境的插件，通过云用户使用的关键字、浏览过的网页，自动学习用户的活动和内容。云用户能接受这样的措施吗？

访问和用户权限

专利权保护。云用户要求在知识产权权利得到保护的前提下能够随时随地访问云，不被云服务商或第三方妨碍。云提供商跟踪使用情况作为一种防止非法活动[12-13]的手段。知识产权和专利会不会也是服务商监控的范围，如何保证其安全性。

公共云接口薄弱。很多美国人依靠公共电脑设施，如公共图书馆[14]。一般的云提供商不提供公共电脑访问服务，虽然目前有的云服务商提供了公共计算机的访问端口，但是很多是不堪重负和技术需求的Web2.0服务。

跨国云访问。很多国家访问和使用云协议标准不同，因此云供应商在软件使用类型和运行能力方面会出现些问题。此外，数据输出规则的不同也会导致云服务提供商被限制对某些国家科学资料的访问。

日期: 2021 年 7 月 20 日