...去“限定”和规划集群资源的合理利用策略和期望状态。同时，很多kubernetes的高级功能，也是基于准入控制器之上进行建设的。 3.常用的准入控制器 1.AlwaysPullImages 总是拉取远端镜像；好处：可以避免本地系统处于非安全状态时，被别人恶意篡改了本地的容器镜像 2.LimitRanger 此准入控制器将确保所有资源请求不会超过namespace级别的LimitRange（定义Pod级别的资源限额，如cpu、mem） 3.ResourceQuota 此准入控制器负责集群的计算资源配额，并确保用户不违反命名空间的ResourceQuota对象中列举的任何约束（定义名称空间级别的配额，如pod数量） 4.PodSecurityPolicy 此准入控制器用于创建和修改pod，并根据请求的安全上下文和可用的Pod安全策略确定是否应该允许它。 4.如何开启准入控制器在kubernetes环境中，你可以使用kube-apiserver命令结合enable-admission-plugins的flag，后面需要跟上以逗号分割的准入控制器清单，如下所示： kube-apiserver --enable-admission-plugins=NamespaceLifecycle,LimitRanger … 5.如何关闭准入控制器同理，你可以使用flag：disable-admission-plugins，来关闭不想要的准入控制器，如下所示： kube-apiserver --disable-admission-plugins=PodNodeSelector,AlwaysDeny … 6.实战：控制器的使用 1.LimitRanger 1)首先，编辑limitrange-demo.yaml文件，我们定义了一个cpu的准入控制器。其中定义了默认值、最小值和最大值等。 apiVersion: v1kind: LimitRangemetadata:name: cpu-limit-rangenamespace: mynsspec:limits:- default: 默认上限cpu: 1000mdefaultRequest:cpu: 1000mmin:cpu: 500mmax:cpu: 2000mmaxLimitRequestRatio: 定义最大值是最小值的几倍，当前为4倍cpu: 4type: Container 2)apply -f之后，我们可以通过get命令来查看LimitRange的配置详情 [root@centos-1 dingqishi] kubectl get LimitRange cpu-limit-range -n mynsNAME CREATED ATcpu-limit-range 2021-10-10T07:38:29Z[root@centos-1 dingqishi] kubectl describe LimitRange cpu-limit-range -n mynsName: cpu-limit-rangeNamespace: mynsType Resource Min Max Default Request Default Limit Max Limit/Request Ratio---- -------- --- --- --------------- ------------- -----------------------Container cpu 500m 2 1 1 4 2.ResourceQuota 1)同理，编辑配置文件resoucequota-demo.yaml，并apply；其中，我们定义了myns名称空间下的资源配额。 apiVersion: v1kind: ResourceQuotametadata:name: quota-examplenamespace: mynsspec:hard:pods: "5"requests.cpu: "1"requests.memory: 1Gilimits.cpu: "2"limits.memory: 2Gicount/deployments.apps: "2"count/deployments.extensions: "2"persistentvolumeclaims: "2" 2)此时，也可以查看到ResourceQuota的相关配置，是否生效 [root@centos-1 dingqishi] kubectl get ResourceQuota -n mynsNAME CREATED ATquota-example 2021-10-10T08:23:54Z[root@centos-1 dingqishi] kubectl describe ResourceQuota quota-example -n mynsName: quota-exampleNamespace: mynsResource Used Hard-------- ---- ----count/deployments.apps 0 2count/deployments.extensions 0 2limits.cpu 0 2limits.memory 0 2Gipersistentvolumeclaims 0 2pods 0 5requests.cpu 0 1requests.memory 0 1Gi 大家可以将生效后的控制器，结合相关pod自行测试资源配额的申请、限制和使用的情况本篇文章为转载内容。原文链接：https://blog.csdn.net/flq18210105507/article/details/120845744。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-25 10:44:03

336

转载

Kubernetes

Kubernetes (k8s) Namespace 中资源配额管理与CPU、内存优化配置实践

...ubernetes中资源配额的管理与优化在Kubernetes（简称k8s）这个强大的容器编排工具中，资源配额管理扮演着至关重要的角色。这东西就像个超级智能小管家，能帮我们在集群资源的使用上把好关、调好度，确保资源不被乱用，防止因为资源耗尽而让服务卡成狗，甚至整个系统玩儿完。本文将深入探讨Kubernetes资源配额的管理与优化策略，并通过实例代码演示如何进行具体配置。 1. Kubernetes资源配额基础概念 ①什么是资源配额？在Kubernetes的世界里，每个Pod都有其资源需求，包括CPU、内存、磁盘空间等。资源配额这个东西，其实就是在Namespace这个层级上给资源设个“上限提醒”，就好比你管理不同的房间（Namespace），每个房间能用多少水电额度，都由你来定。这样一来，在大家共享一个大环境（多租户环境）的时候，既可以保证每个人都能公平合理地使用资源，又能确保整个系统的稳定性和可靠性，不会因为某个房间过度消耗资源而导致其他房间“断水断电”。 ②为什么需要资源配额？ - 防止资源饥饿：确保关键服务不会因其他应用过度消耗资源而受到影响。 - 资源利用率优化：合理分配资源，防止资源浪费，提升集群整体效率。 - 成本控制：在云环境或付费集群中，有效控制资源成本。 2. 设置资源配额 ①定义Namespace级别的资源配额下面是一个简单的YAML配置文件示例，用于为名为my-namespace的Namespace设置CPU和内存的配额： yaml apiVersion: v1 kind: ResourceQuota metadata: name: quota spec: hard: limits.cpu: "2" limits.memory: 2Gi requests.cpu: "1" requests.memory: 1Gi 上述配置意味着该Namespace最多可以同时使用2核CPU和2GB内存，且所有Pod的请求值不能超过1核CPU和1GB内存。 ②持久卷(PersistentVolume)资源配额除了计算资源外，Kubernetes还可以为持久卷设置配额： yaml apiVersion: v1 kind: ResourceQuota metadata: name: storage-quota spec: hard: requests.storage: 10Gi 上述配置指定了该Namespace允许申请的最大存储容量为10GB。 3. 监控和优化资源配额 ①查看资源配额使用情况可以使用kubectl describe resourcequota命令来查看某个Namespace下的资源配额及使用情况： bash kubectl describe resourcequota quota -n my-namespace ②资源配额优化策略 - 根据实际业务需求调整配额，定期审查并更新资源限制以适应变化。 - 使用Horizontal Pod Autoscaler (HPA)自动根据负载动态调整Pod数量和资源请求，实现更精细的资源管理和优化。 4. 深入思考与探讨资源配额管理并非一次性配置后就可高枕无忧，而是需要结合实际情况持续观察、分析与优化。比如，在一个热火朝天的开发环境里，可能经常会遇到需要灵活调配各个团队或者不同项目之间的资源额度；而在咱们的关键生产环节，那就得瞪大眼睛紧盯着资源使用情况，及时发现并避免出现资源紧张的瓶颈问题。此外，合理的资源配额管理不仅能保障服务稳定运行，也能培养良好的资源利用习惯，推动团队更加关注服务性能优化和成本控制。这就像是我们在日常生活中，精打细算、巧妙安排，既要确保日子过得美滋滋的，又能把钱袋子捂得紧紧的，让每一分钱都像一把锋利的小刀，切在最需要的地方。总之，掌握Kubernetes资源配额的管理与优化技巧，对于构建健壮、高效的容器化微服务架构至关重要。经过实实在在地动手实践，加上不断摸爬滚打的探索，我们就能更溜地掌握这个强大的工具，让它变成我们业务发展路上不可或缺的好帮手。

2023-12-27 11:05:05

132

岁月静好

Kubernetes

Kubernetes (K8s) 节点资源不足问题应对：监控诊断、资源配额调整、HPA与集群扩容实践

...rnetes中的节点资源不足问题？在Kubernetes（简称K8s）的集群环境中，我们可能会遇到一个常见的挑战：节点资源不足。当Pod的需求量超过了节点能承受的极限，那可不只是Pod可能无法正常安排工作那么简单，更会影响到整个系统的健康状况和运行效率，就像一个仓库堆满了货物，不仅新货进不来，连仓库整体的运转速度和稳定性都会大打折扣。这篇东西，咱们会一步步掰碎了讲，搭配上实实在在的代码例子，一起研究下怎么搞定这个问题。而且啊，我还会尽量让它读起来更有“人味儿”，让你能感受到解决问题时像人在思考一样的过程。 1. 监控与诊断首先，我们需要明确一个问题：“节点真的资源不足吗？” 这就需要我们借助于Kubernetes内置的监控工具进行实时诊断。例如，我们可以使用kubectl describe node 命令来查看某个节点的详细状态，包括CPU、内存以及磁盘等资源的使用情况： bash kubectl describe node my-node 从输出的信息中，我们可以直观地看到当前节点的资源分配状况，了解是否存在过度使用或浪费资源的现象。 2. 调整资源配额如果确认是资源不足，我们可以考虑优化已有Pod的资源配置，或者为节点设置合适的资源配额限制。例如，通过编辑Deployment或直接修改Pod的yaml配置文件，可以调整容器的CPU和内存请求及限制： yaml apiVersion: apps/v1 kind: Deployment metadata: name: my-app spec: replicas: 3 template: spec: containers: - name: my-container image: my-image resources: requests: cpu: "0.5" memory: "512Mi" limits: cpu: "1" memory: "1Gi" 这样既能确保Pod有充足的资源运行，又能防止单个Pod过度消耗资源，导致其他Pod无法调度。 3. 扩容节点或集群对于长期存在的资源瓶颈，扩容节点可能是最直接有效的解决方案。根据实际情况，我们有两个灵活的选择：要么给现有的集群添几个新节点，让它们更热闹些；要么就直接把已有节点的规格往上提一提，让它们变得更加强大。以下是一个创建新节点实例的示例： bash 假设你正在使用GCP gcloud compute instances create new-node \ --image-family ubuntu-1804-lts \ --image-project ubuntu-os-cloud \ --machine-type n1-standard-2 \ --scopes cloud-platform \ --subnet default 然后，你需要将这个新节点加入到Kubernetes集群中，具体操作取决于你的集群管理方式。例如，在Google Kubernetes Engine (GKE) 中，新创建的节点会自动加入集群。 4. 使用Horizontal Pod Autoscaler (HPA) 除了手动调整，我们还可以利用Kubernetes的自动化工具——Horizontal Pod Autoscaler (HPA)，根据实际负载动态调整Pod的数量。例如： bash 创建HPA对象，针对名为my-app的Deployment，目标CPU利用率保持在50% kubectl autoscale deployment my-app --cpu-percent=50 --min=1 --max=10 这段命令会创建一个HPA，它会自动监控"my-app" Deployment的CPU使用情况，当CPU使用率达到50%时，开始增加Pod数量，直到达到最大值10。结语处理Kubernetes节点资源不足的问题，需要我们结合监控、分析和调整策略，同时善用Kubernetes提供的各种自动化工具。在整个这个流程里，持续盯着并摸清楚系统的运行状况可是件顶顶重要的事。为啥呢？因为只有真正把系统给琢磨透了，咱们才能做出最精准、最高效的决定，一点儿也不含糊！记住啊，甭管是咱们亲自上手调整还是让系统自动化管理，归根结底，咱们追求的终极目标就是保证服务能稳稳当当、随时待命。咱得瞅准了，既要让集群资源充分满负荷运转起来，又得小心翼翼地躲开资源紧张可能带来的各种风险和麻烦。

2023-07-23 14:47:19

115

雪落无痕

转载文章

[转载]Neighbor2Neighbor源码解读

...e() else 'cpu')net = UNet().to(device)net.load_state_dict(torch.load(model_path, map_location=device))net.eval()noise_adder = AugmentNoise(style='gauss25')img = Image.open('validation/Kodak/000014.jpg')im = np.array(img, dtype=np.float32) / 255.0origin255 = im.copy()origin255 = origin255.astype(np.uint8)noisy_im = noise_adder.add_valid_noise(im)H = noisy_im.shape[0]W = noisy_im.shape[1]val_size = (max(H, W) + 31) // 32 32noisy_im = np.pad(noisy_im,[[0, val_size - H], [0, val_size - W], [0, 0]],'reflect')transformer = transforms.Compose([transforms.ToTensor()])noisy_im = transformer(noisy_im)noisy_im = torch.unsqueeze(noisy_im, 0)noisy_im = noisy_im.cuda()with torch.no_grad():prediction = net(noisy_im)prediction = prediction[:, :, :H, :W]prediction = prediction.permute(0, 2, 3, 1)prediction = prediction.cpu().data.clamp(0, 1).numpy()prediction = prediction.squeeze()pred255 = np.clip(prediction 255.0 + 0.5, 0, 255).astype(np.uint8)Image.fromarray(pred255).convert('RGB').save('test1.png') 输入图像尺寸大小为(408, 310)，PIL读入后进行归一化处理。 img = Image.open('validation/Kodak/00001.jpg')print('img', img.size) img (408, 310)im = np.array(img, dtype=np.float32) / 255.0print('im', im.shape) im (310, 408, 3) 先对不规则图像进行填充，要求填充的尺寸是32的倍数，否则输入到网络中会报错。在训练的时候是随机裁剪256256的切片的。 b = torch.rand(1, 3, 255, 255).to('cuda')a = net(b)print(a.shape) 在卷积神经网络中，为了避免因为卷积运算导致输出图像缩小和图像边缘信息丢失，常常采用图像边缘填充技术，即在图像四周边缘填充0，使得卷积运算后图像大小不会缩小，同时也不会丢失边缘和角落的信息。在Python的numpy库中，常常采用numpy.pad()进行填充操作。 val_size = (max(H, W) + 31) // 32 32noisy_im = np.pad(noisy_im,[[0, val_size - H], [0, val_size - W], [0, 0]],'reflect') ‘reflect’，表示对称填充。上图转自 http://t.zoukankan.com/shuaishuaidefeizhu-p-14179038.html >>> a = [1, 2, 3, 4, 5]>>> np.pad(a, (2, 3), 'reflect')array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2]) 个人感觉使用reflect操作，而不是之间的填充0是为了在边缘去噪的时候更平滑一些。镜像填充后的图如下：输入网络后，得到预测结果。最后进行裁剪，得到去噪后的图像。 prediction = prediction[:, :, :H, :W] 本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_42948594/article/details/124712116。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-13 14:44:26

128

转载

ElasticSearch

elasticsearch与普通数据库在全文索引下的技术选择以及存储库&索引库的延伸

...。但如果你不差机器资源，可以搭建上述架构，app的日志会被收集到elasticsearch中，最终你可以在kibana中查看日志，kibana里面可以很方面的做各种筛查操作。这个流畅大概是这样的： 3.2 通用搜索场景但是没有上图的beats、logstash、kibana，elasticsearch可以自己工作吗？完全可以的！ elasticsearch也支持单机部署，数据规模不是很大的情况下，表现也是不错的。所以，你也不用担心因为自己机器资源不够而对elasticsearch望而却步。当然，单机部署的情况下，更多的适合自己玩，对于可靠性的要求就不能太苛刻了。如果你在用宝塔，那你可以在宝塔面板，左侧“软件商店”中直接找到elasticsearch，并“没有痛苦”的安装。本篇文章主要讨论选型，所以不涉及安装细节。 3.2.1 性能顾虑上面提到了“表现”，其实性能只是elasticsearch的一个方面，主要你的机器资源足够（机器资源？对，包括你的机器个数，elasticsearch可以非常方便的横向扩展，以及单机的配置，cpu+内存，内存越高越好，elasticsearch比较吃内存！），它一定会给你很好的性能反应。试想，公司里的app打印线上日志的行数其实可比一般业务系统产生的订单数量要大很多很多，elasticsearch都可以常在日志的实时分析，所以如果你要做通用场景，而且机器资源不是问题，这是完全行得通的。 3.2.2 易用性和可玩性此外，在使用elasticsearch的时候，会有很多的可玩性。这里不引经据典，呈现很多elasticsearch官方文章的列举优秀特性（当然，确实很优秀！）。这里举几个例子：（1）中文分词：第一章提到的其它引擎几乎很难实现，elasticsearch对分词器的支持是原生的，因为elasticsearch天生就为全文索引而生，elasticsearch的汉语名字就是“弹性搜索”。这家伙可是专门搞搜索的！有的朋友可能不了解分词器，比如你的一个字段里存储“今天我要吃冰激凌”，在分词器的加持下，es最终会存储为“今天|我|要|吃|冰激凌”，并且使用倒排索引的形式进行存储。当你搜索“冰激凌”的时候，可以很快的反馈回来。关于elasticsearch的原理，这里不展开说明，分词器和倒排索引是elasticsearch的最基本的概念。如果有不了解的朋友，可以自行百度一下。而且这两个概念，与elasticsearch其实不挂钩，是搜索中的通用概念。关于倒排索引，其核心表现如下图：如果你要用mysql、mongo实现中文分词，这......其实挺麻烦的，可能在后面的版本支持中会实现的很好，但在当前的流行版本中，它们对中文分词是不够友好的。 mysql5.7之后支持外挂第三方分词器，支持中文分词。而在数据量较大的情况下，mysql的多机器部署几乎很难实现，elasticsearch可以很容易的水平扩展。 mongo支持西方语言的分词，但不支持中文、日语、汉语等东方语言，你需要在自己的逻辑代码中实现分词器。 ngram分词，你看看效果：依旧是“今天我要吃冰激凌”，ngram二元分词后即将得到结果“今天、天我、我要、要吃、吃冰、冰激、激凌”。这....，那你搜索冰激凌就搜不出来！咋办呢，当然可以使用三元分词。但是更好的解决方案还是中文分词器，但它们原生并不支持的。（2）自定义排名场景：比如你的搜索“冰激凌”，结果中返回了有10条，这10条应该有你想对它指定的顺序。最简单的就是用默认的得分，但是如果你想人为干预这个得分怎么办？ elasticsearch支持function_score功能（可以不用，这个是增强功能），es会在计算最终得分之前回调这个你指定的function_score回调函数，传入原始得分、行的原始数据，你可以在里面做计算，比如查询其它参考表、或查看是否是广告位，以得到新的score返回给用户。 function_scrore的功能不展开描述，是一个在自定义得分场景下十分有用又简单易用的功能！下面是一个使用示例，不仅如此，它是支持自定义函数的，自由度非常高。（3）文本高亮：你用mysql或mongo也可以实现，比如用户搜索“冰激凌”，你只需要在逻辑代码中对“冰激凌”替换为“<span class='highlight-term'>冰激凌</span>”，然后前端做样式即可。但如果用户搜索了“好吃的冰激凌”咋办呢？还有就是英文大小写的场景，用户搜索"MAIN"，那结果及时匹配到了“main”（小写的），这个单词是否应该高亮呢？也许这时候你会用业务代码实现toLowerCase下基于位置下标的匹配。挺麻烦的吧，elasticsearch，自动可以返回高亮字段！并且可以自由指定高亮的html前后标签。（4）实在太多了....这家伙天生为索引而生，而且版本还在不断地迭代。不差机器的话，用用吧！ 4. 退而求其次 4.1 普通数据库尽管elasticsearch在搜索场景下，是非常好用的利器！但是它比较消耗机器资源，如果你的数据规模并不大，而且想快速实现功能。你可以使用mysql或mongo来代替，完全没有问题。技术是为了解决特定业务场景下的问题，结合当前手头的资源，适合自己的才是最好的。也许你搞了一个单机器的elasticsearch，单机器内存只有2G，它的表现并不会比mysql、mongo来的好。当然，如果你为了使用上边提到的一些优秀的独有的特性，那elasticsearch一定还是最佳选择！对于mysql（关系型数据库）和mongo（文档数据库）的区别这里不展开描述了，但对于搜索而言，两种都合适。有时候选型也不用很纠结，其实都是差不太多的东西，适合自己的、自己熟悉的、运维起来顺手的，就是最好的。 4.2 普通数据库实现中文分词搜索的原理尽管mysql在5.7以后支持外挂第三方分词器，mongo在截止目前的版本中也不支持中文分词（你可能会看到一些文章中说可以指定language为chinese，但其实会报错的）。其实当你选择普通数据库，你就不得不在逻辑代码中自己实现一套索引分词+搜索分词逻辑。索引分词+搜索分词？为什么分开写，如果你有用过elasticsearch或solr，你会知道，在指定字段的时候，需要指定index分词器和search分词器。下面以mongo为例做简要说明。 4.2.1 index分词器意思是当数据“索引”截断如何分词。首先，这里必须要承认，数据之后存储了，才能被查询。在搜索中，这句话可以换成是“数据只有被索引了，才能被搜索”。这时候请求打过来了，要索引一条数据，其中某字段是“今天我要吃冰激凌”，分词后得到“今天|我|要|吃|冰激凌”，这个就可以入库了。如果你使用elasticsearch或solr，这个过程是自动的。如果你使用不支持外观分词器的常规数据库，这个过程你就要手动了，并把分词后的结果用空格分开（最好使用空格，因为西方语言的分词规则就是按空格拆分，以及逗号句号），存入数据库的一个待搜索的字段上。效果如下图：本站的其它博文中有介绍IKAnalyzer：https://www.52itw.com/java/6268.html 4.2.2 search分词器当用户的查询请求打过来，用户输入了“好吃的冰激凌”，分词后得到“好吃|冰激凌”（“的”作为停用词stopwords，被自动忽略了，IKAnalyzer可以指定停用词表）。于是这时候就回去上图的数据库表里面搜索“好吃冰激凌”（与index分词器结果统一，还是用空格分隔）。当然，对于mongo而言，你需要事先开启全文索引db.xxx.ensureIndex({content: "text"})，xxx是集合名，content是字段名，text是全文索引的标识。 mongo搜索的时候用这个语法：db.xxx.find( { $text: { $search: "好吃冰激凌" } },{ score: { $meta: "textScore" } }).sort( { score: { $meta: "textScore" } } ) 4.2.3 索引库和存储库分开为了减少单表的大小，为了让普通的列表查询、普通筛选可以跑的更快，你可以对原有的数据原封不动的做一张表。然后对于搜索场景，再单独对需要被搜索的字段单独拎一张表出来！然后二者之间做增量信号同步或定时差额同步，可能会有延迟，这个就看你能容忍多长时间（悄悄告诉你，elasticsearch也需要指定这个refresh时间，一般是1s到几秒、甚至分钟级。当然，二者的这个时间对饮的底层目的是不一样的）。这样，搜索的时候先查询搜索库，拿到一个指针id的列表，然后拿到指针id的列表区存储里把数据一次性捞出来。当然，也是支持分页的，你查询搜索库其实也是普通的数据库查询嘛，支持分页参数的。 4.3 存储库和索引库的延伸阅读很多有名的开源软件也是使用的存储库与索引库分离的技术方案，如apache atlas： apache atlas对于大数据领域的数据资产元数据管理、数据血缘上可谓是专家，也涉及资产搜索的特性，它的实现思路就是：从搜索库中做搜索、拿到key、再去存储库中做查询。搜索库：上图右下角，可以看到使用的是elasticsearch、solr或lucene，多个选一个存储库：上图左下角，可以看到使用的是Cassandra、HBase或BerkeleyDB，多个选一个虽然apache atlas在只有搜索库或只有存储库的时候也可以很好的工作，但只针对于数据量并不大的场景。搜索库，擅长搜索！存储库，擅长海量存储！搜索库多样化搜索，然后去存储库做点查。当你的数据达到海量的时候，es+hbase也是一种很好的解决方案，不在这里展开说明了。

2024-01-27 17:49:04

537

admin-tim

转载文章

[转载]项目维护几年了，为啥还这么卡？

...度以及Binder，CPU，GPU方面等JVM以及FrameWork相关知识如果能做好卡顿优化，那么也就间接证明你对Android FrameWork的理解之深。接下来我们就来讲解下卡顿方面的知识。什么是卡顿：对用户来讲就是界面不流畅，滞顿。场景如下： 1.视频加载慢，画面卡顿，卡死，黑屏 2.声音卡顿，音画不同步。 3.动画帧卡顿，交互响应慢 4.滑动不跟手，列表自动更新，滚动不流畅 5.网络响应慢，数据和画面展示慢、 6.过渡动画生硬。 7.界面不可交互，卡死，等等现象。卡顿是如何发生的卡顿产生的原因一般都比较复杂，如CPU内存大小，IO操作，锁操作，低效的算法等都会引起卡顿。站在开发的角度看：通常我们讲，屏幕刷新率是60fps，需要在16ms内完成所有的工作才不会造成卡顿。为什么是16ms，不是17，18呢？下面我们先来理清在UI绘制中的几个概念： SurfaceFlinger： SurfaceFlinger作用是接受多个来源的图形显示数据Surface，合成后发送到显示设备,比如我们的主界面中：可能会有statusBar，侧滑菜单，主界面，这些View都是独立Surface渲染和更新，最后提交给SF后，SF根据Zorder，透明度，大小，位置等参数，合成为一个数据buffer，传递HWComposer或者OpenGL处理，最终给显示器。在显示过程中使用到了bufferqueue，surfaceflinger作为consumer方，比如windowmanager管理的surface作为生产方产生页面，交由surfaceflinger进行合成。 VSYNC Android系统每隔16ms发出VSYNC信号，触发对UI进行渲染，VSYNC是一种在PC上很早就有应用，可以理解为一种定时中断技术。 tearing 问题：早期的 Android 是没有 vsync 机制的，CPU 和 GPU 的配合也比较混乱，这也造成著名的 tearing 问题，即 CPU/GPU 直接更新正在显示的屏幕 buffer 造成画面撕裂。后续 Android 引入了双缓冲机制，但是 buffer 的切换也需要一个比较合适的时机，也就是屏幕扫描完上一帧后的时机，这也就是引入 vsync 的原因。早先一般的屏幕刷新率是 60fps，所以每个 vsync 信号的间隔也是 16ms，不过随着技术的更迭以及厂商对于流畅性的追求，越来越多 90fps 和 120fps 的手机面世，相对应的间隔也就变成了 11ms 和 8ms。 VSYNC信号种类： 1.屏幕产生的硬件VSYNC：硬件VSYNC是一种脉冲信号，起到开关和触发某种操作的作用。 2.由SurfaceFlinger将其转成的软件VSYNC信号，经由Binder传递给Choreographer Choreographer：编舞者，用于注册VSYNC信号并接收VSYNC信号回调，当内部接收到这个信号时最终会调用到doFrame进行帧的绘制操作。 Choreographer在系统中流程：如何通过Choreographer计算掉帧情况：原理就是: 通过给Choreographer设置FrameCallback，在每次绘制前后看时间差是16.6ms的多少倍，即为前后掉帧率。使用方式如下： //Application.javapublic void onCreate() {super.onCreate();//在Application中使用postFrameCallbackChoreographer.getInstance().postFrameCallback(new FPSFrameCallback(System.nanoTime()));}public class FPSFrameCallback implements Choreographer.FrameCallback {private static final String TAG = "FPS_TEST";private long mLastFrameTimeNanos = 0;private long mFrameIntervalNanos;public FPSFrameCallback(long lastFrameTimeNanos) {mLastFrameTimeNanos = lastFrameTimeNanos;mFrameIntervalNanos = (long)(1000000000 / 60.0);}@Overridepublic void doFrame(long frameTimeNanos) {//初始化时间if (mLastFrameTimeNanos == 0) {mLastFrameTimeNanos = frameTimeNanos;}final long jitterNanos = frameTimeNanos - mLastFrameTimeNanos;if (jitterNanos >= mFrameIntervalNanos) {final long skippedFrames = jitterNanos / mFrameIntervalNanos;if(skippedFrames>30){//丢帧30以上打印日志Log.i(TAG, "Skipped " + skippedFrames + " frames! "+ "The application may be doing too much work on its main thread.");} }mLastFrameTimeNanos=frameTimeNanos;//注册下一帧回调Choreographer.getInstance().postFrameCallback(this);} } UI绘制全路径分析：有了前面几个概念，这里我们让SurfaceFlinger结合View的绘制流程用一张图来表达整个绘制流程：生产者：APP方构建Surface的过程。消费者：SurfaceFlinger UI绘制全路径分析卡顿原因：接下来，我们逐个分析，看看都会有哪些原因可能造成卡顿： 1.渲染流程 1.Vsync 调度：这个是起始点，但是调度的过程会经过线程切换以及一些委派的逻辑，有可能造成卡顿，但是一般可能性比较小，我们也基本无法介入； 2.消息调度：主要是 doframe Message 的调度，这就是一个普通的 Handler 调度，如果这个调度被其他的 Message 阻塞产生了时延，会直接导致后续的所有流程不会被触发 3.input 处理：input 是一次 Vsync 调度最先执行的逻辑，主要处理 input 事件。如果有大量的事件堆积或者在事件分发逻辑中加入大量耗时业务逻辑，会造成当前帧的时长被拉大，造成卡顿，可以尝试通过事件采样的方案，减少 event 的处理 4.动画处理：主要是 animator 动画的更新，同理，动画数量过多，或者动画的更新中有比较耗时的逻辑，也会造成当前帧的渲染卡顿。对动画的降帧和降复杂度其实解决的就是这个问题； 5.view 处理：主要是接下来的三大流程，过度绘制、频繁刷新、复杂的视图效果都是此处造成卡顿的主要原因。比如我们平时所说的降低页面层级，主要解决的就是这个问题； 6.measure/layout/draw：view 渲染的三大流程，因为涉及到遍历和高频执行，所以这里涉及到的耗时问题均会被放大，比如我们会降不能在 draw 里面调用耗时函数，不能 new 对象等等； 7.DisplayList 的更新：这里主要是 canvas 和 displaylist 的映射，一般不会存在卡顿问题，反而可能存在映射失败导致的显示问题； 8.OpenGL 指令转换：这里主要是将 canvas 的命令转换为 OpenGL 的指令，一般不存在问题 9.buffer 交换：这里主要指 OpenGL 指令集交换给 GPU，这个一般和指令的复杂度有关 10.GPU 处理：顾名思义，这里是 GPU 对数据的处理，耗时主要和任务量和纹理复杂度有关。这也就是我们降低 GPU 负载有助于降低卡顿的原因； 11.layer 合成：Android P 修改了 Layer 的计算方法 , 把这部分放到了 SurfaceFlinger 主线程去执行, 如果后台 Layer 过多, 就会导致 SurfaceFlinger 在执行 rebuildLayerStacks 的时候耗时 , 导致 SurfaceFlinger 主线程执行时间过长。可以选择降低Surface层级来优化卡顿。 12.光栅化/Display：这里暂时忽略，底层系统行为； Buffer 切换：主要是屏幕的显示，这里 buffer 的数量也会影响帧的整体延迟，不过是系统行为，不能干预。 2.系统负载内存：内存的吃紧会直接导致 GC 的增加甚至 ANR，是造成卡顿的一个不可忽视的因素； CPU：CPU 对卡顿的影响主要在于线程调度慢、任务执行的慢和资源竞争，比如 1.降频会直接导致应用卡顿； 2.后台活动进程太多导致系统繁忙，cpu \ io \ memory 等资源都会被占用, 这时候很容易出现卡顿问题，这种情况比较常见,可以使用dumpsys cpuinfo查看当前设备的cpu使用情况： 3.主线程调度不到 , 处于 Runnable 状态，这种情况比较少见 4.System 锁：system_server 的 AMS 锁和 WMS 锁 , 在系统异常的情况下 , 会变得非常严重 , 如下图所示 , 许多系统的关键任务都被阻塞 , 等待锁的释放 , 这时候如果有 App 发来的 Binder 请求带锁 , 那么也会进入等待状态 , 这时候 App 就会产生性能问题 ; 如果此时做 Window 动画 , 那么 system_server 的这些锁也会导致窗口动画卡顿 GPU：GPU 的影响见渲染流程，但是其实还会间接影响到功耗和发热；功耗/发热：功耗和发热一般是不分家的，高功耗会引起高发热，进而会引起系统保护，比如降频、热缓解等，间接的导致卡顿。如何监控卡顿线下监控：我们知道卡顿问题的原因错综复杂，但最终都可以反馈到CPU使用率上来 1.使用dumpsys cpuinfo命令这个命令可以获取当时设备cpu使用情况，我们可以在线下通过重度使用应用来检测可能存在的卡顿点 A8S:/ $ dumpsys cpuinfoLoad: 1.12 / 1.12 / 1.09CPU usage from 484321ms to 184247ms ago (2022-11-02 14:48:30.793 to 2022-11-02 14:53:30.866):2% 1053/scanserver: 0.2% user + 1.7% kernel0.6% 934/system_server: 0.4% user + 0.1% kernel / faults: 563 minor0.4% 564/signserver: 0% user + 0.4% kernel0.2% 256/ueventd: 0.1% user + 0% kernel / faults: 320 minor0.2% 474/surfaceflinger: 0.1% user + 0.1% kernel0.1% 576/vendor.sprd.hardware.gnss@2.0-service: 0.1% user + 0% kernel / faults: 54 minor0.1% 286/logd: 0% user + 0% kernel / faults: 10 minor0.1% 2821/com.allinpay.appstore: 0.1% user + 0% kernel / faults: 1312 minor0.1% 447/android.hardware.health@2.0-service: 0% user + 0% kernel / faults: 1175 minor0% 1855/com.smartpos.dataacqservice: 0% user + 0% kernel / faults: 755 minor0% 2875/com.allinpay.appstore:pushcore: 0% user + 0% kernel / faults: 744 minor0% 1191/com.android.systemui: 0% user + 0% kernel / faults: 70 minor0% 1774/com.android.nfc: 0% user + 0% kernel0% 172/kworker/1:2: 0% user + 0% kernel0% 145/irq/24-70900000: 0% user + 0% kernel0% 575/thermald: 0% user + 0% kernel / faults: 300 minor... 2.CPU Profiler 这个工具是AS自带的CPU性能检测工具，可以在PC上实时查看我们CPU使用情况。 AS提供了四种Profiling Model配置： 1.Sample Java Methods：在应用程序基于Java的代码执行过程中，频繁捕获应用程序的调用堆栈获取有关应用程序基于Java的代码执行的时间和资源使用情况信息。 2.Trace java methods：在运行时对应用程序进行检测，以在每个方法调用的开始和结束时记录时间戳。收集时间戳并进行比较以生成方法跟踪数据，包括时序信息和CPU使用率。请注意与检测每种方法相关的开销会影响运行时性能，并可能影响性能分析数据。对于生命周期相对较短的方法，这一点甚至更为明显。此外，如果您的应用在短时间内执行大量方法，则探查器可能会很快超过其文件大小限制，并且可能无法记录任何进一步的跟踪数据。 3.Sample C/C++ Functions:捕获应用程序本机线程的示例跟踪。要使用此配置，您必须将应用程序部署到运行Android 8.0（API级别26）或更高版本的设备。 4.Trace System Calls:捕获细粒度的详细信息，使您可以检查应用程序与系统资源的交互方式您可以检查线程状态的确切时间和持续时间，可视化CPU瓶颈在所有内核中的位置，并添加自定义跟踪事件进行分析。在对性能问题进行故障排除时，此类信息可能至关重要。要使用此配置，您必须将应用程序部署到运行Android 7.0（API级别24）或更高版本的设备。使用方式： Debug.startMethodTracing("");// 需要检测的代码片段...Debug.stopMethodTracing(); 优点：有比较全面的调用栈以及图像化方法时间显示，包含所有线程的情况缺点：本身也会带来一点的性能开销，可能会带偏优化方向火焰图：可以显示当前应用的方法堆栈： 3.Systrace Systrace在前面一篇分析启动优化的文章讲解过这里我们简单来复习下： Systrace用来记录当前应用的系统以及应用(使用Trace类打点)的各阶段耗时信息包括绘制信息以及CPU信息等。使用方式： Trace.beginSection("MyApp.onCreate_1");alt(200);Trace.endSection(); 在命令行中： python systrace.py -t 5 sched gfx view wm am app webview -a "com.chinaebipay.thirdcall" -o D:\trac1.html 记录的方法以及CPU中的耗时情况：优点： 1.轻量级，开销小，CPU使用率可以直观反映 2.右侧的Alerts能够根据我们应用的问题给出具体的建议，比如说，它会告诉我们App界面的绘制比较慢或者GC比较频繁。 4.StrictModel StrictModel是Android提供的一种运行时检测机制，用来帮助开发者自动检测代码中不规范的地方。主要和两部分相关： 1.线程相关 2.虚拟机相关基础代码： private void initStrictMode() {// 1、设置Debug标志位，仅仅在线下环境才使用StrictModeif (DEV_MODE) {// 2、设置线程策略StrictMode.setThreadPolicy(new StrictMode.ThreadPolicy.Builder().detectCustomSlowCalls() //API等级11，使用StrictMode.noteSlowCode.detectDiskReads().detectDiskWrites().detectNetwork() // or .detectAll() for all detectable problems.penaltyLog() //在Logcat 中打印违规异常信息// .penaltyDialog() //也可以直接跳出警报dialog// .penaltyDeath() //或者直接崩溃.build());// 3、设置虚拟机策略StrictMode.setVmPolicy(new StrictMode.VmPolicy.Builder().detectLeakedSqlLiteObjects()// 给NewsItem对象的实例数量限制为1.setClassInstanceLimit(NewsItem.class, 1).detectLeakedClosableObjects() //API等级11.penaltyLog().build());} } 线上监控：线上需要自动化的卡顿检测方案来定位卡顿，它能记录卡顿发生时的场景。自动化监控原理：采用拦截消息调度流程，在消息执行前埋点计时，当耗时超过阈值时，则认为是一次卡顿，会进行堆栈抓取和上报工作首先，我们看下Looper用于执行消息循环的loop()方法，关键代码如下所示： / Run the message queue in this thread. Be sure to call {@link quit()} to end the loop./public static void loop() {...for (;;) {Message msg = queue.next(); // might blockif (msg == null) {// No message indicates that the message queue is quitting.return;// This must be in a local variable, in case a UI event sets the loggerfinal Printer logging = me.mLogging;if (logging != null) {// 1logging.println(">>>>> Dispatching to " + msg.target + " " +msg.callback + ": " + msg.what);}...try {// 2 msg.target.dispatchMessage(msg);dispatchEnd = needEndTime ? SystemClock.uptimeMillis() : 0;} finally {if (traceTag != 0) {Trace.traceEnd(traceTag);} }...if (logging != null) {// 3logging.println("<<<<< Finished to " + msg.target + " " + msg.callback);} 在Looper的loop()方法中，在其执行每一个消息（注释2处）的前后都由logging进行了一次打印输出。可以看到，在执行消息前是输出的">>>>> Dispatching to “，在执行消息后是输出的”<<<<< Finished to ",它们打印的日志是不一样的，我们就可以由此来判断消息执行的前后时间点。具体的实现可以归纳为如下步骤： 1、首先，我们需要使用Looper.getMainLooper().setMessageLogging()去设置我们自己的Printer实现类去打印输出logging。这样，在每个message执行的之前和之后都会调用我们设置的这个Printer实现类。 2、如果我们匹配到">>>>> Dispatching to "之后，我们就可以执行一行代码：也就是在指定的时间阈值之后，我们在子线程去执行一个任务，这个任务就是去获取当前主线程的堆栈信息以及当前的一些场景信息，比如：内存大小、电脑、网络状态等。 3、如果在指定的阈值之内匹配到了"<<<<< Finished to "，那么说明message就被执行完成了，则表明此时没有产生我们认为的卡顿效果，那我们就可以将这个子线程任务取消掉。这里我们使用blockcanary来做测试: BlockCanary APM是一个非侵入式的性能监控组件，可以通过通知的形式弹出卡顿信息。它的原理就是我们刚刚讲述到的卡顿监控的实现原理。使用方式： 1.导入依赖 implementation 'com.github.markzhai:blockcanary-android:1.5.0' Application的onCreate方法中开启卡顿监控 // 注意在主进程初始化调用BlockCanary.install(this, new AppBlockCanaryContext()).start(); 3.继承BlockCanaryContext类去实现自己的监控配置上下文类 public class AppBlockCanaryContext extends BlockCanaryContext {....../ 指定判定为卡顿的阈值threshold (in millis), 你可以根据不同设备的性能去指定不同的阈值 @return threshold in mills/public int provideBlockThreshold() {return 1000;}....} 4.在Activity的onCreate方法中执行一个耗时操作 try {Thread.sleep(4000);} catch (InterruptedException e) {e.printStackTrace();} 5.结果：可以看到一个和LeakCanary一样效果的阻塞可视化堆栈图那有了BlockCanary的方法耗时监控方式是不是就可以解百愁了呢，呵呵。有那么容易就好了根据原理：我们拿到的是msg执行前后的时间和堆栈信息，如果msg中有几百上千个方法，就无法确认到底是哪个方法导致的耗时，也有可能是多个方法堆积导致。这就导致我们无法准确定位哪个方法是最耗时的。如图中：堆栈信息是T2的，而发生耗时的方法可能是T1到T2中任何一个方法甚至是堆积导致。那如何优化这块？这里我们采用字节跳动给我们提供的一个方案：基于 Sliver trace 的卡顿监控体系 Sliver trace 整体流程图：主要包含两个方面: 检测方案：在监控卡顿时，首先需要打开 Sliver 的 trace 记录能力，Sliver 采样记录 trace 执行信息，对抓取到的堆栈进行 diff 聚合和缓存。同时基于我们的需要设置相应的卡顿阈值，以 Message 的执行耗时为衡量。对主线程消息调度流程进行拦截，在消息开始分发执行时埋点，在消息执行结束时计算消息执行耗时，当消息执行耗时超过阈值，则认为产生了一次卡顿。堆栈聚合策略：当卡顿发生时，我们需要为此次卡顿准备数据，这部分工作是在端上子线程中完成的，主要是 dump trace 到文件以及过滤聚合要上报的堆栈。分为以下几步： 1.拿到缓存的主线程 trace 信息并 dump 到文件中。 2.然后从文件中读取 trace 信息，按照数据格式，从最近的方法栈向上追溯，找到当前 Message 包含的全部 trace 信息，并将当前 Message 的完整 trace 写入到待上传的 trace 文件中，删除其余 trace 信息。 3.遍历当前 Message trace，按照（Method 执行耗时 > Method 耗时阈值 & Method 耗时为该层堆栈中最耗时）为条件过滤出每一层函数调用堆栈的最长耗时函数，构成最后要上报的堆栈链路，这样特征堆栈中的每一步都是最耗时的，且最底层 Method 为最后的耗时大于阈值的 Method。之后，将 trace 文件和堆栈一同上报，这样的特征堆栈提取策略保证了堆栈聚合的可靠性和准确性，保证了上报到平台后堆栈的正确合理聚合，同时提供了进一步分析问题的 trace 文件。可以看到字节给的是一整套监控方案，和前面BlockCanary不同之处就在于，其是定时存储堆栈，缓存，然后使用diff去重的方式，并上传到服务器，可以最大限度的监控到可能发生比较耗时的方法。开发中哪些习惯会影响卡顿的发生 1.布局太乱，层级太深。 1.1：通过减少冗余或者嵌套布局来降低视图层次结构。比如使用约束布局代替线性布局和相对布局。 1.2：用 ViewStub 替代在启动过程中不需要显示的 UI 控件。 1.3：使用自定义 View 替代复杂的 View 叠加。 2.主线程耗时操作 2.1：主线程中不要直接操作数据库，数据库的操作应该放在数据库线程中完成。 2.2：sharepreference尽量使用apply，少使用commit，可以使用MMKV框架来代替sharepreference。 2.3：网络请求回来的数据解析尽量放在子线程中，不要在主线程中进行复制的数据解析操作。 2.4：不要在activity的onResume和onCreate中进行耗时操作，比如大量的计算等。 2.5：不要在 draw 里面调用耗时函数，不能 new 对象 3.过度绘制过度绘制是同一个像素点上被多次绘制，减少过度绘制一般减少布局背景叠加等方式，如下图所示右边是过度绘制的图片。 4.列表 RecyclerView使用优化，使用DiffUtil和notifyItemDataSetChanged进行局部更新等。 5.对象分配和回收优化自从Android引入 ART 并且在Android 5.0上成为默认的运行时之后，对象分配和垃圾回收（GC）造成的卡顿已经显著降低了，但是由于对象分配和GC有额外的开销，它依然又可能使线程负载过重。在一个调用不频繁的地方（比如按钮点击）分配对象是没有问题的，但如果在在一个被频繁调用的紧密的循环里，就需要避免对象分配来降低GC的压力。减少小对象的频繁分配和回收操作。好了，关于卡顿优化的问题就讲到这里，下篇文章会对卡顿中的ANR情况的处理，这里做个铺垫。如果喜欢我的文章，欢迎关注我的公众号。点击这看原文链接：参考 Android卡顿检测及优化一文读懂直播卡顿优化那些事儿 “终于懂了” 系列：Android屏幕刷新机制—VSync、Choreographer 全面理解！深入探索Android卡顿优化（上）西瓜卡顿 & ANR 优化治理及监控体系建设 5376)] 参考 Android卡顿检测及优化一文读懂直播卡顿优化那些事儿 “终于懂了” 系列：Android屏幕刷新机制—VSync、Choreographer 全面理解！深入探索Android卡顿优化（上）西瓜卡顿 & ANR 优化治理及监控体系建设本篇文章为转载内容。原文链接：https://blog.csdn.net/yuhaibing111/article/details/127682399。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-26 08:05:57

214

转载

Java

Java中join和yield

...、系统栈和局部变量等资源，可以并行执行任务，从而提高程序运行效率和响应能力。 join方法 , 在Java多线程编程中，join方法是Thread类提供的一个关键同步机制。当主线程调用某个子线程的join方法时，主线程将被阻塞（暂停执行），直到所调用join方法的子线程执行完毕。join方法有三个重载版本，可以根据需要让主线程等待指定的时间或者一直等待到子线程结束。 yield方法 , yield是Java中的一个静态native方法，属于Thread类。该方法用于提示当前运行线程主动放弃CPU控制权，进入就绪状态，使得调度器有机会调度其他同优先级的线程执行。然而，实际的线程调度策略取决于操作系统，yield方法并不保证一定会使其他线程得到执行机会，仅仅是一个建议性的操作，并且不会影响线程的锁定状态或其他同步状态。

2023-03-22 08:55:31

355

键盘勇士

Java

JAVA中or和and的用法

...的逻辑分支，从而减少CPU资源消耗，提升用户体验。此外，对于初学者或者进阶开发者来说，理解逻辑运算符在并发编程、函数式编程以及数据库查询语句中的应用也非常重要。例如，在多线程环境下的锁机制实现时，常常会用到逻辑与(&&)来确保多个条件同时满足才进行特定操作，以避免竞态条件的发生；而在SQL查询中，WHERE子句中的AND、OR等逻辑运算符则是构建复杂查询的基础元素。更进一步，逻辑运算符不仅仅局限于二元操作，还有诸如三元运算符（Ternary Operator）和逻辑非（Not Operator）等形式，它们在简化代码结构、增强可读性方面同样发挥着不可忽视的作用。因此，持续探索和实践逻辑运算符在不同编程场景下的应用，将有助于我们编写出更加精炼、高效且易于维护的代码。

2024-02-21 16:05:44

275

码农

Docker

docker性能下降

...体策略后，我们了解到资源管理、存储卷使用和镜像优化是提升容器性能的关键因素。为进一步了解如何在实际应用中更好地解决这些问题，可以关注以下延伸阅读内容：近期，Docker官方团队发布了一篇关于Docker 20.10版本更新的博客文章，其中详细介绍了新版本中针对资源隔离与限制的改进措施，通过cgroups v2实现了更精细的CPU配额控制，并增强了对运行时存储性能的优化。此外，还引入了新的镜像构建工具BuildKit，显著提升了镜像构建速度和效率。与此同时，InfoQ网站上的一篇深度报道聚焦于Kubernetes与Docker Swarm在集群资源调度方面的对比分析，文中引用了多个行业案例，强调合理利用集群管理系统对于有效分配容器资源、避免竞争瓶颈的重要性，这对于大规模部署Docker容器的用户极具参考价值。另外，Cloud Native Computing Foundation（CNCF）社区的一项研究揭示了网络存储解决方案在容器环境中的最新发展动态，如CSI（Container Storage Interface）接口支持下的Amazon EFS、Google Cloud Filestore等云存储服务如何助力企业级用户实现Docker存储卷的高效管理和扩展。综上所述，持续跟进Docker及其生态系统的最新技术动态，结合具体业务场景灵活运用资源管理策略、优化存储配置以及选择合适的镜像构建方案，将有力推动Docker在生产环境中的性能表现和稳定性提升。

2023-04-04 23:17:36

512

算法侠

MySQL

怎么查看mysql执行了多久

...SQL语句用时状况，CPU和内存的消耗情况。使用终端查阅在MySQL终端中，可以使用“\s”命令查阅服务器的状态，包括查询运行时间。 SELECT FROM table_name; \s 执行“\s”命令，即可查阅查询运行时间，并且可以查阅服务器的状态信息。使用Percona工具查阅 Percona是一款专业的MySQL性能改良工具，提供了很多性能改良的工具，特别是Percona Toolkit中的pt-query-digest，可以生成详细的SQL执行统计报告，包括SQL语句的运行时间及其他相关信息。 pt-query-digest /var/log/mysql/mysql-slow.log 执行上述命令，将分析MySQL低效查询日志，并输出详细的SQL执行统计报告。总结学会查阅MySQL执行SQL语句所需时间，是MySQL效能改良的重要一步。我们可以使用SQL语句和终端来查阅，也可以使用专业的Percona工具进行分析，以获得更详细的SQL执行统计报告。

2023-03-20 17:28:08

数据库专家

转载文章

[转载]Linux dirname 命令

...nux中，无论是硬件资源（如CPU、内存）还是软件实体（如用户账户、文件系统），都可以通过相应的命令进行查看、配置和控制，体现了Linux系统的强大灵活性和可操控性。 Shell命令 , Shell命令是Linux系统中一类特殊的命令，它们是由Linux Shell解释器直接支持并执行的命令。Shell是一种命令行界面，为用户提供了一个与操作系统交互的方式。内置Shell命令是指不需要外部程序即可运行的命令，由Shell自身提供，例如本文提到的dirname命令，它就是在大多数Unix-like系统中的Bash或其他Shell环境中内建的一个命令，用来提取文件或目录路径中的目录部分。 dirname命令 , dirname是在Linux和类Unix系统中广泛使用的Shell内置命令，其主要功能是从给定的文件或目录路径中提取出包含目录名称的部分。当用户输入一个完整的路径时（如 /home/user/documents/example.txt），执行dirname命令后（如 dirname /home/user/documents/example.txt），系统将返回该路径中表示目录的部分（即 /home/user/documents）。这个命令在编写脚本处理文件路径、获取父目录或者分析目录结构等方面具有重要作用。

2024-01-07 09:57:24

219

转载

Docker

docker怎么用gpu(docker怎么用镜像启动容器)

...cker默认只能使用CPU进行计算，但是有些应用需要图形处理器等专用硬件来满足其运算需求。以便在Docker中使用图形处理器，首先需要部署兼容图形处理器的Docker运行环境。目前兼容图形处理器的Docker运行环境有两种：Nvidia Docker和Docker with NVIDIA 图形处理器。其中，Nvidia Docker是官方兼容的插件，它可以让Docker容器调用主机上的NvidiaGPU资源，并通过Nvidia驱动程序在容器中使用图形处理器。它可以与Nvidia驱动程序一起使用，并允许容器直接调用图形处理器，从而提升应用的效能。以下是在Docker容器中使用图形处理器的示例，假定已经部署了Nvidia Docker：使用nvidia-docker运行容器 nvidia-docker run -it -v /path/to/your/data:/data your_image_name python your_script.py 这里的your_image_name是你所需的容器镜像的名字，/path/to/your/data是主机上数据档案的路径，your_script.py是执行的脚本。除了Nvidia Docker，Docker with NVIDIA 图形处理器也是一种流行的选择。它是基于Dockers Nvidiasample镜像开发的，可通过Docker Hub获取。以下是在Docker容器中使用图形处理器的示例，假定已经部署了Docker with NVIDIA 图形处理器：使用docker-with-nvidia-gpu运行容器 nvidia-docker run -v /path/to/your/data:/data -it nvidia/cuda:10.0-base nvidia-smi 这里的 /path/to/your/data是主机上数据档案的路径，nvidia/cuda:10.0-base是Docker Hub中的一个包含CUDA运行环境和Nvidia驱动程序的镜像，nvidia-smi是在容器中运行的Nvidia System Management Interface。通过上述两种方法，即可在Docker容器中使用图形处理器，提升应用的计算效率。使用Docker来运行应用，可以让我们轻松地在不同的平台上部署和移动应用，而使用图形处理器可以帮助加速应用的计算，提升其效能。

2023-03-21 08:01:33

543

程序媛

MySQL

怎么理解mysql的分布式

...QL的读写压力，提高CPU、内存等硬件资源使用率，从而达到更高的吞吐量、更高的并发性能。 MySQL的分散式，主要有两种实现方式： 1. MySQL Proxy：MySQL Proxy是一个轻量级的可插入的中间件，用于分发数据库负载，并实现复制和高可用性（HA）。它可以处理大量的并发连接和查询，并能够将这些请求转发到不同的MySQL数据库上。MySQL Proxy提供了可编程性，使其能够扩展和自定义，以适应不同的需求。 2. MySQL Cluster：MySQL Cluster是一个基于InnoDB存储引擎的面向事务的分散式数据库系统。它使用自己的数据节点和数据复制技术，实现平滑的水平扩展，提供高可用性和高可扩展性，支持分散式事务和分区表。MySQL Cluster尤其适合处理实时的在线业务应用，如电信、金融、电子商务等。总之，MySQL的分散式是现代互联网应用的必备技术之一，它可以提高MySQL的可扩展性和高效能，同时也增加了系统的稳定性和可用性。对于需要处理大量读写请求和海量数据存储的应用，MySQL的分散式是一个非常好的解决方案。

2023-02-25 16:35:15

123

逻辑鬼才

Javascript

Chrome DevTools中利用Throttling功能模拟JavaScript应用的性能降低及分析

...性地进行性能优化。 CPU Throttling , CPU Throttling是一种模拟处理器性能限制的技术，在Chrome DevTools中被用来模拟不同设备上的CPU处理能力。当设置为Slow 3G模式时，CPU处理速度会被降低，以模仿网络信号差或硬件性能低下的设备环境，帮助开发者观察和分析应用程序在这种极端条件下的性能表现及瓶颈。 Network Throttling , Network Throttling是Chrome DevTools提供的另一种模拟功能，它允许开发者模拟不同的网络环境条件，如慢速的移动网络连接。通过调整这一参数，开发人员可以模拟在网络带宽受限或者高延迟情况下的资源加载速度，从而评估应用程序在网络状况不佳时的性能表现，并据此优化网络请求策略、资源加载顺序等，提高应用在实际复杂网络环境中的用户体验。

2023-09-06 18:08:19

274

彩虹之上_t

Datax

Datax在大数据处理中应对SQL查询超时：优化查询语句与合理配置硬件资源策略

...致超时。 3. 硬件资源不足如果我们的硬件资源（如CPU、内存等）不足，那么查询的速度就会降低，从而可能导致超时。三、如何解决SQL查询超时的问题 1. 优化SQL语句首先，我们可以尝试优化SQL语句，比如简化查询语句，减少关联查询的数量等，这样可以有效地提高查询速度，避免超时。 sql -- 原始的复杂查询 SELECT FROM tableA JOIN tableB ON tableA.id = tableB.id AND tableA.name = tableB.name; -- 优化后的查询 SELECT FROM tableA JOIN tableB ON tableA.id = tableB.id; 2. 分批查询对于大规模的数据，我们可以尝试分批进行查询，这样可以减轻单次查询的压力，避免超时。 java for (int i = 0; i < totalRows; i += batchSize) { String sql = "SELECT FROM table WHERE id > ? LIMIT ?"; List> results = jdbcTemplate.query(sql, new Object[]{i, batchSize}, new RowMapper>() { @Override public Map mapRow(ResultSet rs, int rowNum) throws SQLException { return toMap(rs); } }); } 3. 提高硬件资源最后，我们还可以考虑提高硬件资源，比如增加CPU核心数，增加内存容量等，这样可以提供更多的计算能力，从而提高查询速度。四、总结总的来说，SQL查询超时是一个常见的问题，我们需要从多个方面来考虑解决方案。不论是手写SQL语句，还是真正去执行这些命令的时候，我们都得留个心眼儿，注意做好优化工作，别让查询超时这种尴尬情况出现。同时呢，我们也得接地气，瞅准实际情况，灵活调配硬件设施，确保有充足的运算能力。这样一来，才能真正让数据处理跑得既快又稳，不掉链子。希望这篇文章能对你有所帮助。

2023-06-23 23:10:05

231

人生如戏-t

Hive

Hive数据库连接超时问题：Apache Hive环境下网络、资源瓶颈与并发查询的解决方案及配置优化

...库连接超时。 2. 资源瓶颈如果服务器资源（如 CPU 或内存）不足，也会影响数据库连接速度，从而导致连接超时。 3. 大量并发查询在高并发情况下，大量的查询请求可能造成数据库服务过载，进而引发连接超时。 4. 参数设置不当 Hive 的一些配置参数可能会影响到连接性能，例如连接超时时间等。三、案例分析以下是一个简单的例子，演示了如何在 HQL 中设置连接超时时间： sql set mapred.job.timeout=3600; -- 设置作业执行超时时间为 1 小时四、解决方案针对以上问题，我们可以采取以下策略来避免或解决数据库连接超时问题： 1. 检查网络状况并优化网络环境确保网络畅通无阻，提高带宽，减少丢包率。 2. 增加服务器资源根据业务需求适当增加服务器硬件资源，提高数据库处理能力。 3. 优化查询语句合理设计和编写查询语句，避免不必要的数据扫描，提高查询效率。 4. 调整 Hadoop 配置修改适当的 Hadoop 配置参数，如增大任务超时时间等。 5. 使用连接池通过使用数据库连接池技术，能够有效地管理和复用数据库连接，降低单次连接成本。五、总结与反思数据库连接超时问题对于大数据项目来说是一种常见的现象，但是只要我们找出问题的根源，就能有针对性地提出解决方案。希望通过本文的分享，大家能对 Hive 数据库连接超时问题有一个更加深入的理解，以便更好地应对类似的问题。六、展望未来随着大数据技术的不断发展和进步，我们可以期待更多优秀的工具和技术涌现出来，帮助我们更好地进行数据处理和分析。同时呢，咱们也得不断跟进学习研究各种新技术，这样才能更好地把这些工具和技术运用起来，解决实际问题。

2023-04-17 12:03:53

515

笑傲江湖-t

Tornado

Tornado服务器无法启动：探究原因与解决之道——依赖包缺失、路径配置错误及系统资源不足问题解析

...法启动。 3. 系统资源不足如果我们的系统资源（如内存、CPU等）不足以支持Tornado服务器的运行，那么服务器也可能无法启动。四、如何解决“Tornado服务器无法启动”的问题？当我们遇到“Tornado服务器无法启动”的问题时，我们应该首先尝试找出具体的原因，然后根据具体情况来解决问题。以下是一些可能的解决方案： 1. 检查依赖包我们可以检查一下是否已经正确安装了所有的依赖包。如果没有，我们就需要安装它们。例如，我们可以通过pip来安装： python pip install tornado 2. 检查路径配置我们需要确保我们的路径配置是正确的。例如，我们可以在代码中这样设置路径： python import os os.chdir("/path/to/your/project") 3. 检查系统资源我们需要确保我们的系统资源足够支持Tornado服务器的运行。要是资源不够使了，咱们可能得考虑升级一下硬件设备，或者把咱们的代码整得更精简些，好让资源能省着点用。五、总结 “Tornado服务器无法启动”是我们经常遇到的一个问题，但是只要我们找到了具体的原因，并采取相应的措施，就可以很容易地解决这个问题。另外呢，咱们也得学点日常的故障排除小窍门儿，这样一旦碰上问题，就能立马找到解冑方案，省得干着急。六、参考资料 [1] Tornado官方文档: [2] Stack Overflow上的相关讨论: 注意：以上内容仅供参考，具体的操作方法需要根据实际情况进行调整。

2023-12-23 10:08:52

156

落叶归根-t

转载文章

[转载]EMCC 删除配置错误的数据库信息以及修改度量METRICS

...类度量指标的阈值，如CPU使用率、内存使用量等，以便及时发现潜在问题并优化系统性能。本文提及了如何在OEM中编辑这些阈值，从而确保对数据库环境有更精准和灵活的监控能力。

2023-07-25 18:45:23

131

转载

Apache Atlas

Apache Atlas性能与运行状态监控实操：基于日志文件、内存使用与CPU占用率的精细化管理

...管理和利用他们的数据资源。不过呢，甭管啥软件系统，运行状态和性能都得时不时地瞅瞅、把把脉，就算是鼎鼎大名的Apache Atlas，也逃脱不了这个“定期体检”的命运哈。本文将详细介绍如何监控Apache Atlas的性能和运行状态。二、Apache Atlas的性能监控 Apache Atlas提供了多种方式来监控其性能，其中最常用的一种方式就是通过监控其操作系统的日志文件。比如，你完全可以去瞅瞅Apache Atlas的那些日志文件，看看它们有没有藏着什么异常状况或者错误信息。另外，你还可以通过瞅瞅Apache Atlas的内存消耗情况和CPU占用比例，实时关注它的运行表现。代码示例： sql !/bin/bash 获取Apache Atlas的内存使用情况 mem_usage=$(cat /proc/$PPID/status | grep VmSize) 获取Apache Atlas的CPU占用率 cpu_usage=$(top -b -n 1 | grep "Apache Atlas" | awk '{print $2}') echo "Apache Atlas的内存使用情况：$mem_usage" echo "Apache Atlas的CPU占用率：$cpu_usage" 这段代码会定时获取Apache Atlas的内存使用情况和CPU占用率，并将其打印出来。你可以根据自己的需求调整这段代码，使其符合你的实际情况。三、Apache Atlas的运行状态监控除了监控Apache Atlas的性能之外，你还需要监控其运行状态。这不仅限于查看Apache Atlas是不是运行得顺顺利利的，还要瞧瞧它有没有闹什么幺蛾子，比如蹦出些错误消息或者警告提示啥的。你可以通过检查Apache Atlas的操作系统日志文件来实现这一目标。代码示例： bash !/bin/bash 检查Apache Atlas是否正在运行 if ps aux | grep "Apache Atlas" > /dev/null then echo "Apache Atlas正在运行" else echo "Apache Atlas未运行" fi 检查Apache Atlas的日志文件 log_file="/var/log/apache-atlas/atlas.log" if [ -f "$log_file" ] then echo "Apache Atlas的日志文件存在" else echo "Apache Atlas的日志文件不存在" fi 这段代码会检查Apache Atlas是否正在运行，以及Apache Atlas的日志文件是否存在。如果Apache Atlas没有运行，那么这段代码就会打印出相应的提示信息。同样，如果Apache Atlas的日志文件不存在，那么这段代码也会打印出相应的提示信息。四、结论总的来说，监控Apache Atlas的性能和运行状态是非常重要的。定期检查这些指标，就像给Apache Atlas做体检一样，一旦发现有“头疼脑热”的小毛病，就能立马对症下药，及时解决，这样就能确保它一直保持健康稳定的运行状态，妥妥地发挥出应有的可靠性。另外，你完全可以根据这些指标对Apache Atlas的配置进行针对性调校，这样一来，就能让它的性能更上一层楼，效率也嗖嗖地提升起来。最后，我建议你在实际应用中结合上述的代码示例，进一步完善你的监控策略。

2023-08-14 12:35:39

449

岁月如歌-t

Apache Solr

Apache Solr实时监控与性能日志记录详细配置：运用JMX与JConsole确保系统稳定性

...发人员监控和管理系统资源（例如内存使用、线程状态、性能计数器等）以及应用程序特有服务的状态和配置。在Solr的场景下，通过启用JMX支持，系统管理员可以实时监控Solr的各项指标，及时发现并解决问题，确保系统的稳定运行。 JConsole , JConsole是Java SDK自带的一款图形化监控工具，用于监测和管理基于Java的应用程序。用户可以通过JConsole连接到运行中的Solr实例，直观地查看和分析其内存、CPU、线程、类加载和MBean等各项性能指标，从而实现对Solr服务器的深入监控与调优。日志级别 , 在软件开发和运维中，日志级别是一个定义了不同重要性信息记录标准的概念。在Solr的配置中，日志级别通常包括DEBUG、INFO、WARN、ERROR等，可以根据实际需求设置不同的日志级别，如在文章中提到将Solr的日志级别设置为“info”，这意味着Solr仅会记录重要信息和错误信息，以避免生成过于冗余的调试信息，同时确保关键事件得以记录。

2023-03-17 20:56:07

473

半夏微凉-t

Tomcat

Tomcat性能瓶颈问题识别与解决：利用VisualVM和JProfiler分析工具进行代码优化与系统参数调整

... 3）接着，可以在"CPU"、"Memory"、"Threads"等选项卡下查看Tomcat的运行状态，从而发现潜在的性能问题。 4. 如何定位性能瓶颈？在发现问题后，我们需要进一步查找具体的性能瓶颈。这通常涉及到对代码的深入理解和分析。比如说，假如我们发现某个方法耗时贼长，那这个方法很可能就是影响整体速度、拖慢效率的“罪魁祸首”。 5. 解决性能瓶颈的方法找到性能瓶颈后，我们就需要寻找解决方案。一般来说，有以下几种方式： 1）优化代码：这是最直接的方式，通过修改代码来提高性能。例如，我们可以考虑使用更高效的算法，减少不必要的计算等。 2）增加硬件资源：如果代码本身没有问题，但是由于硬件资源不足导致性能瓶颈，那么我们可以通过增加硬件资源（如CPU、内存等）来解决问题。 3）调整系统参数：Tomcat有一些配置参数，如maxThreads、minSpareThreads等，这些参数的设置可能会影响Tomcat的性能。我们可以通过调整这些参数来改善性能。 6. 总结在实际应用中，我们经常会遇到性能瓶颈的问题。这个问题初看可能会觉得有点棘手，但实际上呢，只要我们肚子里有足够的墨水，再加上丰富的实战经验，就完全有能力把它给妥妥地搞定。记住啊，性能瓶颈这玩意儿可不是什么无解的难题，它更像是一个等待我们去挖掘、去攻克的小挑战。只要咱发现了，就一定有办法解决掉它。同时，我们也应该意识到，良好的编程习惯和清晰的设计思想是预防性能瓶颈的重要手段。

2023-07-31 10:08:12

342

山涧溪流-t

Apache Lucene

Lucene索引段合并策略详解：搜索效率、TieredMergePolicy与并发优化或 Lucene索引结构下的合并策略选择：提升搜索效率，控制内存占用与并发数量调整

...增加并发数量可能导致CPU资源过度消耗。

2023-03-19 15:34:42

396

岁月静好-t

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

rsync -avz source destination - 在本地或远程之间同步文件夹并保留属性和压缩传输。