...理时，我们经常会遇到内存占用过高的问题。这不仅影响了系统的性能，也大大增加了运维成本。为了解决这个问题，本文将详细介绍如何通过Solr的JVM调优来降低内存占用。二、什么是JVM调优？ JVM调优是指通过对JVM运行环境的设置和调整，优化Java应用程序的运行效率和性能的过程。主要包括以下几个方面： 1. 设置合理的堆内存大小； 2. 调整垃圾收集器的参数； 3. 调整线程池的参数； 4. 配置JVM的其他参数。三、为什么要进行JVM调优？由于Java程序运行时需要大量的内存资源，如果内存管理不当，就会导致内存溢出或者性能下降等问题。所以呢，对JVM进行调优这个操作，就能让Java程序跑得更溜更快，这样一来，甭管业务需求有多高，都能妥妥地满足。四、如何通过Solr的JVM调优降低内存占用？ 1. 设置合理的堆内存大小堆内存是Java程序运行时所需的主要内存资源，也是最容易导致内存占用过高的部分。在Solr中，可以通过修改solr.in.sh文件中的-Xms和-Xmx参数来设置初始和最大堆内存的大小。例如，我们可以将这两个参数的值分别设置为4g和8g，这样就可以为Solr提供足够的内存资源。 bash solr.in.sh export JAVA_HOME=/path/to/java export SOLR_HOME=/path/to/solr export CLASSPATH=$SOLR_HOME/bin/bootstrap.jar:$SOLR_HOME/bin/solr.jar export CATALINA_OPTS="-server -Xms4g -Xmx8g" 2. 调整垃圾收集器的参数垃圾收集器是负责回收Java程序中不再使用的内存的部分。在Solr中，可以通过修改solr.in.sh文件中的-XX:+UseConcMarkSweepGC参数来启用并发标记清除算法，这种算法可以在不影响程序运行的情况下，高效地回收无用内存。 bash solr.in.sh export JAVA_HOME=/path/to/java export SOLR_HOME=/path/to/solr export CLASSPATH=$SOLR_HOME/bin/bootstrap.jar:$SOLR_HOME/bin/solr.jar export CATALINA_OPTS="-server -XX:+UseConcMarkSweepGC" 3. 调整线程池的参数线程池是Java程序中用于管理和调度线程的工具。在使用Solr的时候，如果你想要提升垃圾回收的效率，有个小窍门可以试试。你只需打开solr.in.sh这个配置文件，找到其中关于-XX:ParallelGCThreads的参数，然后对它进行修改，就可以调整并行垃圾收集线程的数量了。这样一来，Solr就能调动更多的“小工”同时进行垃圾清理工作，从而让你的系统运行更加流畅、高效。 bash solr.in.sh export JAVA_HOME=/path/to/java export SOLR_HOME=/path/to/solr export CLASSPATH=$SOLR_HOME/bin/bootstrap.jar:$SOLR_HOME/bin/solr.jar export CATALINA_OPTS="-server -XX:+UseConcMarkSweepGC -XX:ParallelGCThreads=4" 4. 配置JVM的其他参数除了上述参数外，还可以通过其他一些JVM参数来进一步优化Solr的性能。比如说，我们可以调整一个叫-XX:MaxTenuringThreshold的参数，这个参数就像个开关一样，能控制对象从年轻代晋升到老年代的“毕业标准”。这样一来，就能有效降低垃圾回收的频率，让程序运行更加流畅。 bash solr.in.sh export JAVA_HOME=/path/to/java export SOLR_HOME=/path/to/solr export CLASSPATH=$SOLR_HOME/bin/bootstrap.jar:$SOLR_HOME/bin/solr.jar export CATALINA_OPTS="-server -XX:+UseConcMarkSweepGC -XX:ParallelGCThreads=4 -XX:MaxTenuringThreshold=8" 五、结论通过以上的JVM调优技巧，我们可以有效地降低Solr的内存占用，从而提高其运行效率和性能。不过要注意，不同的使用场景可能需要咱们采取不同的优化招数。所以，在实际操作时，我们得像变戏法一样，根据实际情况灵活调整策略，才能把事情做得更漂亮。

2023-01-02 12:22:14

468

飞鸟与鱼-t

MemCache

Memcached服务崩溃引发缓存数据丢失：应对策略与架构设计、数据重建及集群配置实践

...领域久负盛名的分布式内存对象缓存系统，以其快速、简洁的设计赢得了广大开发者的心。然而，在我们尽情享受这波性能飙升带来的快感时，可别忘了有个隐藏的小危机：一旦Memcached服务突然闹脾气挂掉了，那所有的缓存数据就像肥皂泡一样，“砰”一下就消失得无影无踪了。这无疑是对应用连续性和稳定性的一大挑战。本文就以此为主题，通过实例代码和深入探讨，揭示这一问题并提供应对方案。 0 2. Memcached缓存机制及风险揭示 Memcached的工作原理是将用户临时存储在内存中的数据（如数据库查询结果）以键值对的形式暂存，当后续请求再次需要相同数据时，直接从内存中获取，避免了昂贵的磁盘IO操作，从而显著提高了响应速度。不过，因为内存这家伙的特性，一旦这服务闹罢工或者重启了，它肚子里暂存的数据就无法长久保存下来，这样一来，所有的缓存数据可就全都没啦。 python import memcache mc = memcache.Client(['localhost:11211'], debug=0) mc.set('key', 'value') 存储数据到Memcached data = mc.get('key') 从Memcached获取数据上述Python代码展示了如何使用Memcached进行简单的数据存取，但在服务崩溃后，'key'对应的'value'将会丢失。 0 3. 面对Memcached崩溃时的数据丢失困境面对这样的问题，首先我们需要理解的是，这不是Memcached设计上的缺陷，而是基于其内存缓存定位的选择。那么，作为开发者，我们应当如何应对呢？ 03.1 理解并接受首先，我们要理解并接受这种可能存在的数据丢失情况，并在架构设计阶段充分考虑其影响，确保即使缓存失效，系统仍能正常运作。 03.2 数据重建策略其次，建立有效的数据重建策略至关重要。比如，假如我们发现从Memcached这小子那里获取数据时扑了个空，别担心，咱可以灵活应对，重新去数据库这个靠谱的仓库里翻出所需的数据，然后再把这些数据塞回给Memcached，让它满血复活。 python try: data = mc.get('key') except memcache.Error: 当Memcached访问异常时，从数据库重构建缓存数据 db_data = fetch_from_database('key') mc.set('key', db_data) data = db_data 03.3 使用备份和集群另外，Memcached支持多服务器集群配置，通过在多台服务器上分散存储缓存数据，即使某一台服务器崩溃，其他服务器仍然能够提供部分缓存服务，降低整体数据丢失的影响。 03.4 数据持久化探索虽然Memcached本身不支持数据持久化，但社区有一些变通的解决方案，如memcachedb、twemproxy等中间件，它们在一定程度上实现了缓存数据的持久化，不过这会牺牲一部分性能且增加系统复杂性，因此在选择时需权衡利弊。 0 4. 结论与思考尽管Memcached服务崩溃会导致所有缓存数据丢失，但这并不妨碍它在提升系统性能方面发挥关键作用。作为开发者，咱们得充分意识到这个问题的重要性，并且动手去解决它。咱可以想想怎么设计出更合理的架构，重建一下数据策略，再比如利用集群技术和持久化方案这些手段，就能妥妥地应对这个问题了。每一个技术工具都有它自己的“用武之地”和“短板”，关键在于我们如何去洞察并巧妙运用，让它们在实际场景中最大程度地发光发热，发挥出最大的价值。就像一把锤子，不是所有问题都是钉子，但只要找准地方，就能敲出实实在在的效果。每一次遇到挑战，都是一次深度理解技术和优化系统的契机，让我们共同在实践中成长。

2023-09-25 18:48:16

青山绿水

Kubernetes

Kubernetes (k8s) Namespace 中资源配额管理与CPU、内存优化配置实践

...源需求，包括CPU、内存、磁盘空间等。资源配额这个东西，其实就是在Namespace这个层级上给资源设个“上限提醒”，就好比你管理不同的房间（Namespace），每个房间能用多少水电额度，都由你来定。这样一来，在大家共享一个大环境（多租户环境）的时候，既可以保证每个人都能公平合理地使用资源，又能确保整个系统的稳定性和可靠性，不会因为某个房间过度消耗资源而导致其他房间“断水断电”。 ②为什么需要资源配额？ - 防止资源饥饿：确保关键服务不会因其他应用过度消耗资源而受到影响。 - 资源利用率优化：合理分配资源，防止资源浪费，提升集群整体效率。 - 成本控制：在云环境或付费集群中，有效控制资源成本。 2. 设置资源配额 ①定义Namespace级别的资源配额下面是一个简单的YAML配置文件示例，用于为名为my-namespace的Namespace设置CPU和内存的配额： yaml apiVersion: v1 kind: ResourceQuota metadata: name: quota spec: hard: limits.cpu: "2" limits.memory: 2Gi requests.cpu: "1" requests.memory: 1Gi 上述配置意味着该Namespace最多可以同时使用2核CPU和2GB内存，且所有Pod的请求值不能超过1核CPU和1GB内存。 ②持久卷(PersistentVolume)资源配额除了计算资源外，Kubernetes还可以为持久卷设置配额： yaml apiVersion: v1 kind: ResourceQuota metadata: name: storage-quota spec: hard: requests.storage: 10Gi 上述配置指定了该Namespace允许申请的最大存储容量为10GB。 3. 监控和优化资源配额 ①查看资源配额使用情况可以使用kubectl describe resourcequota命令来查看某个Namespace下的资源配额及使用情况： bash kubectl describe resourcequota quota -n my-namespace ②资源配额优化策略 - 根据实际业务需求调整配额，定期审查并更新资源限制以适应变化。 - 使用Horizontal Pod Autoscaler (HPA)自动根据负载动态调整Pod数量和资源请求，实现更精细的资源管理和优化。 4. 深入思考与探讨资源配额管理并非一次性配置后就可高枕无忧，而是需要结合实际情况持续观察、分析与优化。比如，在一个热火朝天的开发环境里，可能经常会遇到需要灵活调配各个团队或者不同项目之间的资源额度；而在咱们的关键生产环节，那就得瞪大眼睛紧盯着资源使用情况，及时发现并避免出现资源紧张的瓶颈问题。此外，合理的资源配额管理不仅能保障服务稳定运行，也能培养良好的资源利用习惯，推动团队更加关注服务性能优化和成本控制。这就像是我们在日常生活中，精打细算、巧妙安排，既要确保日子过得美滋滋的，又能把钱袋子捂得紧紧的，让每一分钱都像一把锋利的小刀，切在最需要的地方。总之，掌握Kubernetes资源配额的管理与优化技巧，对于构建健壮、高效的容器化微服务架构至关重要。经过实实在在地动手实践，加上不断摸爬滚打的探索，我们就能更溜地掌握这个强大的工具，让它变成我们业务发展路上不可或缺的好帮手。

2023-12-27 11:05:05

132

岁月静好

Tomcat

Tomcat性能优化：内存泄漏、线程阻塞及数据库查询效率低下解决方案

...下可能遇到的性能瓶颈问题。例如，阿里巴巴集团旗下的阿里云，在今年发布了全新的ACK One（Alibaba Cloud Container Service for Kubernetes）版本，该版本不仅支持多集群统一管理，还增强了安全性和可观测性。对于使用Tomcat的应用开发者来说，迁移到基于Kubernetes的云原生架构，不仅可以提高应用的稳定性和弹性，还能显著降低运维成本。此外，Spring Boot框架也在不断发展和完善，它与Tomcat紧密结合，提供了一种更加现代化的方式来构建微服务。Spring Boot 3.0版本引入了对Java 17的支持，并改进了内存管理和启动速度，这对于解决Tomcat应用中的内存泄漏和启动缓慢等问题非常有帮助。开发者可以通过升级Spring Boot框架，利用其内置的健康检查、指标收集等功能，更好地监控和调优Tomcat应用的性能。综上所述，通过结合Kubernetes和Spring Boot等现代技术，可以更全面地解决Tomcat应用面临的性能挑战。这不仅是技术发展的趋势，也是企业提高竞争力的关键所在。未来，随着更多新技术的涌现，我们期待看到更多创新性的解决方案来应对这些挑战。

2025-01-07 16:14:31

草原牧歌

Golang

Golang高性能数据库访问：连接池与ORM优化

...咱们会碰到一堆有趣的问题，还能挖出不少值得研究的技术点，挺好玩的！所以，让我们一起开始这段旅程吧！ 1. 理解Golang与数据库交互的基础首先，我们要明白Golang是如何与数据库进行交互的。Go语言以其简洁和高效著称，尤其是在处理并发任务时。说到聊数据库访问，咱们通常就是扯到SQL查询啊，还有怎么管事务，再有就是怎么用连接池这些事儿。 1.1 连接池的重要性连接池是数据库访问中非常关键的一环。它允许我们在不频繁建立新连接的情况下，重用已有的数据库连接，从而提高效率并减少资源消耗。想象一下，如果你每次执行SQL查询都要打开一个新的数据库连接，那效率该有多低啊！ 1.2 SQL查询与ORM 在进行数据库操作时，我们有两种主要的方法：直接编写SQL语句或者使用ORM（对象关系映射）。直接编写SQL语句虽然能够提供更多的控制权，但可能会增加出错的风险。而ORM则通过将数据库表映射到程序中的对象，使得数据操作更加直观。不过，选择哪种方式，还要根据具体的应用场景和个人偏好来决定。 2. 实践篇构建高性能数据库访问现在，让我们进入实践部分。咱们这就来点儿实战教学，用几个小例子带你看看怎么用Go语言搞定又快又稳的数据库操作。 2.1 使用标准库 database/sql Go语言的标准库提供了database/sql包，它是一个用于SQL数据库的通用接口。下面是一个简单的例子： go package main import ( "database/sql" _ "github.com/go-sql-driver/mysql" // 注意这里需要导入MySQL驱动 "fmt" ) func main() { db, err := sql.Open("mysql", "user:password@tcp(127.0.0.1:3306)/dbname") if err != nil { panic(err.Error()) } defer db.Close() // 执行一个简单的查询 rows, err := db.Query("SELECT id, name FROM users") if err != nil { panic(err.Error()) } defer rows.Close() for rows.Next() { var id int var name string err = rows.Scan(&id, &name) if err != nil { panic(err.Error()) } fmt.Println(id, name) } } 2.2 使用ORM工具：Gorm 对于更复杂的项目，使用ORM工具如Gorm可以极大地简化数据库操作。Gorm就像是给数据库操作加了个“翻译”，让我们可以用更贴近日常说话的方式来摆弄数据库里的数据，感觉就像是在玩弄对象一样轻松。下面是如何使用Gorm的一个简单示例： go package main import ( "gorm.io/driver/mysql" "gorm.io/gorm" "log" ) type User struct { ID uint Name string } func main() { dsn := "user:password@tcp(127.0.0.1:3306)/dbname?charset=utf8mb4&parseTime=True&loc=Local" db, err := gorm.Open(mysql.Open(dsn), &gorm.Config{}) if err != nil { log.Fatal(err) } // 创建用户 newUser := User{Name: "John Doe"} db.Create(&newUser) // 查询用户 var user User db.First(&user, newUser.ID) log.Printf("Found user: %s\n", user.Name) } 3. 性能优化技巧在实际开发中，除了基础的数据库操作外，我们还需要考虑如何进一步优化性能。这里有几个建议： - 索引：确保你的数据库表上有适当的索引，特别是对于那些频繁查询的字段。 - 缓存：利用缓存机制（如Redis）来存储常用的数据结果，可以显著减少数据库的负载。 - 批量操作：尽量减少与数据库的交互次数，比如批量插入或更新数据。 - 异步处理：对于耗时的操作，可以考虑使用异步处理方式，避免阻塞主线程。 4. 结语通过以上的内容，我们大致了解了如何使用Go语言进行高性能的数据库访问和操作。当然，这只是冰山一角，真正的高手之路还很长。希望能给你带来点儿灵感，让你在Go语言的路上越走越远，越走越顺！记住，编程是一场马拉松，不是短跑，保持耐心，不断学习和尝试新的东西吧！ --- 希望这篇文章能帮助你更好地理解和应用Golang在数据库访问方面的最佳实践。如果你有任何问题或想法，欢迎随时交流讨论！

2024-10-21 15:42:48

百转千回

转载文章

[转载]17 java 存在的问题（转）

...应内容。 java的问题： 1.性能：java的内存管理似乎比较自动化，但其实性能不是特别好。尤其是new对象的时候没有节制。在java中，有些对象构造成本很低，有些很高。特别在UI编程的时候，大多数的UI对象其构建成本都比较高昂。如果在开发过程中没有节约意识，肯定会导致JVM不停的GC，系统表现很卡的样子，当然，彻底的当掉可能还不会，但基本上工作已经是非常的缓慢的了。 2；引用：JAVA中其实在大量的使用对象引用，对象引用可以减少内存占用，不去构建不必要的对象。但事实上，多数程序员对引用的理解不是很到位，结果导致过多不必要的对象构建，虚耗内存。代码可读性也不佳，编写的时候尤其觉的疲惫。 3；面向对象：java是面向对象的语言，但是它有基础类型，这些基础类型不是面向对象的，不能当作引用传递。一般来说，这些基础类型可以用来表示一个对象的状态。java中的对象一定要包含状态，没有状态的对象其实是不存在的，没有状态的东西不是对象，而是一个行为集合。但是java中没有一个明确的结构来表达这个情况，所以只能写一个类来表示，同时将这个类的构造定义成私有的，防止被别人构建。这个时候的类的作用等同与命名空间。java在面向对象的支持方面其实是很残缺的，缺乏很多必要的支持，比如虚函数，多重继承，友元。这种残缺，导致设计困难，所以java的系统都十分的罗嗦。 4：复杂：java越来越复杂了。注解，泛型，枚举，特性很多。 5：不可变：java支持不可变，但是大多数人并不了解这个主题。不可变系统其实比较容易实现，同时也不容易出错。但是java是基于引用的系统，不可变会导致大量的内存问题。JVM缺乏尾递归优化，这其实也是一个问题。转自：http://my.oschina.net/clarkhill/blog/59546 转载于:https://www.cnblogs.com/yangh2016/p/5762333.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_30561425/article/details/95164045。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-21 23:48:35

276

转载

Kotlin

Kotlin编程世界：探索Lateinit Property的运行时决定值与Java兼容性

...增加应用的启动时间和内存消耗，特别是在大量对象实例化时。 4. 遇到“Lateinit Property Not Initialized Before Use”错误怎么办？当遇到这个错误时，通常意味着你试图访问或使用了一个未初始化的lateinit属性。解决这个问题的方法通常是： - 检查初始化逻辑：确保在使用属性之前，确实调用了对应的初始化方法或进行了必要的操作。 - 代码重构：如果可能，将属性的初始化逻辑移至更合适的位置，比如构造函数、特定方法或事件处理程序中。 - 避免不必要的延迟初始化：考虑是否真的需要延迟初始化，有时候提前初始化可能更为合理和高效。 5. 实践中的应用案例在实际项目中，lateinit属性特别适用于依赖于用户输入、网络请求或文件读取等不确定因素的数据加载场景。例如，在构建一个基于用户选择的配置文件加载器时： kotlin class ConfigLoader { lateinit var config: Map fun loadConfig() { // 假设这里通过网络或文件系统加载配置 config = loadFromDisk() } } fun main() { val loader = ConfigLoader() loader.loadConfig() println(loader.config) // 此时config已初始化 } 在这个例子中，config属性的加载逻辑被封装在loadConfig方法中，确保在使用config之前，其已经被正确初始化。结论 lateinit属性是Kotlin中一个强大而灵活的特性，它允许你推迟属性的初始化直到运行时。然而，正确使用这一特性需要谨慎考虑其潜在的性能影响和错误情况。通过理解其工作原理和最佳实践，你可以有效地利用lateinit属性来增强你的Kotlin代码，使其更加健壮和易于维护。

2024-08-23 15:40:12

幽谷听泉

MemCache

Memcached进程CPU占用过高问题排查：配置不当、客户端交互影响及解决方案，运用top命令与配置文件优化策略

...开源、高性能、分布式内存对象缓存系统，用于减轻数据库负载，提高动态Web应用程序的速度。它通过暂时存储经常访问的数据（如数据库查询结果）来减少对持久性存储器的读取次数，从而提升整体系统性能。分布式键值存储系统 , 这是一种在多台服务器上分散存储和管理数据的系统，其中数据以键值对的形式进行组织。在Memcached中，客户端可以将数据与唯一的键关联并存储在任意一台服务器上，随后可以通过该键从集群中的任一节点高效检索到对应的数据。 Optane持久内存 , 这是Intel推出的一种新型存储技术，结合了DRAM（动态随机存取内存）的高速特性和NAND闪存的非易失性优点。在优化Memcached等内存数据库系统时，Optane持久内存能够提供大容量、低延迟且断电不丢失数据的特性，从而有效降低CPU处理大量数据的压力，提高系统的整体性能和响应速度。多级缓存策略 , 在计算机系统设计中，多级缓存策略指的是采用不同层次、不同速度和成本的缓存技术，共同构建一个分层的缓存体系结构。例如，在大规模服务架构中，可能同时使用Redis作为快速存储、Memcached处理热点数据以及SSD本地缓存存放较冷但仍有访问价值的数据。这种策略允许根据数据热度和访问模式智能地分配存储资源，确保高效率的同时，最大限度地降低对单一组件（如Memcached）的CPU占用率，实现整个系统的性能优化。

2024-01-19 18:02:16

醉卧沙场-t

转载文章

[转载]Java的特点是什么

...va的特点：1、面向对象；它对对象中的类、对象、继承、封装、多态、接口、包等均有很好支持。2、平台无关性；在引入虚拟机之后，Java语言在不同的平台上运行不需要重新编译。3、简单性。4、解释执行；程序在Java平台运行时会被编译成字节码文件，然后可以在有Java环境的操作系统上运行。5、支持多线程，并提供多线程之间的同步机制；6、分布式；7、健壮性；8、高性能；9、安全性。什么是Java语言简单地说，Java 是由 Sun Microsystems 公司于 1995 年推出的一门面向对象程序设计语言。2010 年 Oracle 公司收购 Sun Microsystems，之后由 Oracle 公司负责 Java 的维护和版本升级。其实，Java 还是一个平台。Java 平台由 Java 虚拟机（Java Virtual Machine，JVM）和 Java 应用编程接口（Application Programming Interface，API）构成。Java 应用编程接口为此提供了一个独立于操作系统的标准接口，可分为基本部分和扩展部分。在硬件或操作系统平台上安装一个 Java 平台之后，Java 应用程序就可运行。 Java 平台已经嵌入了几乎所有的操作系统。这样 Java 程序只编译一次，就可以在各种系统中运行。Java 应用编程接口已经从 1.1x 版本发展到 1.2 版本。 Java语言的特点 Java 语言的风格很像 C 语言和 C++ 语言，是一种纯粹的面向对象语言，它继承了 C++ 语言面向对象的技术核心，但是拋弃了 C++ 的一些缺点，比如说容易引起错误的指针以及多继承等，同时也增加了垃圾回收机制，释放掉不被使用的内存空间，解决了管理内存空间的烦恼。 Java 语言是一种分布式的面向对象语言，具有面向对象、平台无关性、简单性、解释执行、多线程、安全性等很多特点，下面针对这些特点进行逐一介绍。 1. 面向对象 Java 是一种面向对象的语言，它对对象中的类、对象、继承、封装、多态、接口、包等均有很好的支持。为了简单起见，Java 只支持类之间的单继承，但是可以使用接口来实现多继承。使用 Java 语言开发程序，需要采用面向对象的思想设计程序和编写代码。 2. 平台无关性平台无关性的具体表现在于，Java 是“一次编写，到处运行（Write Once，Run any Where）”的语言，因此采用 Java 语言编写的程序具有很好的可移植性，而保证这一点的正是 Java 的虚拟机机制。在引入虚拟机之后，Java 语言在不同的平台上运行不需要重新编译。 Java 语言使用 Java 虚拟机机制屏蔽了具体平台的相关信息，使得 Java 语言编译的程序只需生成虚拟机上的目标代码，就可以在多种平台上不加修改地运行。 3. 简单性 Java 语言的语法与 C 语言和 C++ 语言很相近，使得很多程序员学起来很容易。对 Java 来说，它舍弃了很多 C++ 中难以理解的特性，如操作符的重载和多继承等，而且 Java 语言不使用指针，加入了垃圾回收机制，解决了程序员需要管理内存的问题，使编程变得更加简单。 4. 解释执行 Java 程序在 Java 平台运行时会被编译成字节码文件，然后可以在有 Java 环境的操作系统上运行。在运行文件时，Java 的解释器对这些字节码进行解释执行，执行过程中需要加入的类在连接阶段被载入到运行环境中。 5. 多线程 Java 语言是多线程的，这也是 Java 语言的一大特性，它必须由 Thread 类和它的子类来创建。Java 支持多个线程同时执行，并提供多线程之间的同步机制。任何一个线程都有自己的 run() 方法，要执行的方法就写在 run() 方法体内。 6. 分布式 Java 语言支持 Internet 应用的开发，在 Java 的基本应用编程接口中就有一个网络应用编程接口，它提供了网络应用编程的类库，包括 URL、URLConnection、Socket 等。Java 的 RIM 机制也是开发分布式应用的重要手段。 7. 健壮性 Java 的强类型机制、异常处理、垃圾回收机制等都是 Java 健壮性的重要保证。对指针的丢弃是 Java 的一大进步。另外，Java 的异常机制也是健壮性的一大体现。 8. 高性能 Java 的高性能主要是相对其他高级脚本语言来说的，随着 JIT（Just in Time）的发展，Java 的运行速度也越来越高。 9. 安全性 Java 通常被用在网络环境中，为此，Java 提供了一个安全机制以防止恶意代码的攻击。除了 Java 语言具有许多的安全特性以外，Java 还对通过网络下载的类增加一个安全防范机制，分配不同的名字空间以防替代本地的同名类，并包含安全管理机制。 Java 语言的众多特性使其在众多的编程语言中占有较大的市场份额，Java 语言对对象的支持和强大的 API 使得编程工作变得更加容易和快捷，大大降低了程序的开发成本。Java 的“一次编写，到处执行”正是它吸引众多商家和编程人员的一大优势。扩展知识：按应用范围，Java 可分为 3 个体系，即 Java SE、Java EE 和 Java ME。下面简单介绍这 3 个体系。 1. Java SE Java SE（Java Platform Standard Edition，Java 平台标准版）以前称为 J2SE，它允许开发和部署在桌面、服务器、嵌入式环境和实时环境中使用的 Java 应用程序。Java SE 包含了支持 Java Web 服务开发的类，并为 Java EE 提供基础，如 Java 语言基础、JDBC 操作、I/O 操作、网络通信以及多线程等技术。图 1 所示为 Java SE 的体系结构。本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_73892801/article/details/129181633。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-25 09:18:50

转载

MemCache

缓存优化：高性能Web应用中的并发冲突与互斥锁管理

...作为一款经典的分布式内存对象缓存系统，其在云原生环境中的应用与优化，成为当前IT领域研究的热点话题。微服务与分布式缓存的挑战在微服务架构中，服务的解耦和模块化带来了巨大的灵活性和可扩展性，但也带来了通信成本增加、服务间依赖复杂等问题。分布式缓存作为微服务间数据共享和状态一致性维护的重要手段，对于提升系统响应速度、降低数据库压力具有不可替代的作用。然而，在分布式系统中，缓存的一致性、失效策略、以及缓存穿透等问题日益凸显，成为影响系统稳定性和性能的关键因素。 Memcached在云原生环境中的应用面对上述挑战，Memcached通过其轻量级的设计和高效的数据访问特性，在云原生环境中找到了新的应用场景和优化路径。例如，结合Kubernetes和Docker容器技术，Memcached可以被方便地部署到集群中，实现资源的动态扩展和负载均衡。通过使用Kubernetes的服务发现和自动缩放功能，可以确保Memcached服务在高并发场景下保持良好的性能和稳定性。同时，借助现代云平台提供的监控和日志服务，如Prometheus和ELK Stack，可以实时监控Memcached的运行状态，及时发现并定位性能瓶颈，实现故障快速响应和自动化优化。此外，通过集成Redisson等开源库或自定义实现，Memcached可以支持更多高级特性，如事务、订阅/发布消息机制等，进一步增强其在复杂业务场景下的适用性。结语：持续优化与技术创新随着云原生技术的不断发展，对分布式缓存的需求也在不断演变。Memcached作为一款成熟且灵活的缓存工具，其在云原生环境中的应用与优化，是一个持续探索和创新的过程。通过结合最新的云原生技术栈，如无服务器计算、事件驱动架构等，可以进一步挖掘Memcached的潜力，为其在现代云原生应用中的角色注入新的活力。在这个过程中，不断积累实践经验，推动技术的迭代与创新，是实现系统高效、稳定运行的关键所在。通过深入分析云原生环境下的分布式缓存需求，以及Memcached在此场景下的应用实践，我们可以看到，技术的融合与创新是推动系统性能优化、应对复杂业务挑战的重要驱动力。随着技术的不断进步和应用场景的不断丰富，Memcached在云原生架构中的角色将会变得更加重要，为构建高性能、高可用的云原生应用提供坚实的基础。

2024-09-02 15:38:39

人生如戏

转载文章

[转载]一文看懂 .NET 的异常处理机制、原则以及最佳实践

... 以及内部异常来定位问题，但其实 Exception 类型还有更多的信息可以用于辅助定位问题。 Message 用来描述异常原因的详细信息如果你捕捉到了异常，一般使用这段描述能知道发生的大致原因。如果你准备抛出异常，在这个信息里面记录能帮助调试问题的详细文字信息。 StackTrace 包含用来确定错误位置的堆栈跟踪（当有调试信息如 PDB 时，这里就会包含源代码文件名和源代码行号） InnerException 包含内部异常信息 Source 这个属性包含导致错误的应用程序或对象的名称 Data 这是一个字典，可以存放基于键值的任意数据，帮助在异常信息中获得更多可以用于调试的数据 HelpLink 这是一个 url，这个 url 里可以提供大量用于说明此异常原因的信息如果你自己写一个自定义异常类，那么你可以在自定义的异常类中记录更多的信息。然而大多数情况下我们都考虑使用 .NET 中自带的异常类，因此可以充分利用 Exception 类中的已有属性在特殊情况下报告更详细的利于调试的异常信息。捕捉异常捕捉异常的基本语法是： try{// 可能引发异常的代码。}catch (FileNotFoundException ex){// 处理一种类型的异常。}catch (IOException ex){// 处理另一种类的异常。} 除此之外，还有 when 关键字用于筛选异常： try{// 可能引发异常的代码。}catch (FileNotFoundException ex) when (Path.GetExtension(ex.FileName) is ".png"){// 处理一种类型的异常，并且此文件扩展名为 .png。}catch (FileNotFoundException ex){// 处理一种类型的异常。} 无论是否有带 when 关键字，都是前面的 catch 块匹配的时候执行匹配的 catch 块而无视后面可能也匹配的 catch 块。如果 when 块中抛出异常，那么此异常将被忽略，when 中的表达式值视为 false。有个但是，请看：.NET Framework 的 bug？try-catch-when 中如果 when 语句抛出异常，程序将彻底崩溃 - walterlv。引发异常引发异常使用 throw 关键字。只是注意如果要重新抛出异常，请使用 throw; 语句或者将原有异常作为内部异常。创建自定义异常如果你只是随便在业务上创建一个异常，那么写一个类继承自 Exception 即可： public class MyCustomException : Exception{public string MyCustomProperty { get; }public MyCustomException(string customProperty) => MyCustomProperty = customProperty;} 不过，如果你需要写一些比较通用抽象的异常（用于被继承），或者在底层组件代码中写自定义异常，那么就建议考虑写全异常的所有构造函数，并且加上可序列化： [Serializable]public class InvalidDepartmentException : Exception{public InvalidDepartmentException() : base() { }public InvalidDepartmentException(string message) : base(message) { }public InvalidDepartmentException(string message, Exception innerException) : base(message, innerException) { }// 如果异常需要跨应用程序域、跨进程或者跨计算机抛出，就需要能被序列化。protected InvalidDepartmentException(SerializationInfo info, StreamingContext context) : base(info, context) { } } 在创建自定义异常的时候，建议：名称以 Exception 结尾 Message 属性的值是一个句子，用于描述异常发生的原因。提供帮助诊断错误的属性。尽量写全四个构造函数，前三个方便使用，最后一个用于序列化异常（新的异常类应可序列化）。 finally 异常堆栈跟踪堆栈跟踪从引发异常的语句开始，到捕获异常的 catch 语句结束。利用这一点，你可以迅速找到引发异常的那个方法，也能找到是哪个方法中的 catch 捕捉到的这个异常。异常处理原则 try-catch-finally 我们第一个要了解的异常处理原则是——明确 try catch finally 的用途！ try 块中，编写可能会发生异常的代码。最好的情况是，你只将可能会发生异常的代码放到 try 块中，当然实际应用的时候可能会需要额外放入一些相关代码。但是如果你将多个可能发生异常的代码放到一个 try 块中，那么将来定位问题的时候你就会很抓狂（尤其是多个异常还是一个类别的时候）。 catch 块的作用是用来 “恢复错误” 的，是用来 “恢复错误” 的，是用来 “恢复错误” 的。如果你在 try 块中先更改了类的状态，随后出了异常，那么最好能将状态改回来——这可以避免这个类型或者应用程序的其他状态出现不一致——这很容易造成应用程序“雪崩”。举一个例子：我们写一个程序有简洁模式和专业模式，在从简洁模式切换到专业模式的时候，我们设置 IsProfessionalMode 为 true，但随后出现了异常导致没有成功切换为专业模式；然而接下来所有的代码在执行时都判断 IsProfessionalMode 为 true 状态不正确，于是执行了一些非预期的操作，甚至可能用到了很多专业模式中才会初始化的类型实例（然而没有完成初始化），产生大量的额外异常；我们说程序雪崩了，多数功能再也无法正常使用了。当然如果任务已全部完成，仅仅在对外通知的时候出现了异常，那么这个时候不需要恢复状态，因为实际上已经完成了任务。你可能会有些担心如果我没有任何手段可以恢复错误怎么办？那这个时候就不要处理异常！——如果不知道如何恢复错误，请不要处理异常！让异常交给更上一层的模块处理，或者交给整个应用程序全局异常处理模块进行统一处理（这个后面会讲到）。另外，异常不能用于在正常执行过程中更改程序的流程。异常只能用于报告和处理错误条件。 finally 块的作用是清理资源。虽然 .NET 的垃圾回收机制可以在回收类型实例的时候帮助我们回收托管资源（例如 FileStream 类打开的文件），但那个时机不可控。因此我们需要在 finally 块中确保资源可被回收，这样当重新使用这个文件的时候能够立刻使用而不会被占用。一段异常处理代码中可能没有 catch 块而有 finally 块，这个时候的重点是清理资源，通常也不知道如何正确处理这个错误。一段异常处理代码中也可能 try 块留空，而只在 finally 里面写代码，这是为了“线程终止”安全考虑。在 .NET Core 中由于不支持线程终止因此可以不用这么写。详情可以参考：.NET/C 异常处理：写一个空的 try 块代码，而把重要代码写到 finally 中（Constrained Execution Regions） - walterlv。该不该引发异常？什么情况下该引发异常？答案是——这真的是一个异常情况！于是，我们可能需要知道什么是“异常情况”。一个可以参考的判断方法是——判断这件事发生的频率：如果这件事并不常见，当它发生时确实代表发生了一个错误，那么这件事情就可以认为是异常。如果这件事经常发生，代码中正常情况就应该处理这件事情，那么这件事情就不应该被认为是异常（而是正常流程的一部分）。例如这些情况都应该认为是异常：方法中某个参数不应该传入 null 时但传入了 null 这是开发者使用这个方法时没有遵循此方法的契约导致的，让开发者改变调用此方法的代码就可以完全避免这件事情发生而下面这些情况则不应该认为是异常：用户输入了一串字符，你需要将这串字符转换为数字用户输入的内容本身就千奇百怪，出现非数字的输入再正常不过了，对非数字的处理本就应该成为正常流程的一部分对于这些不应该认为是异常的情况，编写的代码就应该尽可能避免异常。有两种方法来避免异常：先判断再使用。例如读取文件之前，先判断文件是否存在；例如读取文件流时先判断是否已到达文件末尾。如果提前判断的成本过高，可采用 TryDo 模式来完成，例如字符串转数字中的 TryParse 方法，字典中的 TryGetValue 方法。对极为常见的错误案例返回 null（或默认值），而不是引发异常。极其常见的错误案例可被视为常规控制流。通过在这些情况下返回 NULL（或默认值），可最大程度地减小对应用的性能产生的影响。（后面会专门说 null）而当存在下列一种或多种情况时，应引发异常：方法无法完成其定义的功能。根据对象的状态，对某个对象进行不适当的调用。请勿有意从自己的源代码中引发 System.Exception、System.SystemException、System.NullReferenceException 或 System.IndexOutOfRangeException。该不该捕获异常？在前面 try-catch-finally 小节中，我们提到了 catch 块中应该写哪些代码，那里其实已经说明了哪些情况下应该处理异常，哪些情况下不应该处理异常。一句总结性的话是——如果知道如何从错误中恢复，那么就捕获并处理异常，否则交给更上层的业务去捕获异常；如果所有层都不知道如何处理异常，就交给全局异常处理模块进行处理。应用程序全局处理异常对于 .NET 程序，无论是 .NET Framework 还是 .NET Core，都有下面这三个可以全局处理的异常。这三个都是事件，可以自行监听。 AppDomain.UnhandledException 应用程序域未处理的异常，任何线程中未处理掉的异常都会进入此事件中当这里能够收到事件，意味着应用程序现在频临崩溃的边缘（从设计上讲，都到这里了，也再没有任何代码能够使得程序从错误中恢复了）不过也可以配置 legacyUnhandledExceptionPolicy 防止后台线程抛出的异常让程序崩溃退出建议在这个事件中记录崩溃日志，然后对应用程序进行最后的拯救恢复操作（例如保存用户的文档数据） AppDomain.FirstChanceException 应用程序域中的第一次机会异常我们前面说过，一个异常被捕获时，其堆栈信息将包含从 throw 块到 catch 块之间的所有帧，而在第一次机会异常事件中，只是刚刚 throw 出来，还没有被任何 catch 块捕捉，因此在这个事件中堆栈信息永远只会包含一帧（不过可以稍微变通一下在第一次机会异常 FirstChanceException 中获取比较完整的异常堆栈）注意第一次机会异常事件即便异常会被 catch 也会引发，因为它引发在 catch 之前不要认为异常已经被 catch 就万事大吉可以无视这个事件了。前面我们说过异常仅在真的是异常的情况才应该引发，因此如果这个事件中引发了异常，通常也真的意味着发生了错误（差别只是我们能否从错误中恢复而已）。如果你经常在正常的操作中发现可以通过此事件监听到第一次机会异常，那么一定是应用程序或框架中的异常设计出了问题（可能把正常应该处理的流程当作了异常，可能内部实现代码错误，可能出现了使用错误），这种情况一定是要改代码修 Bug 的。而一些被认为是异常的情况下收到此事件则是正常的。 TaskScheduler.UnobservedTaskException 在使用 async / await 关键字编写异步代码的时候，如果一直有 await 传递，那么异常始终可以被处理到；但中间有异步任务没有 await 导致异常没有被传递的时候，就会引发此事件。如果在此事件中监听到异常，通常意味着代码中出现了不正确的 async / await 的使用（要么应该修改实现避免异常，要么应该正确处理异常并从中恢复错误）对于 GUI 应用程序，还可以监听 UI 线程上专属的全局异常： WPF：Application.DispatcherUnhandledException 或者 Dispatcher.UnhandledException Windows Forms：Application.ThreadException 关于这些全局异常的处理方式和示例代码，可以参阅博客： WPF UnhandledException - Iron 的博客 - CSDN博客抛出哪些异常？任何情况下都不应该抛出这些异常：过于抽象，以至于无法表明其含义 Exception 这可是顶级基类，这都抛出来了，使用者再也无法正确地处理此异常了 SystemException 这是各种异常的基类，本身并没有明确的意义 ApplicationException 这是各种异常的基类，本身并没有明确的意义由 CLR 引发的异常 NullReferenceException 试图在空引用上执行某些方法，除了告诉实现者出现了意料之外的 null 之外，没有什么其它价值了 IndexOutOfRangeException 使用索引的时候超出了边界 InvalidCastException 表示试图对某个类型进行强转但类型不匹配 StackOverflow 表示栈溢出，这通常说明实现代码的时候写了不正确的显式或隐式的递归 OutOfMemoryException 表示托管堆中已无法分出期望的内存空间，或程序已经没有更多内存可用了 AccessViolationException 这说明使用非托管内存时发生了错误 BadImageFormatException 这说明了加载的 dll 并不是期望中的托管 dll TypeLoadException 表示类型初始化的时候发生了错误 .NET 设计失误 FormatException 因为当它抛出来时无法准确描述到底什么错了首先是你自己不应该抛出这样的异常。其次，你如果在运行中捕获到了上面这些异常，那么代码一定是写得有问题。如果是捕获到了上面 CLR 的异常，那么有两种可能：你的代码编写错误（例如本该判空的代码没有判空，又如索引数组超出界限）你使用到的别人写的代码编写错误（那你就需要找到它改正，或者如果开源就去开源社区中修复吧）而一旦捕获到了上面其他种类的异常，那就找到抛这个异常的人，然后对它一帧狂扁即可。其他的异常则是可以抛出的，只要你可以准确地表明错误原因。另外，尽量不要考虑抛出聚合异常 AggregateException，而是优先使用 ExceptionDispatchInfo 抛出其内部异常。详见：使用 ExceptionDispatchInfo 捕捉并重新抛出异常 - walterlv。异常的分类在该不该引发异常小节中我们说到一个异常会被引发，是因为某个方法声称的任务没有成功完成（失败），而失败的原因有四种：方法的使用者用错了（没有按照方法的契约使用）方法的执行代码写错了方法执行时所在的环境不符合预期简单说来，就是：使用错误，实现错误、环境错误。使用错误： ArgumentException 表示参数使用错了 ArgumentNullException 表示参数不应该传入 null ArgumentOutOfRangeException 表示参数中的序号超出了范围 InvalidEnumArgumentException 表示参数中的枚举值不正确 InvalidOperationException 表示当前状态下不允许进行此操作（也就是说存在着允许进行此操作的另一种状态） ObjectDisposedException 表示对象已经 Dispose 过了，不能再使用了 NotSupportedException 表示不支持进行此操作（这是在说不要再试图对这种类型的对象调用此方法了，不支持） PlatformNotSupportedException 表示在此平台下不支持（如果程序跨平台的话） NotImplementedException 表示此功能尚在开发中，暂时请勿使用实现错误：前面由 CLR 抛出的异常代码主要都是实现错误 NullReferenceException 试图在空引用上执行某些方法，除了告诉实现者出现了意料之外的 null 之外，没有什么其它价值了 IndexOutOfRangeException 使用索引的时候超出了边界 InvalidCastException 表示试图对某个类型进行强转但类型不匹配 StackOverflow 表示栈溢出，这通常说明实现代码的时候写了不正确的显式或隐式的递归 OutOfMemoryException 表示托管堆中已无法分出期望的内存空间，或程序已经没有更多内存可用了 AccessViolationException 这说明使用非托管内存时发生了错误 BadImageFormatException 这说明了加载的 dll 并不是期望中的托管 dll TypeLoadException 表示类型初始化的时候发生了错误环境错误： IOException 下的各种子类 Win32Exception 下的各种子类 …… 另外，还剩下一些不应该抛出的异常，例如过于抽象的异常和已经过时的异常，这在前面一小结中有说明。其他一些常见异常的原因和解决方法在平时的开发当中，你可能会遇到这样一些异常，它不像是自己代码中抛出的那些常见的异常，但也不包含我们自己的异常堆栈。这里介绍一些常见这些异常的原因和解决办法。 AccessViolationException 当出现此异常时，说明非托管内存中发生了错误。如果要解决问题，需要从非托管代码中着手调查。这个异常是访问了不允许的内存时引发的。在原因上会类似于托管中的 NullReferenceException。参考资料 Handling and throwing exceptions in .NET - Microsoft Docs Exceptions and Exception Handling - C Programming Guide - Microsoft Docs 我的博客会首发于 https://blog.walterlv.com/，而 CSDN 会从其中精选发布，但是一旦发布了就很少更新。如果在博客看到有任何不懂的内容，欢迎交流。我搭建了 dotnet 职业技术学院欢迎大家加入。本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载、使用、重新发布，但务必保留文章署名吕毅（包含链接：https://walterlv.blog.csdn.net/），不得用于商业目的，基于本文修改后的作品务必以相同的许可发布。如有任何疑问，请与我联系。本篇文章为转载内容。原文链接：https://blog.csdn.net/WPwalter/article/details/94610764。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-13 13:38:26

转载

转载文章

[转载]DevOps相关知识点

...代之中，尽早的暴露出问题，尽早解决，尽量在规定的时间内完成任务）（四尽早一尽量）自动化流水线操作带来的高效（CI的精髓在于持续，持续意味着自动化）（自动化验证代码变更的过程，可以在软件开发的早期发现缺陷和与其他代码、组件的集成问题）随时可部署（高频率的集成可以尽可能地保证随时部署上线，缩短开发复杂软件的市场交付时间）极大程度避免低级错误（减少大量内容合并到主干分支的请看看，避免代码合并冲突和无法预料的行为）低级错误：编译错误，安装问题，接口问题，性能问题等难点迁移遗留代码到现有CI系统，需要的投入通常爱预料之外在文化和组织上如果没有采用敏捷原则或DecOps的工作方式，那么很可能没有持续不断的提交，那么CI的存在意义不大随着业务增长、工具的更替、技术的演进。CI系统也必然随之改动，往往会导致阶段性的不稳定和人力物力的耗费如果CI的基本设定不到位，开发流程将会增加特别的开销注意点 CI流程的触发方式跟踪触发式：在每次提交到源码版本管理系统时触发计划任务：预配置好的计划手动：无论是通过CI服务器的管理界面还是脚本，用户可以手工执行CI工作流代码审核可在持续集成服务器里使用代码分析工具（例如Sonar）来执行自动代码审查自动代码审查通过后，可发起一个人工代码审查，揪出那些自动审查无法找出的问题，即验证业务需求，架构问题，代码是否可读，以及是否易于扩展。可灵活配置代码审核策略，例如：如果某些人没有审查代码便阻止对主干分支的任何提交。最常用的工具是Gerrit 持续交付简述持续交付简称CD或CDE，是一种能够使得软件在较短的循环中可靠的发布的软件工程方法与持续集成相比，持续交付的重点在于交付，其核心对象不在于代码，而在于可交付的产物。由于持续集成仅仅针对于新旧代码的集成过程执行来了一定的测试，其变动到持续交付后还需要一些额外的流程持续交付可以看作为是持续集成的下一步，它强调的是，不敢怎么更新，软件是随时随快可以交付的有图可看出，持续交付在持续集成的基础上，将集成后的代码部署到更贴近真实的运行环境的[类生产环境]中目的持续交付永爱确保让代码能够快速、安全的部署到产品环境中，它通过将每一次改动都会提交到一个模拟产品环境中，使用严格的自动化测试，确保业务应用和服务能符合预期好处持续交付和持续集成的好处非常相似：快速发布。能够应对业务需求，并更快地实现软件价值编码→测试→上线→交付的频繁迭代周期缩短，同时获得迅速反馈高质量的软件发布标准。整个交付过程标准化、可重复、可靠整个交付过程进度可视化，方便团队人员了解项目完成度更先进的团队协作方式。从需求分析、产品的用户体验到交互、设计、开发、测试、运维等角色密切协作，相比于传统的瀑布式软件团队，更少浪费持续部署简述持续部署意味着：通过自动化部署的手段将软件功能频繁的进行交付持续部署是持续交付的下一步，指的是代码通过审批以后，自动化部署到生产环境。持续部署是持续交付的最高阶段，这意味着，所有通过了一系列的自动化测试的改动都将自动部署到生产环境。它也可以被称为“Continuous Release” 持续化部署的目标是：代码在任何时候都是可部署的，可以进入生产阶段。持续部署的前提是能自动化完成测试、构建、部署等步骤注：持续交付不等于持续集成与持续交付以及持续集成相比，持续部署强调了通过 automated deployment 的手段，对新的软件功能进行集成目标持续部署的目标是：代码在任何时刻都是可部署的，可以进入生产阶段有很多的业务场景里，一种业务需要等待另外的功能特征出现才能上线，这是的持续部署成为不可能。虽然使用功能切换能解决很多这样的情况，但并不是没每次都会这样。所以，持续部署是否适合你的公司是基于你们的业务需求——而不是技术限制优点持续部署主要的好处是：可以相对独立地部署新的功能，并能快速地收集真实用户的反馈敏捷开发简述敏捷开发就是一种以人为核心、迭代循环渐进的开发方式。在敏捷开发中，软件仙姑的构建被切分成多个子项目，各个子项目的成果都经过测试，具备集成和可运行的特征。简单的说就是把一个大的项目分为多个相互联系，但也可以独立运行的小项目，并分别完成，在此过程中软件一直处于可使用状态注意事项敏捷开的就是一种面临迅速变化的需求快速开发的能力，要注意一下几点：敏捷开发不仅仅是一个项目快速完成，而是对整个产品领域需求的高效管理敏捷开发不仅仅是简单的快，而是短周期的不断改进、提高和调整敏捷开发不仅仅是一个版本只做几个功能，而是突出重点、果断放弃当前的非重要点敏捷开发不仅仅是随时增加需求，而是每个迭代周期对需求的重新审核和排序如何进行敏捷开发 1、组织建设也就是团队建设，建立以产品经理为主导，包含产品、设计、前后台开发和测试的team，快速进行产品迭代开发；扁平化的团队管理，大家都有共同目标，更有成就感； 2、敏捷制度要找准适合自身的敏捷开发方式，主要是制定一个完善的效率高的设计、开发、测试、上线流程，制定固定的迭代周期，让用户更有期待； 3、需求收集这个任何方式下都需要有，需求一定要有交互稿，评审通过后，一定要确定功能需求列表、责任人、工作量、责任人等； 4、工具建设是指能够快速完成某项事情的辅助工具，比如开发环境的一键安装，各种底层的日志、监控等平台，发布、打包工具等； 5、系统架构略为超前架构设计：支持良好的扩容性和可维护性；组件化基础功能模块：代码耦合度低，模块间的依赖性小；插件化业务模块：降低营销活动与业务耦合度，自升级、自维护；客户端预埋逻辑；技术预研等等； 6、数据运营与灰度发布点击率分析、用户路径分析、渠道选择、渠道升级控制等等原则、特点和优势敏捷开发技术的12个原则： 1．我们最优先要做的是通过尽早的、持续的交付有价值的软件来使客户满意。 2．即使到了开发的后期，也欢迎改变需求。 3．经常性地交付可以工作的软件，交付的间隔可以从几周到几个月，交付的时间间隔越短越好。 4．在整个项目开发期间，业务人员和开发人员必须天天都在一起工作。 5．围绕被激励起来的个人来构建项目。 6．在团队内部，最具有效果并且富有效率的传递信息的方法，就是面对面的交谈。 7．工作的软件是首要的进度度量标准。 8．敏捷过程提倡可持续的开发速度。 9．不断地关注优秀的技能和好的设计会增强敏捷能力。 10．简单使未完成的工作最大化。 11．最好的构架、需求和设计出自于自组织的团队。 12．每隔一定时间，团队会在如何才能更有效地工作方面进行反省，然后相应地对自己的行为进行调整。特点：个体和交互胜过过程和工具可以工作的软件胜过面面俱到的文档客户合作胜过合同谈判响应变化胜过遵循计划优势总结：敏捷开发确实是项目进入实质开发迭代阶段，用户很快可以看到一个基线架构班的产品。敏捷注重市场快速反应能力，也即具体应对能力，客户前期满意度高适用范围：项目团队的人不能太多项目经常发生变更高风险的项目实施开发人员可以参与决策劣势总结：敏捷开发注重人员的沟通忽略文档的重要性若项目人员流动太大，维护的时候很难项目存在新手的比较多的时候，老员工会比较累需要项目中存在经验较强的人，要不然大项目中容易遇到瓶颈问题 Open-falcon 简述 open-falcon是小米的监控系统，是一款企业级、高可用、可扩展的开源监控解决方案公司用open-falcon来监控调度系统各种信息，便于监控各个节点的调度信息。在服务器安装了falcon-agent自动采集各项指标，主动上报特点强大灵活的数据采集（自动发现，支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持、opentsdb data model like（timestamp、endpoint、metric、key-value tags））水平扩展能力（支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询）高效率的告警策略管理（高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用）人性化的告警设置（最大告警次数、告警级别、告警恢复通知、告警暂停、不同时段不同阈值、支持维护周期）高效率的graph组件（单机支撑200万metric的上报、归档、存储（周期为1分钟））高效的历史数据query组件（采用rrdtool的数据归档策略，秒级返回上百个metric一年的历史数据） dashboard（面向用户的查询界面，可以看到push到graph中的所有数据，并查看数据发展趋势）（对维度的数据展示，用户自定义Screen）高可用（整个系统无核心单点，易运维，易部署，可水平扩展）开发语言（整个系统的后端，全部golang编写，portal和dashboard使用python编写。）监控范围 Open-Falcon支持系统基础监控，第三方服务监控，JVM监控，业务应用监控基础监控指的是Linux系统的指标监控，包括CPU、load、内存、磁盘、IO、网络等，这些指标由Openfalcon的agent节点直接支持，无需插件第三方服务监控指的是一些常见的服务监控，包括Mysql、Redis、Nginx等 OpenFalcon官网提供了很多第三方服务的监控插件，也可以自己实现插件，定义采集指标。而采集到的指标，也是通过插件先发送给agent，再由agent发送到OpenFalcon。 JVM监控主要通过插件完成，插件通过JVM开放的JMX通信端口，获取到JVM参数指标，并推送到agent节点，再由agent发送到OpenFalcon。业务应用监控就是监控企业自主开发的应用服务主要通过插件完成，插件通过JVM开放的JMX通信端口，获取到JVM参数指标，并推送到agent节点，再由agent发送到OpenFalcon。数据流向常见的OpenFalcon包含transfer、hbs、agent、judge、graph、API几个进程以下是各个节点的数据流向图，主数据流向是agent -> transfer -> judge/graph： SNMP 简述 SNMP：简单网络管理协议，是TCP/IP协议簇的一个应用层协议，由于SNMP的简单性，在Internet时代得到了蓬勃的发展，1992年发布了SNMPv2版本，以增强SNMPv1的安全性和功能。现在，已经有了SNMPv3版本（它对网络管理最大的贡献在于其安全性。增加了对认证和密文传输的支持）。一套完整的SNMP系统主要包括：管理信息库（MIB）、管理信息结构（SMI）和 SNMP报文协议为什么要用SNMP 作为运维人员，我们很大一部分的工作就是为了保证我们的网络能够正常、稳定的运行。因此监控，控制，管理各种网络设备成了我们日常的工作优点和好处优点: 简单易懂，部署的开销成本也小，正因为它足够简单，所以被广泛的接受，事实上它已经成为了主要的网络管理标准。在一个网络设备上实现SNMP的管理比绝大部分其他管理方式都简单直接。好处：标准化的协议：SNMP是TCP/IP网络的标准网络管理协议。广泛认可：所有主流供应商都支持SNMP。可移植性：SNMP独立于操作系统和编程语言。轻量级：SNMP增强对设备的管理能力的同时不会对设备的操作方式或性能产生冲击。可扩展性：在所有SNMP管理的设备上都会支持相同的一套核心操作集。广泛部署：SNMP是最流行的管理协议，最为受设备供应商关注，被广泛部署在各种各样的设备上。 MIB、SMI和SNMP报文 MIB 管理信息库MIB：任何一个被管理的资源都表示成一个对象，称为被管理的对象。 MIB是被管理对象的集合。它定义了被管理对象的一系列属性：对象的名称、对象的访问权限和对象的数据类型等。每个SNMP设备（Agent）都有自己的MIB。 MIB也可以看作是NMS（网管系统）和Agent之间的沟通桥梁。 MIB文件中的变量使用的名字取自ISO和ITU管理的对象表示符命名空间，他是一个分级数的结构 SMI SMI定义了SNNMP框架多用信息的组织、组成和标识，它还未描述MIB对象和表述协议怎么交换信息奠定了基础 SMI定义的数据类型：简单类型（simple）： Integer：整型是-2,147,483,648~2,147,483,647的有符号整数 octet string: 字符串是0~65535个字节的有序序列 OBJECT IDENTIFIER: 来自按照ASN.1规则分配的对象标识符集简单结构类型（simple-constructed ）： SEQUENCE 用于列表。这一数据类型与大多数程序设计语言中的“structure”类似。一个SEQUENCE包括0个或更多元素，每一个元素又是另一个ASN.1数据类型 SEQUENCE OF type 用于表格。这一数据类型与大多数程序设计语言中的“array”类似。一个表格包括0个或更多元素，每一个元素又是另一个ASN.1数据类型。应用类型（application-wide）： IpAddress: 以网络序表示的IP地址。因为它是一个32位的值，所以定义为4个字节； counter：计数器是一个非负的整数，它递增至最大值，而后回零。在SNMPv1中定义的计数器是32位的，即最大值为4，294，967，295； Gauge ：也是一个非负整数，它可以递增或递减，但达到最大值时保持在最大值，最大值为232-1； time ticks：是一个时间单位，表示以0.01秒为单位计算的时间； SNMP报文 SNMP规定了5种协议数据单元PDU（也就是SNMP报文），用来在管理进程和代理之间的交换。 get-request操作：从代理进程处提取一个或多个参数值。 get-next-request操作：从代理进程处提取紧跟当前参数值的下一个参数值。 set-request操作：设置代理进程的一个或多个参数值。 get-response操作：返回的一个或多个参数值。这个操作是由代理进程发出的，它是前面三种操作的响应操作。 trap操作：代理进程主动发出的报文，通知管理进程有某些事情发生。操作命令 SNMP协议之所以易于使用，这是因为它对外提供了三种用于控制MIB对象的基本操作命令。它们是：Get、Set 和 Trap。 Get：管理站读取代理者处对象的值 Set：管理站设置代理者处对象的值 Trap：代理者主动向管理站通报重要事件 SLA 简述 SLA（服务等级协议）：是关于网络服务供应商和客户之间的一份合同，其中定义了服务类型、服务质量和客户付款等术语一个完整的SLA同时也是一个合法的文档，包括所涉及的当事人、协定条款(包含应用程序和支持的服务)、违约的处罚、费用和仲裁机构、政策、修改条款、报告形式和双方的义务等。同样服务提供商可以对用户在工作负荷和资源使用方面进行规定。 KPI 简述 KPI（关键绩效指标）：是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析，衡量流程绩效的一种目标式量化管理指标，是把企业的战略目标分解为可操作的工作目标的工具，是企业绩效管理的基础。 KPI可以是部门主管明确部门的主要责任，并以此为基础，明确部门人员的业绩衡量指标，建立明确的切实可行的KPI体系，是做好绩效管理的关键。 KPI（关键绩效指标）是用于衡量工作人员工作绩效表现的量化指标，是绩效计划的重要组成部分转载于:https://www.cnblogs.com/woshinideyugegea/p/11242034.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/anqiongsha8211/article/details/101592137。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-19 16:00:05

转载

转载文章

[转载]容器实践线路图

...企业系统从0开始全新构建的场景，这种场景相对简单。容器实践路线图企业着手实践容器的路线，建议从3个维度评估，然后根据评估结果落地实施。3个评估维度为：商业目标，技术选型，团队配合。商业目标是重中之重，需要回答为何要容器化，这个也是牵引团队在容器实践路上不断前行的动力，是遇到问题是解决问题的方向指引，最重要的是让决策者认同商业目标，并能了解到支持商业目标的技术原理，上下目标对齐才好办事。商业目标确定之后，需要确定容器相关的技术选型，容器是一种轻量化的虚拟化技术，与传统虚拟机比较有优点也有缺点，要找出这些差异点识别出对基础设施与应用的影响，提前识别风险并采取应对措施。技术选型明确之后，在公司或部门内部推广与评审，让开发人员、架构师、测试人员、运维人员相关人员与团队理解与认同方案，听取他们意见，他们是直接使用容器的客户，不要让他们有抱怨。最后是落地策略，一般是选取一些辅助业务先试点，在实践过程中不断总结经验。商业目标容器技术是以应用为中心的轻量级虚拟化技术，而传统的Xen与KVM是以资源为中心的虚拟化技术，这是两者的本质差异。以应用为中心是容器技术演进的指导原则，正是在这个原则指导下，容器技术相对于传统虚拟化有几个特点：打包既部署、镜像分层、应用资源调度。打包即部署：打包即部署是指在容器镜像制作过程包含了传统软件包部署的过程（安装依赖的操作系统库或工具、创建用户、创建运行目录、解压、设置文件权限等等），这么做的好处是把应用及其依赖封装到了一个相对封闭的环境，减少了应用对外部环境的依赖，增强了应用在各种不同环境下的行为一致性，同时也减少了应用部署时间。镜像分层：容器镜像包是分层结构，同一个主机上的镜像层是可以在多个容器之间共享的，这个机制可以极大减少镜像更新时候拉取镜像包的时间，通常应用程序更新升级都只是更新业务层（如Java程序的jar包），而镜像中的操作系统Lib层、运行时（如Jre）层等文件不会频繁更新。因此新版本镜像实质有变化的只有很小的一部分，在更新升级时候也只会从镜像仓库拉取很小的文件，所以速度很快。应用资源调度：资源（计算/存储/网络）都是以应用为中心的，中心体现在资源分配是按照应用粒度分配资源、资源随应用迁移。基于上述容器技术特点，可以推导出容器技术的3大使用场景：CI/CD、提升资源利用率、弹性伸缩。这3个使用场景自然推导出通用的商业层面收益：CI/CD提升研发效率、提升资源利用率降低成本、按需弹性伸缩在体验与成本之间达成平衡。当然，除了商业目标之外，可能还有其他一些考虑因素，如基于容器技术实现计算任务调度平台、保持团队技术先进性等。 CI/CD提升研发效率为什么容器技术适合CI/CD CI/CD是DevOps的关键组成部分，DevOps是一套软件工程的流程，用于持续提升软件开发效率与软件交付质量。DevOps流程来源于制造业的精益生产理念，在这个领域的领头羊是丰田公司，《丰田套路》这本书总结丰田公司如何通过PDCA(Plan-Do-Check-Act)方法实施持续改进。PDCA通常也称为PDCA循环，PDCA实施过程简要描述为：确定目标状态、分析当前状态、找出与目标状态的差距、制定实施计划、实施并总结、开始下一个PDCA过程。 DevOps基本也是这么一个PDCA流程循环，很容易认知到PDCA过程中效率是关键，同一时间段内，实施更多数量的PDCA过程，收益越高。在软件开发领域的DevOps流程中，各种等待（等待编译、等待打包、等待部署等）、各种中断（部署失败、机器故障）是影响DevOps流程效率的重要因素。容器技术出来之后，将容器技术应用到DevOps场景下，可以从技术手段消除DevOps流程中的部分等待与中断，从而大幅度提升DevOps流程中CI/CD的效率。容器的OCI标准定义了容器镜像规范，容器镜像包与传统的压缩包(zip/tgz等)相比有两个关键区别点：1）分层存储；2）打包即部署。分层存储可以极大减少镜像更新时候拉取镜像包的时间，通常应用程序更新升级都只是更新业务层（如Java程序的jar包），而镜像中的操作系统Lib层、运行时（如Jre）层等文件不会频繁更新。因此新版本镜像实质有变化的只有很小的一部分，在更新升级时候也只会从镜像仓库拉取很小的文件，所以速度很快。打包即部署是指在容器镜像制作过程包含了传统软件包部署的过程（安装依赖的操作系统库或工具、创建用户、创建运行目录、解压、设置文件权限等等），这么做的好处是把应用及其依赖封装到了一个相对封闭的环境，减少了应用对外部环境的依赖，增强了应用在各种不同环境下的行为一致性，同时也减少了应用部署时间。基于容器镜像的这些优势，容器镜像用到CI/CD场景下，可以减少CI/CD过程中的等待时间，减少因环境差异而导致的部署中断，从而提升CI/CD的效率，提升整体研发效率。 CI/CD的关键诉求与挑战快开发人员本地开发调试完成后，提交代码，执行构建与部署，等待部署完成后验证功能。这个等待的过程尽可能短，否则开发人员工作容易被打断，造成后果就是效率降低。如果提交代码后几秒钟就能够完成部署，那么开发人员几乎不用等待，工作也不会被打断；如果需要好几分钟或十几分钟，那么可以想象，这十几分钟就是浪费了，这时候很容易做点别的事情，那么思路又被打断了。所以构建CI/CD环境时候，快是第一个需要考虑的因素。要达到快，除了有足够的机器资源免除排队等待，引入并行编译技术也是常用做法，如Maven3支持多核并行构建。自定义流程不同行业存在不同的行业规范、监管要求，各个企业有一套内部质量规范，这些要求都对软件交付流程有定制需求，如要求使用商用的代码扫描工具做安全扫描，如构建结果与企业内部通信系统对接发送消息。在团队协同方面，不同的公司，对DevOps流程在不同团队之间分工有差异，典型的有开发者负责代码编写构建出构建物（如jar包），而部署模板、配置由运维人员负责；有的企业开发人员负责构建并部署到测试环境；有的企业开发人员直接可以部署到生产环境。这些不同的场景，对CI/CD的流程、权限管控都有定制需求。提升资源利用率 OCI标准包含容器镜像标准与容器运行时标准两部分，容器运行时标准聚焦在定义如何将镜像包从镜像仓库拉取到本地并更新、如何隔离运行时资源这些方面。得益于分层存储与打包即部署的特性，容器镜像从到镜像仓库拉取到本地运行速度非常快（通常小于30秒，依赖镜像本身大小等因素），基于此可以实现按需分配容器运行时资源（cpu与内存），并限定单个容器资源用量；然后根据容器进程资源使用率设定弹性伸缩规则，实现自动的弹性伸缩。这种方式相对于传统的按峰值配置资源方式，可以提升资源利用率。按需弹性伸缩在体验与成本之间达成平衡联动弹性伸缩应用运行到容器，按需分配资源之后，理想情况下，Kubernetes的池子里没有空闲的资源。这时候扩容应用实例数，新扩容的实例会因资源不足调度失败。这时候需要资源池能自动扩容，加入新的虚拟机，调度新扩容的应用。由于应用对资源的配比与Flavor有要求，因此新加入的虚拟机，应当是与应用所需要的资源配比与Flavor一致的。缩容也是类似。弹性伸缩还有一个诉求点是“平滑”，对业务做到不感知，也称为“优雅”扩容/缩容。请求风暴上面提到的弹性伸缩一般是有计划或缓慢增压的场景，存在另外一种无法预期的请求风暴场景，这种场景的特征是无法预测、突然请求量增大数倍或数十倍、持续时间短。典型的例子如行情交易系统，当行情突变的时候，用户访问量徒增，持续几十分钟或一个小时。这种场景的弹性诉求，要求短时间内能将资源池扩大数倍，关键是速度要快（秒级），否则会来不及扩容，系统已经被冲垮（如果无限流的话）。目前基于 Virtual Kubelet 与云厂家的 Serverless 容器，理论上可以提供应对请求风暴的方案。不过在具体实施时候，需要考虑传统托管式Kubernetes容器管理平台与Serverless容器之间互通的问题，需要基于具体厂家提供的能力来评估。基于容器技术实现计算调度平台计算（大数据/AI训练等）场景的特征是短时间内需要大量算力，算完即释放。容器的环境一致性以及调度便利性适合这种场景。技术选型容器技术是属于基础设施范围，但是与传统虚拟化技术（Xen/KVM）比较，容器技术是应用虚拟化，不是纯粹的资源虚拟化，与传统虚拟化存在差异。在容器技术选型时候，需要结合当前团队在应用管理与资源管理的现状，对照容器技术与虚拟化技术的差异，选择最合适的容器技术栈。什么是容器技术 (1)容器是一种轻量化的应用虚拟化技术。在讨论具体的容器技术栈的时候，先介绍目前几种常用的应用虚拟化技术，当前有3种主流的应用虚拟化技术: LXC，MicroVM，UniKernel（LibOS）。 LXC: Linux Container，通过 Linux的 namespace/cgroups/chroot 等技术隔离进程资源，目前应用最广的docker就是基于LXC实现应用虚拟化的。 MicroVM: MicroVM 介于传统的VM 与 LXC之间，隔离性比LXC好，但是比传统的VM要轻量，轻量体现在体积小（几M到几十M）、启动快（小于1s）。 AWS Firecracker 就是一种MicroVM的实现，用于AWS的Serverless计算领域，Serverless要求启动快，租户之间隔离性好。 UniKernel: 是一种专用的（特定编程语言技术栈专用）、单地址空间、使用 library OS 构建出来的镜像。UniKernel要解决的问题是减少应用软件的技术栈层次，现代软件层次太多导致越来越臃肿：硬件+HostOS+虚拟化模拟+GuestOS+APP。UniKernel目标是：硬件+HostOS+虚拟化模拟+APP-with-libos。三种技术对比表：开销体积启动速度隔离/安全生态 LXC 低（几乎为0）小快（等同进程启动）差（内核共享）好 MicroVM 高大慢(小于1s) 好中（Kata项目） UniKernel 中中中好差根据上述对比来看，LXC是应用虚拟化首选的技术，如果LXC无法满足隔离性要，则可以考虑MicroVM这种技术。当前社区已经在着手融合LXC与MicroVM这两种技术，从应用打包/发布调度/运行层面统一规范，Kubernetes集成Kata支持混合应用调度特性可以了解一下。 UniKernel 在应用生态方面相对比较落后，目前在追赶中，目前通过 linuxkit 工具可以在UniKernel应用镜像中使用docker镜像。这种方式笔者还未验证过，另外docker镜像运行起来之后，如何监控目前还未知。从上述三种应用虚拟化技术对比，可以得出结论: （2)容器技术与传统虚拟化技术不断融合中。再从规范视角来看容器技术，可以将容器技术定义为: (3)容器=OCI+CRI+辅助工具。 OCI规范包含两部分，镜像规范与运行时规范。简要的说，要实现一个OCI的规范，需要能够下载镜像并解压镜像到文件系统上组成成一个文件目录结构，运行时工具能够理解这个目录结构并基于此目录结构管理（创建/启动/停止/删除）进程。容器(container)的技术构成就是实现OCI规范的技术集合。对于不同的操作系统（Linux/Windows），OCI规范的实现技术不同，当前docker的实现，支持Windows与Linux与MacOS操作系统。当前使用最广的是Linux系统，OCI的实现，在Linux上组成容器的主要技术： chroot: 通过分层文件系统堆叠出容器进程的rootfs，然后通过chroot设置容器进程的根文件系统为堆叠出的rootfs。 cgroups: 通过cgroups技术隔离容器进程的cpu/内存资源。 namesapce: 通过pid, uts, mount, network, user namesapce 分别隔离容器进程的进程ID，时间，文件系统挂载，网络，用户资源。网络虚拟化: 容器进程被放置到独立的网络命名空间，通过Linux网络虚拟化veth, macvlan, bridge等技术连接主机网络与容器虚拟网络。存储驱动: 本地文件系统，使用容器镜像分层文件堆叠的各种实现驱动，当前推荐的是overlay2。广义的容器还包含容器编排，即当下很火热的Kubernetes。Kubernetes为了把控容器调度的生态，发布了CRI规范，通过CRI规范解耦Kubelet与容器，只要实现了CRI接口，都可以与Kubelet交互，从而被Kubernetes调度。OCI规范的容器实现与CRI标准接口对接的实现是CRI-O。辅助工具用户构建镜像，验证镜像签名，管理存储卷等。容器定义容器是一种轻量化的应用虚拟化技术。容器=OCI+CRI+辅助工具。容器技术与传统虚拟化技术不断融合中。什么是容器编排与调度选择了应用虚拟化技术之后，还需要应用调度编排，当前Kubernetes是容器领域内编排的事实标准，不管使用何种应用虚拟化技术，都已经纳入到了Kubernetes治理框架中。 Kubernetes 通过 CRI 接口规范，将应用编排与应用虚拟化实现解耦：不管使用何种应用虚拟化技术（LXC, MicroVM, LibOS），都能够通过Kubernetes统一编排。当前使用最多的是docker，其次是cri-o。docker与crio结合kata-runtime都能够支持多种应用虚拟化技术混合编排的场景，如LXC与MicroVM混合编排。 docker(now): Moby 公司贡献的 docker 相关部件，当前主流使用的模式。 docker(daemon) 提供对外访问的API与CLI(docker client) containerd 提供与 kubelet 对接的 CRI 接口实现 shim负责将Pod桥接到Host namespace。 cri-o: 由 RedHat/Intel/SUSE/IBM/Hyper 公司贡献的实现了CRI接口的符合OCI规范的运行时，当前包括 runc 与 kata-runtime ，也就是说使用 cir-o 可以同时运行LXC容器与MicroVM容器，具体在Kata介绍中有详细说明。 CRI-O: 实现了CRI接口的进程，与 kubelet 交互 crictl: 类似 docker 的命令行工具 conmon: Pod监控进程 other cri runtimes: 其他的一些cri实现，目前没有大规模应用到生产环境。容器与传统虚拟化差异容器(container)的技术构成前面主要讲到的是容器与编排，包括CRI接口的各种实现，我们把容器领域的规范归纳为南向与北向两部分，CRI属于北向接口规范，对接编排系统，OCI就属于南向接口规范，实现应用虚拟化。简单来讲，可以这么定义容器：容器(container) ~= 应用打包(build) + 应用分发(ship) + 应用运行/资源隔离(run)。 build-ship-run 的内容都被定义到了OCI规范中，因此也可以这么定义容器：容器(container) == OCI规范 OCI规范包含两部分，镜像规范与运行时规范。简要的说，要实现一个OCI的规范，需要能够下载镜像并解压镜像到文件系统上组成成一个文件目录结构，运行时工具能够理解这个目录结构并基于此目录结构管理（创建/启动/停止/删除）进程。容器(container)的技术构成就是实现OCI规范的技术集合。对于不同的操作系统（Linux/Windows），OCI规范的实现技术不同，当前docker的实现，支持Windows与Linux与MacOS操作系统。当前使用最广的是Linux系统，OCI的实现，在Linux上组成容器的主要技术： chroot: 通过分层文件系统堆叠出容器进程的rootfs，然后通过chroot设置容器进程的根文件系统为堆叠出的rootfs。 cgroups: 通过cgroups技术隔离容器进程的cpu/内存资源。 namesapce: 通过pid, uts, mount, network, user namesapce 分别隔离容器进程的进程ID，时间，文件系统挂载，网络，用户资源。网络虚拟化: 容器进程被放置到独立的网络命名空间，通过Linux网络虚拟化veth, macvlan, bridge等技术连接主机网络与容器虚拟网络。存储驱动: 本地文件系统，使用容器镜像分层文件堆叠的各种实现驱动，当前推荐的是overlay2。广义的容器还包含容器编排，即当下很火热的Kubernetes。Kubernetes为了把控容器调度的生态，发布了CRI规范，通过CRI规范解耦Kubelet与容器，只要实现了CRI接口，都可以与Kubelet交互，从而被Kubernetes调度。OCI规范的容器实现与CRI标准接口对接的实现是CRI-O。容器与虚拟机差异对比容器与虚拟机的差异可以总结为2点：应用打包与分发的差异，应用资源隔离的差异。当然，导致这两点差异的根基是容器是以应用为中心来设计的，而虚拟化是以资源为中心来设计的，本文对比容器与虚拟机的差异，更多的是站在应用视角来对比。从3个方面对比差异：资源隔离，应用打包与分发，延伸的日志/监控/DFX差异。 1.资源隔离隔离机制差异容器虚拟化 mem/cpu cgroup, 使用时候设定 require 与 limit 值 QEMU, KVM network Linux网络虚拟化技术(veth,tap,bridge,macvlan,ipvlan), 跨虚拟机或出公网访问:SNAT/DNAT, service转发:iptables/ipvs, SR-IOV Linux网络虚拟化技术(veth,tap,bridge,macvlan,ipvlan), QEMU, SR-IOV storage 本地存储: 容器存储驱动本地存储：virtio-blk 差异引入问题与实践建议应用程序未适配 cgroup 的内存隔离导致问题: 典型的是 JVM 虚拟机，在 JVM 启动时候会根据系统内存自动设置 MaxHeapSize 值，通常是系统内存的1/4，但是 JVM 并未考虑 cgroup 场景，读系统内存时候任然读取主机的内存来设置 MaxHeapSize，这样会导致内存超过 cgroup 限制从而导致进程被 kill 。问题详细阐述与解决建议参考Java inside docker: What you must know to not FAIL。多次网络虚拟化问题: 如果在虚拟机内使用容器，会多一层网络虚拟化，并加入了SNAT/DNAT技术, iptables/ipvs技术，对网络吞吐量与时延都有影响（具体依赖容器网络方案），对问题定位复杂度变高，同时还需要注意网络内核参数调优。典型的网络调优参数有：转发表大小 /proc/sys/net/netfilter/nf_conntrack_max 使用iptables 作为service转发实现的时候，在转发规则较多的时候，iptables更新由于需要全量更新导致非常耗时，建议使用ipvs。详细参考[华为云在 K8S 大规模场景下的 Service 性能优化实践](https://zhuanlan.zhihu.com/p/37230013)。容器IP地址频繁变化不固定，周边系统需要协调适配，包括基于IP地址的白名单或防火墙控制策略需要调整，CMDB记录的应用IP地址需要适配动态IP或者使用服务名替代IP地址。存储驱动带来的性能损耗: 容器本地文件系统是通过联合文件系统方式堆叠出来的，当前主推与默认提供的是overlay2驱动，这种模式应用写本地文件系统文件或修改已有文件，使用Copy-On-Write方式，也就是会先拷贝源文件到可写层然后修改，如果这种操作非常频繁，建议使用 volume 方式。 2.应用打包与分发应用打包/分发/调度差异容器虚拟化打包打包既部署一般不会把应用程序与虚拟机打包在一起，通过部署系统部署应用分发使用镜像仓库存储与分发使用文件存储调度运行使用K8S亲和/反亲和调度策略使用部署系统的调度能力差异引入问题与实践建议部署提前到构建阶段，应用需要支持动态配置与静态程序分离；如果在传统部署脚本中依赖外部动态配置，这部分需要做一些调整。打包格式发生变化，制作容器镜像需要注意安全/效率因素，可参考Dockerfile最佳实践容器镜像存储与分发是按layer来组织的，镜像在传输过程中放篡改的方式是传统软件包有差异。 3.监控/日志/DFX 差异容器虚拟化监控 cpu/mem的资源上限是cgroup定义的；containerd/shim/docker-daemon等进程的监控传统进程监控日志采集 stdout/stderr日志采集方式变化；日志持久化需要挂载到volume；进程会被随机调度到其他节点导致日志需要实时采集否则分散很难定位传统日志采集问题定位进程down之后自动拉起会导致问题定位现场丢失；无法停止进程来定位问题因为停止即删除实例传统问题定位手段差异引入问题实践与建议使用成熟的监控工具，运行在docker中的应用使用cadvisor+prometheus实现采集与警报，cadvisor中预置了常用的监控指标项对于docker管理进程（containerd/shim/docker-daemon）也需要一并监控使用成熟的日志采集工具，如果已有日志采集Agent，则可以考虑将日志文件挂载到volume后由Agent采集；需要注意的是stderr/stdout输出也要一并采集如果希望容器内应用进程退出后保留现场定位问题，则可以将Pod的restartPolicy设置为never，进程退出后进程文件都还保留着(/var/lib/docker/containers)。但是这么做的话需要进程没有及时恢复，会影响业务，需要自己实现进程重拉起。团队配合与周边的开发团队、架构团队、测试团队、运维团队评审并交流方案，与周边团队达成一致。落地策略与注意事项逐步演进过程中网络互通根据当前已经存在的基础实施情况，选择容器化落地策略。通常使用逐步演进的方式，由于容器化引入了独立的网络namespace导致容器与传统虚拟机进程网络隔离，逐步演进过程中如何打通隔离的网络是最大的挑战。分两种场景讨论：不同服务集群之间使用VIP模式互通: 这种模式相对简单，基于VIP做灰度发布。不同服务集群之间使用微服务点对点模式互通(SpringCloud/ServiceComb/Dubbo都是这一类): 这种模式相对复杂，在逐步容器化过程中，要求容器网络与传统虚拟机网络能够互通（难点是在虚拟机进程内能够直接访问到容器网络的IP地址），当前解决这个问题有几种方法。自建Kubernetes场景，可使用开源的kube-router，kube-router 使用BGP协议实现容器网络与传统虚拟机网络之间互通，要求网络交换机支持BGP协议。使用云厂商托管Kubernetes场景，选择云厂商提供的VPC-Router互通的网络插件，如阿里云的Terway网络插件, 华为云的Underlay网络模式。选择物理机还是虚拟机选择物理机运行容器还是虚拟机运行容器，需要结合基础设施与业务隔离性要求综合考虑。分两种场景：自建IDC、租用公有云。自建IDC: 理想情况是使用物理机组成一个大集群，根据业务诉求，对资源保障与安全性要求高的应用，使用MicorVM方式隔离；普通应用使用LXC方式隔离。所有物理机在一个大集群内，方便削峰填谷提升资源利用率。租用公有云：当前公有云厂家提供的裸金属服务价格较贵且只能包周期，使用裸金属性价比并不高，使用虚拟机更合适。集群规模与划分选择集群时候，是多个应用共用一个大集群，还是按应用分组分成多个小集群呢？我们把节点规模数量>=1000的定义为大集群，节点数<1000的定义为小集群。大集群的优点是资源池共享容器，方便资源调度（削峰填谷）；缺点是随着节点数量与负载数量的增多，会引入管理性能问题（需要量化）: DNS 解析表变大，增加/删除 Service 或增加/删除 Endpoint 导致DNS表刷新慢 K8S Service 转发表变大，导致工作负载增加/删除刷新iptables/ipvs记录变慢 etcd 存储空间变大，如果加上ConfigMap，可能导致 etcd 访问时延增加小集群的优点是不会有管理性能问题，缺点是会导致资源碎片化，不容易共享。共享分两种情况: 应用之间削峰填谷：目前无法实现计算任务与应用之间削峰填谷：由于计算任务是短时任务，可以通过上层的任务调度软件，在多个集群之间分发计算任务，从而达到集群之间资源共享的目的。选择集群规模的时候，可以参考上述分析，结合实际情况选择适合的集群划分。 Helm? Helm是为了解决K8S管理对象散碎的问题，在K8S中并没有"应用"的概念，只有一个个散的对象(Deployment, ConfigMap, Service, etc)，而一个"应用"是多个对象组合起来的，且这些对象之间还可能存在一定的版本配套关系。 Helm 通过将K8S多个对象打包为一个包并标注版本号形成一个"应用"，通过 Helm 管理进程部署/升级这个"应用"。这种方式解决了一些问题（应用分发更方便）同时也引入了一些问题（引入Helm增加应用发布/管理复杂度、在K8S修改了对象后如何同步到Helm）。对于是否需要使用Helm，建议如下：在自运维模式下不使用Helm: 自运维模式下，很多场景是开发团队交付一个运行包，运维团队负责部署与配置下发，内部通过兼容性或软件包与配置版本配套清单、管理软件包与配置的配套关系。在交付软件包模式下使用Helm: 交付软件包模式下，Helm 这种把散碎组件组装为一个应用的模式比较适合，使用Helm实现软件包分发/部署/升级场比较简单。 Reference DOCKER vs LXC vs VIRTUAL MACHINES Cgroup与LXC简介 Introducing Container Runtime Interface (CRI) in Kubernetes frakti rkt appc-spec OCI 和 runc：容器标准化和 docker Linux 容器技术史话：从 chroot 到未来 Linux Namespace和Cgroup Java inside docker: What you must know to not FAIL QEMU,KVM及QEMU-KVM介绍 kvm libvirt qemu实践系列(一)-kvm介绍 KVM 介绍（4）：I/O 设备直接分配和 SR-IOV [KVM PCI/PCIe Pass-Through SR-IOV] prometheus-book 到底什么是Unikernel？ The Rise and Fall of the Operating System The Design and Implementation of the Anykernel and Rump Kernels UniKernel Unikernel：从不入门到入门 OSv 京东如何打造K8s全球最大集群支撑万亿电商交易 Cloud Native App Hub 更多云最佳实践 https://best.practices.cloud 本篇文章为转载内容。原文链接：https://blog.csdn.net/sinat_33155975/article/details/118013855。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-17 15:03:28

225

转载

转载文章

[转载]Redis 原理

...再消费，但是会有两个问题: 1、如果生产者生产消息的速度远大于消费者消费消息的速度，List 会占用大量的内存。 2、消息的实时性降低。 list 还提供了一个阻塞的命令:blpop，没有任何元素可以弹出的时候，连接会被阻塞。基于 list 实现的消息队列，不支持一对多的消息分发。 1.2 发布订阅模式除了通过 list 实现消息队列之外，Redis 还提供了一组命令实现发布/订阅模式。这种方式，发送者和接收者没有直接关联(实现了解耦)，接收者也不需要持续尝试获取消息。 1.2.1 订阅频道首先，我们有很多的频道(channel)，我们也可以把这个频道理解成 queue。订阅者可以订阅一个或者多个频道。消息的发布者(生产者)可以给指定的频道发布消息。只要有消息到达了频道，所有订阅了这个频道的订阅者都会收到这条消息。需要注意的注意是，发出去的消息不会被持久化，因为它已经从队列里面移除了，所以消费者只能收到它开始订阅这个频道之后发布的消息。下面我们来看一下发布订阅命令的使用方法。订阅者订阅频道：可以一次订阅多个，比如这个客户端订阅了 3 个频道。 subscribe channel-1 channel-2 channel-3 发布者可以向指定频道发布消息(并不支持一次向多个频道发送消息): publish channel-1 2673 取消订阅(不能在订阅状态下使用): unsubscribe channel-1 1.2.2 按规则(Pattern)订阅频道支持 ?和占位符。? 代表一个字符，代表 0 个或者多个字符。消费端 1，关注运动信息: psubscribe sport 消费端 2，关注所有新闻: psubscribe news 消费端 3，关注天气新闻: psubscribe news-weather 生产者，发布 3 条信息 publish news-sport yaoming publish news-music jaychou publish news-weather rain 2、Redis 事务 2.1 为什么要用事务我们知道 Redis 的单个命令是原子性的(比如 get set mget mset)，如果涉及到多个命令的时候，需要把多个命令作为一个不可分割的处理序列，就需要用到事务。例如我们之前说的用 setnx 实现分布式锁，我们先 set，然后设置对 key 设置 expire，防止 del 发生异常的时候锁不会被释放，业务处理完了以后再 del，这三个动作我们就希望它们作为一组命令执行。 Redis 的事务有两个特点: 1、按进入队列的顺序执行。 2、不会受到其他客户端的请求的影响。 Redis 的事务涉及到四个命令:multi(开启事务)，exec(执行事务)，discard (取消事务)，watch(监视) 2.2 事务的用法案例场景:tom 和 mic 各有 1000 元，tom 需要向 mic 转账 100 元。tom 的账户余额减少 100 元，mic 的账户余额增加 100 元。通过 multi 的命令开启事务。事务不能嵌套，多个 multi 命令效果一样。 multi 执行后，客户端可以继续向服务器发送任意多条命令，这些命令不会立即被执行，而是被放到一个队列中，当 exec 命令被调用时，所有队列中的命令才会被执行。通过 exec 的命令执行事务。如果没有执行 exec，所有的命令都不会被执行。如果中途不想执行事务了，怎么办? 可以调用 discard 可以清空事务队列，放弃执行。 2.3 watch命令在 Redis 中还提供了一个 watch 命令。它可以为 Redis 事务提供 CAS 乐观锁行为(Check and Set / Compare and Swap)，也就是多个线程更新变量的时候，会跟原值做比较，只有它没有被其他线程修改的情况下，才更新成新的值。我们可以用 watch 监视一个或者多个 key，如果开启事务之后，至少有一个被监视 key 键在 exec 执行之前被修改了，那么整个事务都会被取消(key 提前过期除外)。可以用 unwatch 取消。 2.4 事务可能遇到的问题我们把事务执行遇到的问题分成两种，一种是在执行 exec 之前发生错误，一种是在执行 exec 之后发生错误。 2.4.1 在执行 exec 之前发生错误比如：入队的命令存在语法错误，包括参数数量，参数名等等(编译器错误)。在这种情况下事务会被拒绝执行，也就是队列中所有的命令都不会得到执行。 2.4.2 在执行 exec 之后发生错误比如，类型错误，比如对 String 使用了 Hash 的命令，这是一种运行时错误。最后我们发现 set k1 1 的命令是成功的，也就是在这种发生了运行时异常的情况下，只有错误的命令没有被执行，但是其他命令没有受到影响。这个显然不符合我们对原子性的定义，也就是我们没办法用 Redis 的这种事务机制来实现原子性，保证数据的一致。 3、Lua脚本 Lua/ˈluə/是一种轻量级脚本语言，它是用 C 语言编写的，跟数据的存储过程有点类似。使用 Lua 脚本来执行 Redis 命令的好处: 1、一次发送多个命令，减少网络开销。 2、Redis 会将整个脚本作为一个整体执行，不会被其他请求打断，保持原子性。 3、对于复杂的组合命令，我们可以放在文件中，可以实现程序之间的命令集复用。 3.1 在Redis中调用Lua脚本使用 eval /ɪ’væl/ 方法，语法格式: redis> eval lua-script key-num [key1 key2 key3 ....] [value1 value2 value3 ....] eval代表执行Lua语言的命令。 lua-script代表Lua语言脚本内容。 key-num表示参数中有多少个key，需要注意的是Redis中key是从1开始的，如果没有key的参数，那么写0。 [key1key2key3…]是key作为参数传递给Lua语言，也可以不填，但是需要和key-num的个数对应起来。 [value1 value2 value3 …]这些参数传递给 Lua 语言，它们是可填可不填的。示例，返回一个字符串，0 个参数: redis> eval "return 'Hello World'" 0 3.2 在Lua脚本中调用Redis命令使用 redis.call(command, key [param1, param2…])进行操作。语法格式: redis> eval "redis.call('set',KEYS[1],ARGV[1])" 1 lua-key lua-value command是命令，包括set、get、del等。 key是被操作的键。 param1,param2…代表给key的参数。注意跟 Java 不一样，定义只有形参，调用只有实参。 Lua 是在调用时用 key 表示形参，argv 表示参数值(实参)。 3.2.1 设置键值对在 Redis 中调用 Lua 脚本执行 Redis 命令 redis> eval "return redis.call('set',KEYS[1],ARGV[1])" 1 gupao 2673 redis> get gupao 以上命令等价于 set gupao 2673。在 redis-cli 中直接写 Lua 脚本不够方便，也不能实现编辑和复用，通常我们会把脚本放在文件里面，然后执行这个文件。 3.2.2 在 Redis 中调用 Lua 脚本文件中的命令，操作 Redis 创建 Lua 脚本文件: cd /usr/local/soft/redis5.0.5/src vim gupao.lua Lua 脚本内容，先设置，再取值: cd /usr/local/soft/redis5.0.5/src redis-cli --eval gupao.lua 0 得到返回值: root@localhost src] redis-cli --eval gupao.lua 0 "lua666" 3.2.3 案例:对 IP 进行限流需求：在 X 秒内只能访问 Y 次。设计思路：用 key 记录 IP，用 value 记录访问次数。拿到 IP 以后，对 IP+1。如果是第一次访问，对 key 设置过期时间(参数 1)。否则判断次数，超过限定的次数(参数 2)，返回 0。如果没有超过次数则返回 1。超过时间， key 过期之后，可以再次访问。 KEY[1]是 IP， ARGV[1]是过期时间 X，ARGV[2]是限制访问的次数 Y。 -- ip_limit.lua-- IP 限流，对某个 IP 频率进行限制，6 秒钟访问 10 次 local num=redis.call('incr',KEYS[1])if tonumber(num)==1 thenredis.call('expire',KEYS[1],ARGV[1])return 1elseif tonumber(num)>tonumber(ARGV[2]) thenreturn 0 elsereturn 1 end 6 秒钟内限制访问 10 次，调用测试(连续调用 10 次): ./redis-cli --eval "ip_limit.lua" app:ip:limit:192.168.8.111 , 6 10 app:ip:limit:192.168.8.111 是 key 值，后面是参数值，中间要加上一个空格和一个逗号，再加上一个空格。即:./redis-cli –eval [lua 脚本] [key…]空格,空格[args…] 多个参数之间用一个空格分割。代码:LuaTest.java 3.2.4 缓存 Lua 脚本为什么要缓存在脚本比较长的情况下，如果每次调用脚本都需要把整个脚本传给 Redis 服务端，会产生比较大的网络开销。为了解决这个问题，Redis 提供了 EVALSHA 命令，允许开发者通过脚本内容的 SHA1 摘要来执行脚本。如何缓存 Redis 在执行 script load 命令时会计算脚本的 SHA1 摘要并记录在脚本缓存中，执行 EVALSHA 命令时 Redis 会根据提供的摘要从脚本缓存中查找对应的脚本内容，如果找到了则执行脚本，否则会返回错误:“NOSCRIPT No matching script. Please use EVAL.” 127.0.0.1:6379> script load "return 'Hello World'" "470877a599ac74fbfda41caa908de682c5fc7d4b"127.0.0.1:6379> evalsha "470877a599ac74fbfda41caa908de682c5fc7d4b" 0 "Hello World" 3.2.5 自乘案例 Redis 有 incrby 这样的自增命令，但是没有自乘，比如乘以 3，乘以 5。我们可以写一个自乘的运算，让它乘以后面的参数： local curVal = redis.call("get", KEYS[1]) if curVal == false thencurVal = 0 elsecurVal = tonumber(curVal)endcurVal = curVal tonumber(ARGV[1]) redis.call("set", KEYS[1], curVal) return curVal 把这个脚本变成单行，语句之间使用分号隔开 local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal script load ‘命令’ 127.0.0.1:6379> script load 'local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal' "be4f93d8a5379e5e5b768a74e77c8a4eb0434441" 调用: 127.0.0.1:6379> set num 2OK127.0.0.1:6379> evalsha be4f93d8a5379e5e5b768a74e77c8a4eb0434441 1 num 6 (integer) 12 3.2.6 脚本超时 Redis 的指令执行本身是单线程的，这个线程还要执行客户端的 Lua 脚本，如果 Lua 脚本执行超时或者陷入了死循环，是不是没有办法为客户端提供服务了呢? eval 'while(true) do end' 0 为了防止某个脚本执行时间过长导致 Redis 无法提供服务，Redis 提供了 lua-time-limit 参数限制脚本的最长运行时间，默认为 5 秒钟。 lua-time-limit 5000(redis.conf 配置文件中) 当脚本运行时间超过这一限制后，Redis 将开始接受其他命令但不会执行(以确保脚本的原子性，因为此时脚本并没有被终止)，而是会返回“BUSY”错误。 Redis 提供了一个 script kill 的命令来中止脚本的执行。新开一个客户端: script kill 如果当前执行的 Lua 脚本对 Redis 的数据进行了修改(SET、DEL 等)，那么通过 script kill 命令是不能终止脚本运行的。 127.0.0.1:6379> eval "redis.call('set','gupao','666') while true do end" 0 因为要保证脚本运行的原子性，如果脚本执行了一部分终止，那就违背了脚本原子性的要求。最终要保证脚本要么都执行，要么都不执行。 127.0.0.1:6379> script kill(error) UNKILLABLE Sorry the script already executed write commands against the dataset. You can either wait the scripttermination or kill the server in a hard way using the SHUTDOWN NOSAVE command. 遇到这种情况，只能通过 shutdown nosave 命令来强行终止 redis。 shutdown nosave 和 shutdown 的区别在于 shutdown nosave 不会进行持久化操作，意味着发生在上一次快照后的数据库修改都会丢失。 4、Redis 为什么这么快? 4.1 Redis到底有多快？根据官方的数据，Redis 的 QPS 可以达到 10 万左右(每秒请求数)。 4.2 Redis为什么这么快? 总结:1)纯内存结构、2)单线程、3)多路复用 4.2.1 内存 KV 结构的内存数据库，时间复杂度 O(1)。第二个，要实现这么高的并发性能，是不是要创建非常多的线程? 恰恰相反，Redis 是单线程的。 4.2.2 单线程单线程有什么好处呢? 1、没有创建线程、销毁线程带来的消耗 2、避免了上线文切换导致的 CPU 消耗 3、避免了线程之间带来的竞争问题，例如加锁释放锁死锁等等 4.2.3 异步非阻塞异步非阻塞 I/O，多路复用处理并发连接。 4.3 Redis为什么是单线程的? 不是白白浪费了 CPU 的资源吗? 因为单线程已经够用了，CPU 不是 redis 的瓶颈。Redis 的瓶颈最有可能是机器内存或者网络带宽。既然单线程容易实现，而且 CPU 不会成为瓶颈，那就顺理成章地采用单线程的方案了。 4.4 单线程为什么这么快? 因为 Redis 是基于内存的操作，我们先从内存开始说起。 4.4.1 虚拟存储器(虚拟内存 Vitual Memory) 名词解释:主存:内存;辅存:磁盘(硬盘) 计算机主存(内存)可看作一个由 M 个连续的字节大小的单元组成的数组，每个字节有一个唯一的地址，这个地址叫做物理地址(PA)。早期的计算机中，如果 CPU 需要内存，使用物理寻址，直接访问主存储器。这种方式有几个弊端: 1、在多用户多任务操作系统中，所有的进程共享主存，如果每个进程都独占一块物理地址空间，主存很快就会被用完。我们希望在不同的时刻，不同的进程可以共用同一块物理地址空间。 2、如果所有进程都是直接访问物理内存，那么一个进程就可以修改其他进程的内存数据，导致物理地址空间被破坏，程序运行就会出现异常。为了解决这些问题，我们就想了一个办法，在 CPU 和主存之间增加一个中间层。CPU 不再使用物理地址访问，而是访问一个虚拟地址，由这个中间层把地址转换成物理地址，最终获得数据。这个中间层就叫做虚拟存储器(Virtual Memory)。具体的操作如下所示: 在每一个进程开始创建的时候，都会分配一段虚拟地址，然后通过虚拟地址和物理地址的映射来获取真实数据，这样进程就不会直接接触到物理地址，甚至不知道自己调用的哪块物理地址的数据。目前，大多数操作系统都使用了虚拟内存，如 Windows 系统的虚拟内存、Linux 系统的交换空间等等。Windows 的虚拟内存(pagefile.sys)是磁盘空间的一部分。在 32 位的系统上，虚拟地址空间大小是 2^32bit=4G。在 64 位系统上，最大虚拟地址空间大小是多少? 是不是 2^64bit=10241014TB=1024PB=16EB?实际上没有用到 64 位，因为用不到这么大的空间，而且会造成很大的系统开销。Linux 一般用低 48 位来表示虚拟地址空间，也就是 2^48bit=256T。 cat /proc/cpuinfo address sizes : 40 bits physical, 48 bits virtual 实际的物理内存可能远远小于虚拟内存的大小。总结：引入虚拟内存，可以提供更大的地址空间，并且地址空间是连续的，使得程序编写、链接更加简单。并且可以对物理内存进行隔离，不同的进程操作互不影响。还可以通过把同一块物理内存映射到不同的虚拟地址空间实现内存共享。 4.4.2 用户空间和内核空间为了避免用户进程直接操作内核，保证内核安全，操作系统将虚拟内存划分为两部分，一部分是内核空间(Kernel-space)/ˈkɜːnl /，一部分是用户空间(User-space)。内核是操作系统的核心，独立于普通的应用程序，可以访问受保护的内存空间，也有访问底层硬件设备的权限。内核空间中存放的是内核代码和数据，而进程的用户空间中存放的是用户程序的代码和数据。不管是内核空间还是用户空间，它们都处于虚拟空间中，都是对物理地址的映射。在 Linux 系统中, 内核进程和用户进程所占的虚拟内存比例是 1:3。当进程运行在内核空间时就处于内核态，而进程运行在用户空间时则处于用户态。进程在内核空间以执行任意命令，调用系统的一切资源;在用户空间只能执行简单的运算，不能直接调用系统资源，必须通过系统接口(又称 system call)，才能向内核发出指令。 top 命令: us 代表 CPU 消耗在 User space 的时间百分比; sy 代表 CPU 消耗在 Kernel space 的时间百分比。 4.4.3 进程切换(上下文切换) 多任务操作系统是怎么实现运行远大于 CPU 数量的任务个数的? 当然，这些任务实际上并不是真的在同时运行，而是因为系统通过时间片分片算法，在很短的时间内，将 CPU 轮流分配给它们，造成多任务同时运行的错觉。为了控制进程的执行，内核必须有能力挂起正在 CPU 上运行的进程，并恢复以前挂起的某个进程的执行。这种行为被称为进程切换。什么叫上下文? 在每个任务运行前，CPU 都需要知道任务从哪里加载、又从哪里开始运行，也就是说，需要系统事先帮它设置好 CPU 寄存器和程序计数器(ProgramCounter)，这个叫做 CPU 的上下文。而这些保存下来的上下文，会存储在系统内核中，并在任务重新调度执行时再次加载进来。这样就能保证任务原来的状态不受影响，让任务看起来还是连续运行。在切换上下文的时候，需要完成一系列的工作，这是一个很消耗资源的操作。 4.4.4 进程的阻塞正在运行的进程由于提出系统服务请求(如 I/O 操作)，但因为某种原因未得到操作系统的立即响应，该进程只能把自己变成阻塞状态，等待相应的事件出现后才被唤醒。进程在阻塞状态不占用 CPU 资源。 4.4.5 文件描述符 FD Linux 系统将所有设备都当作文件来处理，而 Linux 用文件描述符来标识每个文件对象。文件描述符(File Descriptor)是内核为了高效管理已被打开的文件所创建的索引，用于指向被打开的文件，所有执行 I/O 操作的系统调用都通过文件描述符;文件描述符是一个简单的非负整数，用以表明每个被进程打开的文件。 Linux 系统里面有三个标准文件描述符。 0:标准输入(键盘); 1:标准输出(显示器); 2:标准错误输出(显示器)。 4.4.6 传统 I/O 数据拷贝以读操作为例: 当应用程序执行 read 系统调用读取文件描述符(FD)的时候，如果这块数据已经存在于用户进程的页内存中，就直接从内存中读取数据。如果数据不存在，则先将数据从磁盘加载数据到内核缓冲区中，再从内核缓冲区拷贝到用户进程的页内存中。(两次拷贝，两次 user 和 kernel 的上下文切换)。 I/O 的阻塞到底阻塞在哪里? 4.4.7 Blocking I/O 当使用 read 或 write 对某个文件描述符进行过读写时，如果当前 FD 不可读，系统就不会对其他的操作做出响应。从设备复制数据到内核缓冲区是阻塞的，从内核缓冲区拷贝到用户空间，也是阻塞的，直到 copy complete，内核返回结果，用户进程才解除 block 的状态。为了解决阻塞的问题，我们有几个思路。 1、在服务端创建多个线程或者使用线程池，但是在高并发的情况下需要的线程会很多，系统无法承受，而且创建和释放线程都需要消耗资源。 2、由请求方定期轮询，在数据准备完毕后再从内核缓存缓冲区复制数据到用户空间 (非阻塞式 I/O)，这种方式会存在一定的延迟。能不能用一个线程处理多个客户端请求? 4.4.8 I/O 多路复用(I/O Multiplexing) I/O 指的是网络 I/O。多路指的是多个 TCP 连接(Socket 或 Channel)。复用指的是复用一个或多个线程。它的基本原理就是不再由应用程序自己监视连接，而是由内核替应用程序监视文件描述符。客户端在操作的时候，会产生具有不同事件类型的 socket。在服务端，I/O 多路复用程序(I/O Multiplexing Module)会把消息放入队列中，然后通过文件事件分派器(File event Dispatcher)，转发到不同的事件处理器中。多路复用有很多的实现，以 select 为例，当用户进程调用了多路复用器，进程会被阻塞。内核会监视多路复用器负责的所有 socket，当任何一个 socket 的数据准备好了，多路复用器就会返回。这时候用户进程再调用 read 操作，把数据从内核缓冲区拷贝到用户空间。所以，I/O 多路复用的特点是通过一种机制一个进程能同时等待多个文件描述符，而这些文件描述符(套接字描述符)其中的任意一个进入读就绪(readable)状态，select() 函数就可以返回。 Redis 的多路复用，提供了 select, epoll, evport, kqueue 几种选择，在编译的时候来选择一种。 evport 是 Solaris 系统内核提供支持的; epoll 是 LINUX 系统内核提供支持的; kqueue 是 Mac 系统提供支持的; select 是 POSIX 提供的，一般的操作系统都有支撑(保底方案); 源码 ae_epoll.c、ae_select.c、ae_kqueue.c、ae_evport.c 5、内存回收 Reids 所有的数据都是存储在内存中的，在某些情况下需要对占用的内存空间进行回收。内存回收主要分为两类，一类是 key 过期，一类是内存使用达到上限(max_memory) 触发内存淘汰。 5.1 过期策略要实现 key 过期，我们有几种思路。 5.1.1 定时过期(主动淘汰) 每个设置过期时间的 key 都需要创建一个定时器，到过期时间就会立即清除。该策略可以立即清除过期的数据，对内存很友好;但是会占用大量的 CPU 资源去处理过期的数据，从而影响缓存的响应时间和吞吐量。 5.1.2 惰性过期(被动淘汰) 只有当访问一个 key 时，才会判断该 key 是否已过期，过期则清除。该策略可以最大化地节省 CPU 资源，却对内存非常不友好。极端情况可能出现大量的过期 key 没有再次被访问，从而不会被清除，占用大量内存。例如 String，在 getCommand 里面会调用 expireIfNeeded server.c expireIfNeeded(redisDb db, robj key) 第二种情况，每次写入 key 时，发现内存不够，调用 activeExpireCycle 释放一部分内存。 expire.c activeExpireCycle(int type) 5.1.3 定期过期源码:server.h typedef struct redisDb { dict dict; / 所有的键值对 /dict expires; / 设置了过期时间的键值对 /dict blocking_keys; dict ready_keys; dict watched_keys; int id;long long avg_ttl;list defrag_later; } redisDb; 每隔一定的时间，会扫描一定数量的数据库的 expires 字典中一定数量的 key，并清除其中已过期的 key。该策略是前两者的一个折中方案。通过调整定时扫描的时间间隔和每次扫描的限定耗时，可以在不同情况下使得 CPU 和内存资源达到最优的平衡效果。 Redis 中同时使用了惰性过期和定期过期两种过期策略。 5.2 淘汰策略 Redis 的内存淘汰策略，是指当内存使用达到最大内存极限时，需要使用淘汰算法来决定清理掉哪些数据，以保证新数据的存入。 5.2.1 最大内存设置 redis.conf 参数配置: maxmemory <bytes> 如果不设置 maxmemory 或者设置为 0，64 位系统不限制内存，32 位系统最多使用 3GB 内存。动态修改: redis> config set maxmemory 2GB 到达最大内存以后怎么办? 5.2.2 淘汰策略 https://redis.io/topics/lru-cache redis.conf maxmemory-policy noeviction 先从算法来看: LRU，Least Recently Used:最近最少使用。判断最近被使用的时间，目前最远的数据优先被淘汰。 LFU，Least Frequently Used，最不常用，4.0 版本新增。 random，随机删除。如果没有符合前提条件的 key 被淘汰，那么 volatile-lru、volatile-random、 volatile-ttl 相当于 noeviction(不做内存回收)。动态修改淘汰策略: redis> config set maxmemory-policy volatile-lru 建议使用 volatile-lru，在保证正常服务的情况下，优先删除最近最少使用的 key。 5.2.3 LRU 淘汰原理问题：如果基于传统 LRU 算法实现 Redis LRU 会有什么问题? 需要额外的数据结构存储，消耗内存。 Redis LRU 对传统的 LRU 算法进行了改良，通过随机采样来调整算法的精度。如果淘汰策略是 LRU，则根据配置的采样值 maxmemory_samples(默认是 5 个), 随机从数据库中选择 m 个 key, 淘汰其中热度最低的 key 对应的缓存数据。所以采样参数m配置的数值越大, 就越能精确的查找到待淘汰的缓存数据,但是也消耗更多的CPU计算,执行效率降低。问题：如何找出热度最低的数据? Redis 中所有对象结构都有一个 lru 字段, 且使用了 unsigned 的低 24 位，这个字段用来记录对象的热度。对象被创建时会记录 lru 值。在被访问的时候也会更新 lru 的值。但是不是获取系统当前的时间戳，而是设置为全局变量 server.lruclock 的值。源码：server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; server.lruclock 的值怎么来的? Redis 中有个定时处理的函数 serverCron，默认每 100 毫秒调用函数 updateCachedTime 更新一次全局变量的 server.lruclock 的值，它记录的是当前 unix 时间戳。源码:server.c void updateCachedTime(void) { time_t unixtime = time(NULL); atomicSet(server.unixtime,unixtime); server.mstime = mstime();struct tm tm; localtime_r(&server.unixtime,&tm);server.daylight_active = tm.tm_isdst; } 问题:为什么不获取精确的时间而是放在全局变量中?不会有延迟的问题吗? 这样函数 lookupKey 中更新数据的 lru 热度值时,就不用每次调用系统函数 time，可以提高执行效率。 OK，当对象里面已经有了 LRU 字段的值，就可以评估对象的热度了。函数 estimateObjectIdleTime 评估指定对象的 lru 热度，思想就是对象的 lru 值和全局的 server.lruclock 的差值越大(越久没有得到更新)，该对象热度越低。源码 evict.c / Given an object returns the min number of milliseconds the object was never requested, using an approximated LRU algorithm. /unsigned long long estimateObjectIdleTime(robj o) {unsigned long long lruclock = LRU_CLOCK(); if (lruclock >= o->lru) {return (lruclock - o->lru) LRU_CLOCK_RESOLUTION; } else {return (lruclock + (LRU_CLOCK_MAX - o->lru)) LRU_CLOCK_RESOLUTION;} } server.lruclock 只有 24 位，按秒为单位来表示才能存储 194 天。当超过 24bit 能表示的最大时间的时候，它会从头开始计算。 server.h define LRU_CLOCK_MAX ((1<<LRU_BITS)-1) / Max value of obj->lru / 在这种情况下，可能会出现对象的 lru 大于 server.lruclock 的情况，如果这种情况出现那么就两个相加而不是相减来求最久的 key。为什么不用常规的哈希表+双向链表的方式实现?需要额外的数据结构，消耗资源。而 Redis LRU 算法在 sample 为 10 的情况下，已经能接近传统 LRU 算法了。问题:除了消耗资源之外，传统 LRU 还有什么问题? 如图，假设 A 在 10 秒内被访问了 5 次，而 B 在 10 秒内被访问了 3 次。因为 B 最后一次被访问的时间比 A 要晚，在同等的情况下，A 反而先被回收。问题:要实现基于访问频率的淘汰机制，怎么做? 5.2.4 LFU server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; 当这 24 bits 用作 LFU 时，其被分为两部分: 高 16 位用来记录访问时间(单位为分钟，ldt，last decrement time) 低 8 位用来记录访问频率，简称 counter(logc，logistic counter) counter 是用基于概率的对数计数器实现的，8 位可以表示百万次的访问频率。对象被读写的时候，lfu 的值会被更新。 db.c——lookupKey void updateLFU(robj val) {unsigned long counter = LFUDecrAndReturn(val); counter = LFULogIncr(counter);val->lru = (LFUGetTimeInMinutes()<<8) | counter;} 增长的速率由，lfu-log-factor 越大，counter 增长的越慢 redis.conf 配置文件。 lfu-log-factor 10 如果计数器只会递增不会递减，也不能体现对象的热度。没有被访问的时候，计数器怎么递减呢? 减少的值由衰减因子 lfu-decay-time(分钟)来控制，如果值是 1 的话，N 分钟没有访问就要减少 N。 redis.conf 配置文件 lfu-decay-time 1 6、持久化机制 https://redis.io/topics/persistence Redis 速度快，很大一部分原因是因为它所有的数据都存储在内存中。如果断电或者宕机，都会导致内存中的数据丢失。为了实现重启后数据不丢失，Redis 提供了两种持久化的方案，一种是 RDB 快照(Redis DataBase)，一种是 AOF(Append Only File)。 6.1 RDB RDB 是 Redis 默认的持久化方案。当满足一定条件的时候，会把当前内存中的数据写入磁盘，生成一个快照文件 dump.rdb。Redis 重启会通过加载 dump.rdb 文件恢复数据。什么时候写入 rdb 文件? 6.1.1 RDB 触发 1、自动触发 a)配置规则触发。 redis.conf， SNAPSHOTTING，其中定义了触发把数据保存到磁盘的触发频率。如果不需要 RDB 方案，注释 save 或者配置成空字符串""。 save 900 1 900 秒内至少有一个 key 被修改(包括添加) save 300 10 400 秒内至少有 10 个 key 被修改save 60 10000 60 秒内至少有 10000 个 key 被修改注意上面的配置是不冲突的，只要满足任意一个都会触发。 RDB 文件位置和目录: 文件路径，dir ./ 文件名称dbfilename dump.rdb 是否是LZF压缩rdb文件 rdbcompression yes 开启数据校验 rdbchecksum yes 问题：为什么停止 Redis 服务的时候没有 save，重启数据还在? RDB 还有两种触发方式: b)shutdown 触发，保证服务器正常关闭。 c)flushall，RDB 文件是空的，没什么意义(删掉 dump.rdb 演示一下)。 2、手动触发如果我们需要重启服务或者迁移数据，这个时候就需要手动触 RDB 快照保存。Redis 提供了两条命令: a)save save 在生成快照的时候会阻塞当前 Redis 服务器， Redis 不能处理其他命令。如果内存中的数据比较多，会造成 Redis 长时间的阻塞。生产环境不建议使用这个命令。为了解决这个问题，Redis 提供了第二种方式。执行 bgsave 时，Redis 会在后台异步进行快照操作，快照同时还可以响应客户端请求。具体操作是 Redis 进程执行 fork 操作创建子进程(copy-on-write)，RDB 持久化过程由子进程负责，完成后自动结束。它不会记录 fork 之后后续的命令。阻塞只发生在 fork 阶段，一般时间很短。用 lastsave 命令可以查看最近一次成功生成快照的时间。 6.1.2 RDB 数据的恢复(演示) 1、shutdown 持久化添加键值添加键值 redis> set k1 1 redis> set k2 2 redis> set k3 3 redis> set k4 4 redis> set k5 5 停服务器，触发 save redis> shutdown 备份 dump.rdb 文件 cp dump.rdb dump.rdb.bak 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 啥都没有: redis> keys 3、通过备份文件恢复数据停服务器 redis> shutdown 重命名备份文件 mv dump.rdb.bak dump.rdb 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 查看数据 redis> keys 6.1.3 RDB 文件的优势和劣势一、优势 1.RDB 是一个非常紧凑(compact)的文件，它保存了 redis 在某个时间点上的数据集。这种文件非常适合用于进行备份和灾难恢复。 2.生成 RDB 文件的时候，redis 主进程会 fork()一个子进程来处理所有保存工作，主进程不需要进行任何磁盘 IO 操作。 3.RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。二、劣势 1、RDB 方式数据没办法做到实时持久化/秒级持久化。因为 bgsave 每次运行都要执行 fork 操作创建子进程，频繁执行成本过高。 2、在一定间隔时间做一次备份，所以如果 redis 意外 down 掉的话，就会丢失最后一次快照之后的所有修改(数据有丢失)。如果数据相对来说比较重要，希望将损失降到最小，则可以使用 AOF 方式进行持久化。 6.2 AOF Append Only File AOF:Redis 默认不开启。AOF 采用日志的形式来记录每个写操作，并追加到文件中。开启后，执行更改 Redis 数据的命令时，就会把命令写入到 AOF 文件中。 Redis 重启时会根据日志文件的内容把写指令从前到后执行一次以完成数据的恢复工作。 6.2.1 AOF 配置配置文件 redis.conf 开关appendonly no 文件名appendfilename "appendonly.aof" AOF 文件的内容(vim 查看): 问题：数据都是实时持久化到磁盘吗? 由于操作系统的缓存机制，AOF 数据并没有真正地写入硬盘，而是进入了系统的硬盘缓存。什么时候把缓冲区的内容写入到 AOF 文件? 问题:文件越来越大，怎么办? 由于 AOF 持久化是 Redis 不断将写命令记录到 AOF 文件中，随着 Redis 不断的进行，AOF 的文件会越来越大，文件越大，占用服务器内存越大以及 AOF 恢复要求时间越长。例如 set xxx 666，执行 1000 次，结果都是 xxx=666。为了解决这个问题，Redis 新增了重写机制，当 AOF 文件的大小超过所设定的阈值时，Redis 就会启动 AOF 文件的内容压缩，只保留可以恢复数据的最小指令集。可以使用命令 bgrewriteaof 来重写。 AOF 文件重写并不是对原文件进行重新整理，而是直接读取服务器现有的键值对，然后用一条命令去代替之前记录这个键值对的多条命令，生成一个新的文件后去替换原来的 AOF 文件。重写触发机制 auto-aof-rewrite-percentage 100 auto-aof-rewrite-min-size 64mb 问题:重写过程中，AOF 文件被更改了怎么办? 另外有两个与 AOF 相关的参数: 6.2.2 AOF 数据恢复重启 Redis 之后就会进行 AOF 文件的恢复。 6.2.3 AOF 优势与劣势优点: 1、AOF 持久化的方法提供了多种的同步频率，即使使用默认的同步频率每秒同步一次，Redis 最多也就丢失 1 秒的数据而已。缺点: 1、对于具有相同数据的的 Redis，AOF 文件通常会比 RDB 文件体积更大(RDB 存的是数据快照)。 2、虽然 AOF 提供了多种同步的频率，默认情况下，每秒同步一次的频率也具有较高的性能。在高并发的情况下，RDB 比 AOF 具好更好的性能保证。 6.3 两种方案比较那么对于 AOF 和 RDB 两种持久化方式，我们应该如何选择呢? 如果可以忍受一小段时间内数据的丢失，毫无疑问使用 RDB 是最好的，定时生成 RDB 快照(snapshot)非常便于进行数据库备份，并且 RDB 恢复数据集的速度也要比 AOF 恢复的速度要快。否则就使用 AOF 重写。但是一般情况下建议不要单独使用某一种持久化机制，而是应该两种一起用，在这种情况下,当 redis 重启的时候会优先载入 AOF 文件来恢复原始的数据，因为在通常情况下 AOF 文件保存的数据集要比 RDB 文件保存的数据集要完整。本篇文章为转载内容。原文链接：https://blog.csdn.net/zhoutaochun/article/details/120075092。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-03-18 12:25:04

541

转载

转载文章

[转载]软件供应链安全威胁：从“奥创纪元”到“无限战争”

...示了行业内一线玩家对问题、解决方案实体化的思路（参见：篇1、篇2、篇3、篇4、篇5。另外，根据近期的一些历史事件，也做了一些深挖和联想，考虑恶意的上游开发者，如何巧妙（或者说，处心积虑）地将问题引入，并在当前的软件供应链生态体系中，造成远比表面上看起来要深远得多的影响（参见：《深挖CVE-2018-10933（libssh服务端校验绕过）兼谈软件供应链真实威胁》）。以上这些，抛开体系化的设想，只看案例，可能会得到这样的印象：这种威胁，都是由蓄意的上游或第三方参与者造成的；即便在最极端情况下，假使一个大型软件商或开源组织，被发现存在广泛、恶意的上游代码污染，那它顶多也不过相当于“奥创”一样的邪恶寡头，与其划清界限、清除历史包袱即可，虽然可能有阵痛。可惜，并非如此。在我们组织比赛的后半程中，对我们面临的这种威胁类型，不断有孤立的事例看似随机地发生，对此我以随笔的方式对它们做了分析和记录，以下与大家分享。 Ⅰ. 从感染到遗传：LibVNC与TightVNC系列漏洞 2018年12月10日晚9:03，OSS漏洞预警平台弹出的一封漏洞披露邮件，引起了我的注意。披露者是卡巴斯基工控系统漏洞研究组的Pavel Cheremushkin。一些必要背景 VNC是一套屏幕图像分享和远程操作软件，底层通信为RFB协议，由剑桥某实验室开发，后1999年并入AT&T，2002年关停实验室与项目，VNC开源发布。 VNC本被设计用在局域网环境，且诞生背景决定其更倾向研究性质，商用级安全的缺失始终是个问题。后续有若干新的实现软件，如TightVNC、RealVNC，在公众认知中，AT&T版本已死，后起之秀一定程度上修正了问题。目前各种更优秀的远程控制和分享协议取代了VNC的位置，尽管例如苹果仍然系统內建VNC作为远程方式。但在非桌面领域，VNC还有我们想不到的重要性，比如工控领域需要远程屏幕传输的场景，这也是为什么这系列漏洞作者会关注这一块。漏洞技术概况 Pavel总结到，在阶段漏洞挖掘中共上报11个漏洞。在披露邮件中描述了其中4个的技术细节，均在协议数据包处理代码中，漏洞类型古典，分别是全局缓冲区溢出、堆溢出和空指针解引用。其中缓冲区溢出类型漏洞可方便构造PoC，实现远程任意代码执行的漏洞利用。漏洞本身原理简单，也并不是关键。以其中一个为例，Pavel在发现时负责任地向LibVNC作者提交了issue，并跟进漏洞修复过程；在第一次修复之后，复核并指出修复代码无效，给出了有效patch。这个过程是常规操作。漏洞疑点有意思的是，在漏洞披露邮件中，Pavel重点谈了自己对这系列漏洞的一些周边发现，也是这里提到的原因。其中，关于存在漏洞的代码，作者表述：我最初认为，这些问题是libvnc开发者自己代码中的错误，但看起来并非如此。其中有一些（如CoRRE数据处理函数中的堆缓冲区溢出），出现在AT&T实验室1999年的代码中，而后被很多软件开发者原样复制（在Github上搜索一下HandleCoRREBPP函数，你就知道），LibVNC和TightVNC也是如此。为了证实，翻阅了这部分代码，确实在其中数据处理相关代码文件看到了剑桥和AT&T实验室的文件头GPL声明注释，中国菜刀这证实这些文件是直接从最初剑桥实验室版本VNC移植过来的，且使用方式是直接代码包含，而非独立库引用方式。在官方开源发布并停止更新后，LibVNC使用的这部分代码基本没有改动——除了少数变量命名方式的统一，以及本次漏洞修复。通过搜索，我找到了2000年发布的相关代码文件，确认这些文件与LibVNC中引入的原始版本一致。另外，Pavel同时反馈了TightVNC中相同的问题。TightVNC与LibVNC没有继承和直接引用关系，但上述VNC代码同样被TightVNC使用，问题的模式不约而同。Pavel测试发现在Ubuntu最新版本TightVNC套件（1.3.10版本）中同样存在该问题，上报给当前软件所有者GlavSoft公司，但对方声称目前精力放在不受GPL限制的TightVNC 2.x版本开发中，对开源的1.x版本漏洞代码“可能会进行修复”。看起来，这个问题被踢给了各大Linux发行版社区来焦虑了——如果他们愿意接锅。问题思考在披露邮件中，Pavel认为，这些代码bug“如此明显，让人无法相信之前没被人发现过……也许是因为某些特殊理由才始终没得到修复”。事实上，我们都知道目前存在一些对开源基础软件进行安全扫描的大型项目，例如Google的OSS；同时，仍然存活的开源项目也越来越注重自身代码发布前的安全扫描，Fortify、Coverity的扫描也成为很多项目和平台的标配。在这样一些眼睛注视下，为什么还有这样的问题？我认为就这个具体事例来说，可能有如下两个因素： ·上游已死。仍然在被维护的代码，存在版本更迭，也存在外界的持续关注、漏洞报告和修复、开发的迭代，对于负责人的开发者，持续跟进、评估、同步代码的改动是可能的。但是一旦一份代码走完了生命周期，就像一段史实一样会很少再被改动。 ·对第三方上游代码的无条件信任。我们很多人都有过基础组件、中间件的开发经历，不乏有人使用Coverity开启全部规则进行代码扫描、严格修复所有提示的问题甚至编程规范warning；报告往往很长，其中也包括有源码形式包含的第三方代码中的问题。但是，我们一方面倾向于认为这些被广泛使用的代码不应存在问题（不然早就被人挖过了），一方面考虑这些引用的代码往往是组件或库的形式被使用，应该有其上下文才能认定是否确实有可被利用的漏洞条件，现在单独扫描这部分代码一般出来的都是误报。所以这些代码的问题都容易被忽视。但是透过这个具体例子，再延伸思考相关的实践，这里最根本的问题可以总结为一个模式：复制粘贴风险。复制粘贴并不简单意味着剽窃，实际是当前软件领域、互联网行业发展的基础模式，但其中有一些没人能尝试解决的问题： ·在传统代码领域，如C代码中，对第三方代码功能的复用依赖，往往通过直接进行库的引入实现，第三方代码独立而完整，也较容易进行整体更新；这是最简单的情况，只需要所有下游使用者保证仅使用官方版本，跟进官方更新即可；但在实践中很难如此贯彻，这是下节讨论的问题。 ·有些第三方发布的代码，模式就是需要被源码形式包含到其他项目中进行统一编译使用（例如腾讯的开源Json解析库RapidJSON，就是纯C++头文件形式）。在开源领域有如GPL等规约对此进行规范，下游开发者遵循协议，引用代码，强制或可选地显式保留其GPL声明，可以进行使用和更改。这样的源码依赖关系，结合规范化的changelog声明代码改动，侧面也是为开发过程中跟进考虑。但是一个成型的产品，比如企业自有的服务端底层产品、中间件，新版本的发版更新是复杂的过程，开发者在旧版本仍然“功能正常”的情况下往往倾向于不跟进新版本；而上游代码如果进行安全漏洞修复，通常也都只在其最新版本代码中改动，安全修复与功能迭代并存，如果没有类似Linux发行版社区的努力，旧版本代码完全没有干净的安全更新patch可用。 ·在特定场景下，有些开发实践可能不严格遵循开源代码协议限定，引入了GPL等协议保护的代码而不做声明（以规避相关责任），丢失了引入和版本的信息跟踪；在另一些场景下，可能存在对开源代码进行大刀阔斧的修改、剪裁、定制，以符合自身业务的极端需求，但是过多的修改、人员的迭代造成与官方代码严重的失同步，丧失可维护性。 ·更一般的情况是，在开发中，开发者个体往往心照不宣的存在对网上代码文件、代码片段的复制-粘贴操作。被参考的代码，可能有上述的开源代码，也可能有各种Github作者练手项目、技术博客分享的代码片段、正式开源项目仅用来说明用法的不完备示例代码。这些代码的引入完全无迹可寻，即便是作者自己也很难解释用了什么。这种情况下，上面两条认定的那些与官方安全更新失同步的问题同样存在，且引入了独特的风险：被借鉴的代码可能只是原作者随手写的、仅仅是功能成立的片段，甚至可能是恶意作者随意散布的有安全问题的代码。由此，问题进入了最大的发散空间。在Synopsys下BLACKDUCK软件之前发布的《2018 Open Source Security and Risk Analysis Report》中分析，96%的应用中包含有开源组件和代码，开源代码在应用全部代码中的占比约为57%，78%的应用中在引用的三方开源代码中存在历史漏洞。也就是说，现在互联网上所有厂商开发的软件、应用，其开发人员自己写的代码都是一少部分，多数都是借鉴来的。而这还只是可统计、可追溯的；至于上面提到的非规范的代码引用，如果也纳入进来考虑，三方代码占应用中的比例会上升到多少？曾经有分析认为至少占80%，我们只期望不会更高。 Ⅱ. 从碎片到乱刃：OpenSSH在野后门一览在进行基础软件梳理时，回忆到反病毒安全软件提供商ESET在2018年十月发布的一份白皮书《THE DARK SIDE OF THE FORSSHE: A landscape of OpenSSH backdoors》。其站在一个具有广泛用户基础的软件提供商角度，给出了一份分析报告，数据和结论超出我们对于当前基础软件使用全景的估量。以下以我的角度对其中一方面进行解读。一些必要背景 SSH的作用和重要性无需赘言；虽然我们站在传统互联网公司角度，可以认为SSH是通往生产服务器的生命通道，但当前多样化的产业环境已经不止于此（如之前libssh事件中，不幸被我言中的，SSH在网络设备、IoT设备上（如f5）的广泛使用）。 OpenSSH是目前绝大多数SSH服务端的基础软件，有完备的开发团队、发布规范、维护机制，本身是靠谱的。如同绝大多数基础软件开源项目的做法，OpenSSH对漏洞有及时的响应，针对最新版本代码发出安全补丁，但是各大Linux发行版使用的有各种版本的OpenSSH，这些社区自行负责将官方开发者的安全补丁移植到自己系统搭载的低版本代码上。天空彩白皮书披露的现状如果你是一个企业的运维管理人员，需要向企业生产服务器安装OpenSSH或者其它基础软件，最简单的方式当然是使用系统的软件管理安装即可。但是有时候，出于迁移成本考虑，可能企业需要在一个旧版本系统上，使用较新版本的OpenSSL、OpenSSH等基础软件，这些系统不提供，需要自行安装；或者需要一个某有种特殊特性的定制版本。这时，可能会选择从某些rpm包集中站下载某些不具名第三方提供的现成的安装包，或者下载非官方的定制化源码本地编译后安装，总之从这里引入了不确定性。这种不确定性有多大？我们粗估一下，似乎不应成为问题。但这份白皮书给我们看到了鲜活的数据。 ESET研究人员从OpenSSH的一次历史大规模Linux服务端恶意软件Windigo中获得启示，采用某种巧妙的方式，面向在野的服务器进行数据采集，主要是系统与版本、安装的OpenSSH版本信息以及服务端程序文件的一个特殊签名。整理一个签名白名单，包含有所有能搜索到的官方发布二进制版本、各大Linux发行版本各个版本所带的程序文件版本，将这些标定为正常样本进行去除。最终结论是： ·共发现了几百个非白名单版本的OpenSSH服务端程序文件ssh和sshd； ·分析这些样本，将代码部分完全相同，仅仅是数据和配置不同的合并为一类，且分析判定确认有恶意代码的，共归纳为 21个各异的恶意OpenSSH家族； ·在21个恶意家族中，有12个家族在10月份时完全没有被公开发现分析过；而剩余的有一部分使用了历史上披露的恶意代码样本，甚至有源代码； ·所有恶意样本的实现，从实现复杂度、代码混淆和自我保护程度到代码特征有很大跨度的不同，但整体看，目的以偷取用户凭证等敏感信息、回连外传到攻击者为主，其中有的攻击者回连地址已经存在并活跃数年之久； ·这些后门的操控者，既有传统恶意软件黑产人员，也有APT组织； ·所有恶意软件或多或少都在被害主机上有未抹除的痕迹。ESET研究者尝试使用蜜罐引诱出攻击者，但仍有许多未解之谜。这场对抗，仍未取胜。白皮书用了大篇幅做技术分析报告，此处供细节分析，不展开分析，以下为根据恶意程序复杂度描绘的21个家族图谱：问题思考问题引入的可能渠道，我在开头进行了一点推测，主要是由人的原因切入的，除此以外，最可能的是恶意攻击者在利用各种方法入侵目标主机后，主动替换了目标OpenSSH为恶意版本，从而达成攻击持久化操作。但是这些都是止血的安全运维人员该考虑的事情；关键问题是，透过表象，这显露了什么威胁形式？这个问题很好回答，之前也曾经反复说过：基础软件碎片化。如上一章节简单提到，在开发过程中有各种可能的渠道引入开发者不完全了解和信任的代码；在运维过程中也是如此。二者互相作用，造成了软件碎片化的庞杂现状。在企业内部，同一份基础软件库，可能不同的业务线各自定制一份，放到企业私有软件仓库源中，有些会有人持续更新供自己产品使用，有些由系统软件基础设施维护人员单独维护，有些则可能是开发人员临时想起来上传的，他们自己都不记得；后续用到的这个基础软件的开发和团队，在这个源上搜索到已有的库，很大概率会倾向于直接使用，不管来源、是否有质量背书等。长此以往问题会持续发酵。而我们开最坏的脑洞，是否可能有黑产人员入职到内部，提交个恶意基础库之后就走人的可能？现行企业安全开发流程中审核机制的普遍缺失给这留下了空位。将源码来源碎片化与二进制使用碎片化并起来考虑，我们不难看到一个远远超过OpenSSH事件威胁程度的图景。但这个问题不是仅仅靠开发阶段规约、运维阶段规范、企业内部管控、行业自查、政府监管就可以根除的，最大的问题归根结底两句话：不可能用一场战役对抗持续威胁；不可能用有限分析对抗无限未知。 Ⅲ. 从自信到自省：RHEL、CentOS backport版本BIND漏洞 2018年12月20日凌晨，在备战冬至的软件供应链安全大赛决赛时，我注意到漏洞预警平台捕获的一封邮件。但这不是一个漏洞初始披露邮件，而是对一个稍早已披露的BIND在RedHat、CentOS发行版上特定版本的1day漏洞CVE-2018-5742，由BIND的官方开发者进行额外信息澄(shuǎi)清(guō)的邮件。一些必要背景关于BIND 互联网的一个古老而基础的设施是DNS，这个概念在读者不应陌生。而BIND“是现今互联网上最常使用的DNS软件，使用BIND作为服务器软件的DNS服务器约占所有DNS服务器的九成。BIND现在由互联网系统协会负责开发与维护参考。”所以BIND的基础地位即是如此，因此也一向被大量白帽黑帽反复测试、挖掘漏洞，其开发者大概也一直处在紧绷着应对的处境。关于ISC和RedHat 说到开发者，上面提到BIND的官方开发者是互联网系统协会（ISC）。ISC是一个老牌非营利组织，目前主要就是BIND和DHCP基础设施的维护者。而BIND本身如同大多数历史悠久的互联网基础开源软件，是4个UCB在校生在DARPA资助下于1984年的实验室产物，直到2012年由ISC接管。那么RedHat在此中是什么角色呢？这又要提到我之前提到的Linux发行版和自带软件维护策略。Red Hat Enterprise Linux（RHEL）及其社区版CentOS秉持着稳健的软件策略，每个大的发行版本的软件仓库，都只选用最必要且质量久经时间考验的软件版本，哪怕那些版本实在是老掉牙。这不是一种过分的保守，事实证明这种策略往往给RedHat用户在最新漏洞面前提供了保障——代码总是跑得越少，潜在漏洞越多。但是这有两个关键问题。一方面，如果开源基础软件被发现一例有历史沿革的代码漏洞，那么官方开发者基本都只为其最新代码负责，在当前代码上推出修复补丁。另一方面，互联网基础设施虽然不像其上的应用那样爆发性迭代，但依然持续有一些新特性涌现，其中一些是必不可少的，但同样只在最新代码中提供。两个刚需推动下，各Linux发行版对长期支持版本系统的软件都采用一致的策略，即保持其基础软件在一个固定的版本，但对于这些版本软件的最新漏洞、必要的最新软件特性，由发行版维护者将官方开发者最新代码改动“向后移植”到旧版本代码中，即backport。这就是基础软件的“官宣”碎片化的源头。讲道理，Linux发行版维护者与社区具有比较靠谱的开发能力和监督机制，backport又基本就是一些复制粘贴工作，应当是很稳当的……但真是如此吗？ CVE-2018-5742漏洞概况 CVE-2018-5742是一个简单的缓冲区溢出类型漏洞，官方评定其漏洞等级moderate，认为危害不大，漏洞修复不积极，披露信息不多，也没有积极给出代码修复patch和新版本rpm包。因为该漏洞仅在设置DEBUG_LEVEL为10以上才会触发，由远程攻击者构造畸形请求造成BIND服务崩溃，在正常的生产环境几乎不可能具有危害，RedHat官方也只是给出了用户自查建议。这个漏洞只出现在RHEL和CentOS版本7中搭载的BIND 9.9.4-65及之后版本。RedHat同ISC的声明中都证实，这个漏洞的引入原因，是RedHat在尝试将BIND 9.11版本2016年新增的NTA机制向后移植到RedHat 7系中固定搭载的BIND 9.9版本代码时，偶然的代码错误。NTA是DNS安全扩展（DNSSEC）中，用于在特定域关闭DNSSEC校验以避免不必要的校验失败的机制；但这个漏洞不需要对NTA本身有进一步了解。漏洞具体分析官方没有给出具体分析，但根据CentOS社区里先前有用户反馈的bug，我得以很容易还原漏洞链路并定位到根本原因。若干用户共同反馈，其使用的BIND 9.9.4-RedHat-9.9.4-72.el7发生崩溃（coredump），并给出如下的崩溃时调用栈backtrace：这个调用过程的逻辑为，在9 dns_message_logfmtpacket函数判断当前软件设置是否DEBUG_LEVEL大于10，若是，对用户请求数据包做日志记录，先后调用8 dns_message_totext、7 dns_message_sectiontotext、6 dns_master_rdatasettotext、5 rdataset_totext将请求进行按协议分解分段后写出。由以上关键调用环节，联动RedHat在9.9.4版本BIND源码包中关于引入NTA特性的源码patch，进行代码分析，很快定位到问题产生的位置，在上述backtrace中的5，masterdump.c文件rdataset_totext函数。漏洞相关代码片段中，RedHat进行backport后，这里引入的代码为：这里判断对于请求中的注释类型数据，直接通过isc_buffer_putstr宏对缓存进行操作，在BIND工程中自定义维护的缓冲区结构对象target上，附加一字节字符串（一个分号）。而漏洞就是由此产生：isc_buffer_putstr中不做缓冲区边界检查保证，这里在缓冲区已满情况下将造成off-by-one溢出，并触发了缓冲区实现代码中的assertion。而ISC上游官方版本的代码在这里是怎么写的呢？找到ISC版本BIND 9.11代码，这里是这样的：这里可以看到，官方代码在做同样的“附加一个分号”这个操作时，审慎的使用了做缓冲区剩余空间校验的str_totext函数，并额外做返回值成功校验。而上述提到的str_totext函数与RETERR宏，在移植版本的masterdump.c中，RedHat开发者也都做了保留。但是，查看代码上下文发现，在RedHat开发者进行代码移植过程中，对官方代码进行了功能上的若干剪裁，包括一些细分数据类型记录的支持；而这里对缓冲区写入一字节，也许开发者完全没想到溢出的可能，所以自作主张地简化了代码调用过程。问题思考这个漏洞本身几乎没什么危害，但是背后足以引起思考。没有人在“借”别人代码时能不出错不同于之前章节提到的那种场景——将代码文件或片段复制到自己类似的代码上下文借用——backport作为一种官方且成熟的做法，借用的代码来源、粘贴到的代码上下文，是具有同源属性的，而且开发者一般是追求稳定性优先的社区开发人员，似乎质量应该有足够保障。但是这里的关键问题是：代码总要有一手、充分的语义理解，才能有可信的使用保障；因此，只要是处理他人的代码，因为不够理解而错误使用的风险，只可能减小，没办法消除。如上分析，本次漏洞的产生看似只是做代码移植的开发者“自作主张”之下“改错了”。但是更广泛且可能的情况是，原始开发者在版本迭代中引入或更新大量基础数据结构、API的定义，并用在新的特性实现代码中；而后向移植开发人员仅需要最小规模的功能代码，所以会对增量代码进行一定规模的修改、剪裁、还原，以此适应旧版本基本代码。这些过程同样伴随着第三方开发人员不可避免的“望文生义”，以及随之而来的风险。后向移植操作也同样助长了软件碎片化过程，其中每一个碎片都存在这样的问题；每一个碎片在自身生命周期也将有持续性影响。多级复制粘贴无异于雪上加霜这里简单探讨的是企业通行的系统和基础软件建设实践。一些国内外厂商和社区发布的定制化Linux发行版，本身是有其它发行版，如CentOS特定版本渊源的，在基础软件上即便同其上游发行版最新版本间也存在断层滞后。RedHat相对于基础软件开发者之间已经隔了一层backport，而我们则人为制造了二级风险。在很多基础而关键的软件上，企业系统基础设施的维护者出于与RedHat类似的初衷，往往会决定自行backport一份拷贝；通过早年心脏滴血事件的洗礼，即暴露出来OpenSSL一个例子。无论是需要RHEL还没来得及移植的新版本功能特性，还是出于对特殊使用上下文场景中更高执行效率的追求，企业都可能自行对RHEL上基础软件源码包进行修改定制重打包。这个过程除了将风险幂次放大外，也进一步加深了代码的不可解释性（包括基础软件开发人员流动性带来的不可解释）。 Ⅳ. 从武功到死穴：从systemd-journald信息泄露一窥API误用 1月10日凌晨两点，漏洞预警平台爬收取一封漏洞披露邮件。披露者是Qualys，那就铁定是重型发布了。最后看披露漏洞的目标，systemd？这就非常有意思了。一些必要背景 systemd是什么，不好简单回答。Linux上面软件命名，习惯以某软件名后带个‘d’表示后台守护管理程序；所以systemd就可以说是整个系统的看守吧。而即便现在描述了systemd是什么，可能也很快会落伍，因为其初始及核心开发者Lennart Poettering（供职于Red Hat）描述它是“永无开发完结完整、始终跟进技术进展的、统一所有发行版无止境的差异”的一种底层软件。笼统讲有三个作用：中央化系统及设置管理；其它软件开发的基础框架；应用程序和系统内核之间的胶水。如今几乎所有Linux发行版已经默认提供systemd，包括RHEL/CentOS 7及后续版本。总之很基础、很底层、很重要就对了。systemd本体是个主要实现init系统的框架，但还有若干关键组件完成其它工作；这次被爆漏洞的是其journald组件，是负责系统事件日志记录的看守程序。额外地还想简单提一句Qualys这个公司。该公司创立于1999年，官方介绍为信息安全与云安全解决方案企业，to B的安全业务非常全面，有些也是国内企业很少有布局的方面；例如上面提到的涉及碎片化和代码移植过程的历史漏洞移动，也在其漏洞管理解决方案中有所体现。但是我们对这家公司粗浅的了解来源于其安全研究团队近几年的发声，这两年间发布过的，包括有『stack clash』、『sudo get_tty_name提权』、『OpenSSH信息泄露与堆溢出』、『GHOST：glibc gethostbyname缓冲区溢出』等大新闻（仅截至2017年年中）。从中可见，这个研究团队专门啃硬骨头，而且还总能开拓出来新的啃食方式，往往爆出来一些别人没想到的新漏洞类型。从这个角度，再联想之前刷爆朋友圈的《安全研究者的自我修养》所倡导的“通过看历史漏洞、看别人的最新成果去举一反三”的理念，可见差距。 CVE-2018-16866漏洞详情这次漏洞披露，打包了三个漏洞： ·16864和16865是内存破坏类型 ·16866是信息泄露 ·而16865和16866两个漏洞组和利用可以拿到root shell。漏洞分析已经在披露中写的很详细了，这里不复述；而针对16866的漏洞成因来龙去脉，Qualys跟踪的结果留下了一点想象和反思空间，我们来看一下。漏洞相关代码片段是这样的（漏洞修复前）：读者可以先肉眼过一遍这段代码有什么问题。实际上我一开始也没看出来，向下读才恍然大悟。这段代码中，外部信息输入通过buf传入做记录处理。输入数据一般包含有空白字符间隔，需要分隔开逐个记录，有效的分隔符包括空格、制表符、回车、换行，代码中将其写入常量字符串；在逐字符扫描输入数据字符串时，将当前字符使用strchr在上述间隔符字符串中检索是否匹配，以此判断是否为间隔符；在240行，通过这样的判断，跳过记录单元字符串的头部连续空白字符。但是问题在于，strchr这个极其基础的字符串处理函数，对于C字符串终止字符'\0'的处理上有个坑：'\0'也被认为是被检索字符串当中的一个有效字符。所以在240行，当当前扫描到的字符为字符串末尾的NULL时，strchr返回的是WHITESPACE常量字符串的终止位置而非NULL，这导致了越界。看起来，这是一个典型的问题：API误用（API mis-use），只不过这个被误用的库函数有点太基础，让我忍不住想是不是还会有大量的类似漏洞……当然也反思我自己写的代码是不是也有同样情况，然而略一思考就释然了——我那么笨的代码都用for循环加if判断了:) 漏洞引入和消除历史有意思的是，Qualys研究人员很贴心地替我做了一步漏洞成因溯源，这才是单独提这个漏洞的原因。漏洞的引入是在2015年的一个commit中：在GitHub中，定位到上述2015年的commit信息，这里commit的备注信息为： journald: do not strip leading whitespace from messages. Keep leading whitespace for compatibility with older syslog implementations. Also useful when piping formatted output to the logger command. Keep removing trailing whitespace. OK，看起来是一个兼容性调整，对记录信息不再跳过开头所有连续空白字符，只不过用strchr的简洁写法比较突出开发者精炼的开发风格（并不），说得过去。之后在2018年八月的一个当时尚未推正式版的另一次commit中被修复了，先是还原成了ec5ff4那次commit之前的写法，然后改成了加校验的方式：虽然Qualys研究者认为上述的修改是“无心插柳”的改动，但是在GitHub可以看到，a6aadf这次commit是因为有外部用户反馈了输入数据为单个冒号情况下journald堆溢出崩溃的issue，才由开发者有目的性地修复的；而之后在859510这个commit再次改动回来，理由是待记录的消息都是使用单个空格作为间隔符的，而上一个commit粗暴地去掉了这种协议兼容性特性。如果没有以上纠结的修改和改回历史，也许我会倾向于怀疑，在最开始漏洞引入的那个commit，既然改动代码没有新增功能特性、没有解决什么问题（毕竟其后三年，这个改动的代码也没有被反映issue），也并非出于代码规范等考虑，那么这么轻描淡写的一次提交，难免有人为蓄意引入漏洞的嫌疑。当然，看到几次修复的原因，这种可能性就不大了，虽然大家仍可以保留意见。但是抛开是否人为这个因素，单纯从代码的漏洞成因看，一个传统但躲不开的问题仍值得探讨：API误用。 API误用：程序员何苦为难程序员如果之前的章节给读者留下了我反对代码模块化和复用的印象，那么这里需要正名一下，我们认可这是当下开发实践不可避免的趋势，也增进了社会开发速度。而API的设计决定了写代码和用代码的双方“舒适度”的问题，由此而来的API误用问题，也是一直被当做单纯的软件工程课题讨论。在此方面个人并没有什么研究，自然也没办法系统地给出分类和学术方案，只是谈一下自己的经验和想法。一篇比较新的学术文章总结了API误用的研究，其中一个独立章节专门分析Java密码学组件API误用的实际，当中引述之前论文认为，密码学API是非常容易被误用的，比如对期望输入数据（数据类型，数据来源，编码形式）要求的混淆，API的必需调用次序和依赖缺失（比如缺少或冗余多次调用了初始化函数、主动资源回收函数）等。凑巧在此方面我有一点体会：曾经因为业务方需要，需要使用C++对一个Java的密码基础中间件做移植。Java对密码学组件支持，有原生的JDK模块和权威的BouncyCastle包可用；而C/C++只能使用第三方库，考虑到系统平台最大兼容和最小代码量，使用Linux平台默认自带的OpenSSL的密码套件。但在开发过程中感受到了OpenSSL满满的恶意：其中的API设计不可谓不反人类，很多参数没有明确的说明（比如同样是表示长度的函数参数，可能在不同地方分别以字节/比特/分组数为计数单位）；函数的线程安全没有任何解释标注，需要自行试验；不清楚函数执行之后，是其自行做了资源释放还是需要有另外API做gc，不知道资源释放操作时是否规规矩矩地先擦除后释放……此类问题不一而足，导致经过了漫长的测试之后，这份中间件才提供出来供使用。而在业务场景中，还会存在比如其它语言调用的情形，这些又暴露出来OpenSSL API误用的一些完全无从参考的问题。这一切都成为了噩梦；当然这无法为我自己开解是个不称职开发的指责，但仅就OpenSSL而言其API设计之恶劣也是始终被人诟病的问题，也是之后其他替代者宣称改进的地方。当然，问题是上下游都脱不了干系的。我们自己作为高速迭代中的开发人员，对于二方、三方提供的中间件、API，又有多少人能自信地说自己仔细、认真地阅读过开发指南和API、规范说明呢？做过通用产品技术运营的朋友可能很容易理解，自己产品的直接用户日常抛出不看文档的愚蠢问题带来的困扰。对于密码学套件，这个问题还好办一些，毕竟如果在没有背景知识的情况下对API望文生义地一通调用，绝大多数情况下都会以抛异常形式告终；但还是有很多情况，API误用埋下的是长期隐患。不是所有API误用情形最终都有机会发展成为可利用的安全漏洞，但作为一个由人的因素引入的风险，这将长期存在并困扰软件供应链（虽然对安全研究者、黑客与白帽子是很欣慰的事情）。可惜，传统的白盒代码扫描能力，基于对代码语义的理解和构建，但是涉及到API则需要预先的抽象，这一点目前似乎仍然是需要人工干预的事情；或者轻量级一点的方案，可以case by case地分析，为所有可能被误用的API建模并单独扫描，这自然也有很强局限性。在一个很底层可信的开发者还对C标准库API存在误用的现实内，我们需要更多的思考才能说接下来的解法。 Ⅴ. 从规则到陷阱：NASA JIRA误配置致信息泄露血案软件的定义包括了代码组成的程序，以及相关的配置、文档等。当我们说软件的漏洞、风险时，往往只聚焦在其中的代码中；关于软件供应链安全风险，我们的比赛、前面分析的例子也都聚焦在了代码的问题；但是真正的威胁都来源于不可思议之处，那么代码之外有没有可能存在来源于上游的威胁呢？这里就借助实例来探讨一下，在“配置”当中可能栽倒的坑。引子：发不到500英里以外的邮件？让我们先从一个轻松愉快的小例子引入。这个例子初见于Linux中国的一篇译文。简单说，作者描述了这么一个让人啼笑皆非的问题：单位的邮件服务器发送邮件，发送目标距离本地500英里范围之外的一律失败，邮件就像悠悠球一样只能飞出一定距离。这个问题本身让描述者感到尴尬，就像一个技术人员被老板问到“为什么从家里笔记本上Ctrl-C后不能在公司台式机上Ctrl-V”一样。经过令人窒息的分析操作后，笔者定位到了问题原因：笔者作为负责的系统管理员，把SunOS默认安装的Senmail从老旧的版本5升级到了成熟的版本8，且对应于新版本诸多的新特性进行了对应配置，写入配置文件sendmail.cf；但第三方服务顾问在对单位系统进行打补丁升级维护时，将系统软件“升级”到了系统提供的最新版本，因此将Sendmail实际回退到了版本5，却为了软件行为一致性，原样保留了高版本使用的配置文件。但Sendmail并没有在大版本间保证配置文件兼容性，这导致很多版本5所需的配置项不存在于保留下来的sendmail.cf文件中，程序按默认值0处理；最终引起问题的就是，邮件服务器与接收端通信的超时时间配置项，当取默认配置值0时，邮件服务器在1个单位时间（约3毫秒）内没有收到网络回包即认为超时，而这3毫秒仅够电信号打来回飞出500英里。这个“故事”可能会给技术人员一点警醒，错误的配置会导致预期之外的软件行为，但是配置如何会引入软件供应链方向的安全风险呢？这就引出了下一个重磅实例。 JIRA配置错误致NASA敏感信息泄露案例我们都听过一个事情，马云在带队考察美国公司期间问Google CEO Larry Page自视谁为竞争对手，Larry的回答是NASA，因为最优秀的工程师都被NASA的梦想吸引过去了。由此我们显然能窥见NASA的技术水位之高，这样的人才团队大概至少是不会犯什么低级错误的。但也许需要重新定义“低级错误”……1月11日一篇技术文章披露，NASA某官网部署使用的缺陷跟踪管理系统JIRA存在错误的配置，可分别泄漏内部员工（JIRA系统用户）的全部用户名和邮件地址，以及内部项目和团队名称到公众，如下：问题的原因解释起来也非常简单：JIRA系统的过滤器和配置面板中，对于数据可见性的配置选项分别选定为All users和Everyone时，系统管理人员想当然地认为这意味着将数据对所有“系统用户”开放查看，但是JIRA的这两个选项的真实效果逆天，是面向“任意人”开放，即不限于系统登录用户，而是任何查看页面的人员。看到这里，我不厚道地笑了……“All users”并不意味着“All ‘users’”，意不意外，惊不惊喜？但是这种字面上把戏，为什么没有引起NASA工程师的注意呢，难道这样逆天的配置项没有在产品手册文档中加粗标红提示吗？本着为JIRA产品设计找回尊严的态度，我深入挖掘了一下官方说明，果然在Atlassian官方的一份confluence文档（看起来更像是一份增补的FAQ）中找到了相关说明：所有未登录访客访问时，系统默认认定他们是匿名anonymous用户，所以各种权限配置中的all users或anyone显然应该将匿名用户包括在内。在7.2及之后版本中，则提供了“所有登录用户”的选项。可以说是非常严谨且贴心了。比较讽刺的是，在我们的软件供应链安全大赛·C源代码赛季期间，我们设计圈定的恶意代码攻击目标还包括JIRA相关的敏感信息的窃取，但是却想不到有这么简单方便的方式，不动一行代码就可以从JIRA中偷走数据。软件的使用，你“配”吗？无论是开放的代码还是成型的产品，我们在使用外部软件的时候，都是处于软件供应链下游的消费者角色，为了要充分理解上游开发和产品的真实细节意图，需要我们付出多大的努力才够“资格”？上一章节我们讨论过源码使用中必要细节信息缺失造成的“API误用”问题，而软件配置上的“误用”问题则复杂多样得多。从可控程度上讨论，至少有这几种因素定义了这个问题： ·软件用户对必要配置的现有文档缺少了解。这是最简单的场景，但又是完全不可避免的，这一点上我们所有有开发、产品或运营角色经验的应该都曾经体会过向不管不顾用户答疑的痛苦，而所有软件使用者也可以反省一下对所有软件的使用是否都以完整细致的文档阅读作为上手的准备工作，所以不必多说。 ·软件拥有者对配置条目缺少必要明确说明文档。就JIRA的例子而言，将NASA工程师归为上一条错误有些冤枉，而将JIRA归为这条更加合适。在边角但重要问题上的说明通过社区而非官方文档形式发布是一种不负责任的做法，但未引发安全事件的情况下还有多少这样的问题被默默隐藏呢？我们没办法要求在使用软件之前所有用户将软件相关所有文档、社区问答实现全部覆盖。这个问题范围内一个代表性例子是对配置项的默认值以及对应效果的说明缺失。 ·配置文件版本兼容性带来的误配置和安全问题。实际上，上面的SunOS Sendmail案例足以点出这个问题的存在性，但是在真实场景下，很可能不会以这么戏剧性形式出现。在企业的系统运维中，系统的版本迭代常见，但为软件行为一致性，配置的跨版本迁移是不可避免的操作；而且软件的更新迭代也不只会由系统更新推动，还有大量出于业务性能要求而主动进行的定制化升级，对于中小企业基础设施建设似乎是一个没怎么被提及过的问题。 ·配置项组合冲突问题。尽管对于单个配置项可能明确行为与影响，但是特定的配置项搭配可能造成不可预知的效果。这完全有可能是由于开发者与用户在信息不对等的情况下产生：开发者认为用户应该具有必需的背景知识，做了用户应当具备规避配置冲突能力的假设。一个例子是，对称密码算法在使用ECB、CBC分组工作模式时，从密码算法上要求输入数据长度必须是分组大小的整倍数，但如果用户搭配配置了秘钥对数据不做补齐（nopadding），则引入了非确定性行为：如果密码算法库对这种组合配置按某种默认补齐方式操作数据则会引起歧义，但如果在算法库代码层面对这种组合抛出错误则直接影响业务。 ·程序对配置项处理过程的潜在暗箱操作。这区别于简单的未文档化配置项行为，仅特指可能存在的蓄意、恶意行为。从某种意义上，上述“All users”也可以认为是这样的一种陷阱，通过浅层次暗示，引导用户做出错误且可能引起问题的配置。另一种情况是特定配置组合情况下触发恶意代码的行为，这种触发条件将使恶意代码具有规避检测的能力，且在用户基数上具有一定概率的用户命中率。当然这种情况由官方开发者直接引入的可能性很低，但是在众包开发的情况下如果存在，那么扫描方案是很难检测的。 Ⅵ. 从逆流到暗流：恶意代码溯源后的挑战如果说前面所说的种种威胁都是面向关键目标和核心系统应该思考的问题，那么最后要抛出一个会把所有人拉进赛场的理由。除了前面所有那些在软件供应链下游被动污染受害的情况，还有一种情形：你有迹可循的代码，也许在不经意间会“反哺”到黑色产业链甚至特殊武器中；而现在研究用于对程序进行分析和溯源的技术，则会让你陷入百口莫辩的境地。案例：黑产代码模块溯源疑云 1月29日，猎豹安全团队发布技术分析通报文章《电信、百度客户端源码疑遭泄漏，驱魔家族窃取隐私再起波澜》，矛头直指黑产上游的恶意信息窃取代码模块，认定其代码与两方产品存在微妙的关联：中国电信旗下“桌面3D动态天气”等多款软件，以及百度旗下“百度杀毒”等软件（已不可访问）。文章中举证有三个关键点。首先最直观的，是三者使用了相同的特征字符串、私有文件路径、自定义内部数据字段格式；其次，在关键代码位置，三者在二进制程序汇编代码层面具有高度相似性；最终，在一定范围的非通用程序逻辑上，三者在经过反汇编后的代码语义上显示出明显的雷同，并提供了如下两图佐证（图片来源）：文章指出的涉事相关软件已经下线，对于上述样本文件的相似度试验暂不做复现，且无法求证存在相似、疑似同源的代码在三者中占比数据。对于上述指出的代码雷同现象，猎豹安全团队认为：我们怀疑该病毒模块的作者通过某种渠道(比如“曾经就职”)，掌握有中国电信旗下部分客户端/服务端源码，并加以改造用于制作窃取用户隐私的病毒，另外在该病毒模块的代码中，我们还发现“百度”旗下部分客户端的基础调试日志函数库代码痕迹，整个“驱魔”病毒家族疑点重重，其制作传播背景愈发扑朔迷离。这样的推断，固然有过于直接的依据（例如三款代码中均使用含有“baidu”字样的特征注册表项）；但更进一步地，需要注意到，三个样本在所指出的代码位置，具有直观可见的二进制汇编代码结构的相同，考虑到如果仅仅是恶意代码开发者先逆向另外两份代码后借鉴了代码逻辑，那么在面临反编译、代码上下文适配重构、跨编译器和选项的编译结果差异等诸多不确定环节，仍能保持二进制代码的雷同，似乎确实是只有从根本上的源代码泄漏（抄袭）且保持相同的开发编译环境才能成立。但是我们却又无法做出更明确的推断。这一方面当然是出于严谨避免过度解读；而从另一方面考虑，黑产代码的一个关键出发点就是“隐藏自己”，而这里居然如此堂而皇之地照搬了代码，不但没有进行任何代码混淆、变形，甚至没有抹除疑似来源的关键字符串，如果将黑产视为智商在线的对手，那这里背后是否有其它考量，就值得琢磨了。代码的比对、分析、溯源技术水准上文中的安全团队基于大量样本和粗粒度比对方法，给出了一个初步的判断和疑点。那么是否有可能获得更确凿的分析结果，来证实或证伪同源猜想呢？无论是源代码还是二进制，代码比对技术作为一种基础手段，在软件供应链安全分析上都注定仍然有效。在我们的软件供应链安全大赛期间，针对PE二进制程序类型的题目，参赛队伍就纷纷采用了相关技术手段用于目标分析，包括：同源性分析，用于判定与目标软件相似度最高的同软件官方版本；细粒度的差异分析，用于尝试在忽略编译差异和特意引入的混淆之外，定位特意引入的恶意代码位置。当然，作为比赛中针对性的应对方案，受目标和环境引导约束，这些方法证明了可行性，却难以保证集成有最新技术方案。那么做一下预言，在不计入情报辅助条件下，下一代的代码比对将能够到达什么水准？这里结合近一年和今年内，已发表和未发表的学术领域顶级会议的相关文章来简单展望： ·针对海量甚至全量已知源码，将可以实现准确精细化的“作者归属”判定。在ACM CCS‘18会议上曾发表的一篇文章《Large-Scale and Language-Oblivious Code Authorship Identification》，描述了使用RNN进行大规模代码识别的方案，在圈定目标开发者，并预先提供每个开发者的5-7份已知的代码文件后，该技术方案可以很有效地识别大规模匿名代码仓库中隶属于每个开发者的代码：针对1600个Google Code Jam开发者8年间的所有代码可以实现96%的成功识别率，而针对745个C代码开发者于1987年之后在GitHub上面的全部公开代码仓库，识别率也高达94.38%。这样的结果在当下的场景中，已经足以实现对特定人的代码识别和跟踪（例如，考虑到特定开发人员可能由于编码习惯和规范意识，在时间和项目跨度上犯同样的错误）；可以预见，在该技术方向上，完全可以期望摆脱特定已知目标人的现有数据集学习的过程，并实现更细粒度的归属分析，例如代码段、代码行、提交历史。 ·针对二进制代码，更准确、更大规模、更快速的代码主程序分析和同源性匹配。近年来作为一项程序分析基础技术研究，二进制代码相似性分析又重新获得了学术界和工业界的关注。在2018年和2019（已录用）的安全领域四大顶级会议上，每次都会有该方向最新成果的展示，如S&P‘2019上录用的《Asm2Vec: Boosting Static Representation Robustness for Binary Clone Search against Code Obfuscation and Compiler Optimization》，实现无先验知识的条件下的最优汇编代码级别克隆检测，针对漏洞库的漏洞代码检测可实现0误报、100%召回。而2018年北京HITB会议上，Google Project Zero成员、二进制比对工具BinDiff原始作者Thomas Dullien，探讨了他借用改造Google自家SimHash算法思想，用于针对二进制代码控制流图做相似性检测的尝试和阶段结果；这种引入规模数据处理的思路，也可期望能够在目前其他技术方案大多精细化而低效的情况下，为高效、快速、大规模甚至全量代码克隆检测勾出未来方案。 ·代码比对方案对编辑、优化、变形、混淆的对抗。近年所有技术方案都以对代码“变种”的检测有效性作为关键衡量标准，并一定程度上予以保证。上文CCS‘18论文工作，针对典型源代码混淆（如Tigress）处理后的代码，大规模数据集上可有93.42%的准确识别率；S&P‘19论文针对跨编译器和编译选项、业界常用的OLLVM编译时混淆方案进行试验，在全部可用的混淆方案保护之下的代码仍然可以完成81%以上的克隆检测。值得注意的是以上方案都并非针对特定混淆方案单独优化的，方法具有通用价值；而除此以外还有很多针对性的的反混淆研究成果可用；因此，可以认为在采用常规商用代码混淆方案下，即便存在隐藏内部业务逻辑不被逆向的能力，但仍然可以被有效定位代码复用和开发者自然人。代码溯源技术面前的“挑战” 作为软件供应链安全的独立分析方，健壮的代码比对技术是决定性的基石；而当脑洞大开，考虑到行业的发展，也许以下两种假设的情景，将把每一个“正当”的产品、开发者置于尴尬的境地。代码仿制在本章节引述的“驱魔家族”代码疑云案例中，黑产方面通过某种方式获得了正常代码中，功能逻辑可以被自身复用的片段，并以某种方法将其在保持原样的情况下拼接形成了恶意程序。即便在此例中并非如此，但这却暴露了隐忧：将来是不是有这种可能，我的正常代码被泄漏或逆向后出现在恶意软件中，被溯源后扣上黑锅？这种担忧可能以多种渠道和形式成为现实。从上游看，内部源码被人为泄漏是最简单的形式（实际上，考虑到代码的完整生命周期似乎并没有作为企业核心数据资产得到保护，目前实质上有没有这样的代码在野泄漏还是个未知数），而通过程序逆向还原代码逻辑也在一定程度上可获取原始代码关键特征。从下游看，则可能有多种方式将恶意代码伪造得像正常代码并实现“碰瓷”。最简单地，可以大量复用关键代码特征（如字符串，自定义数据结构，关键分支条件，数据记录和交换私有格式等）。考虑到在进行溯源时，分析者实际上不需要100%的匹配度才会怀疑，因此仅仅是仿造原始程序对于第三方公开库代码的特殊定制改动，也足以将公众的疑点转移。而近年来类似自动补丁代码搜索生成的方案也可能被用来在一份最终代码中包含有二方甚至多方原始代码的特征和片段。基于开发者溯源的定点渗透既然在未来可能存在准确将代码与自然人对应的技术，那么这种技术也完全可能被黑色产业利用。可能的忧患包括强针对性的社会工程，结合特定开发者历史代码缺陷的漏洞挖掘利用，联动第三方泄漏人员信息的深层渗透，等等。这方面暂不做联想展开。〇. 没有总结作为一场旨在定义“软件供应链安全”威胁的宣言，阿里安全“功守道”大赛将在后续给出详细的分解和总结，其意义价值也许会在一段时间之后才能被挖掘。但是威胁的现状不容乐观，威胁的发展不会静待；这一篇随笔仅仅挑选六个侧面做摘录分析，可即将到来的趋势一定只会进入更加发散的境地，因此这里，没有总结。本篇文章为转载内容。原文链接：https://blog.csdn.net/systemino/article/details/90114743。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-05 13:33:43

300

转载

转载文章

[转载][置顶]《游戏引擎架构》信息总汇

...、角色动画、游戏世界对象模型等引擎子系统多平台游戏引擎多处理器环境下的游戏编程工作管道及游戏资产数据库作者／译者简介作者介绍：Jason Gregory在1994年开始任职专业软件工程师，自1999年3月开始在游戏产业中任职软件工程师。在圣迭哥Midway Home Entertainment公司开始游戏编程的他，为《疯狂飞行员（Freaky Flyers）》及《Crank the Weasel》开发PlayStation 2/Xbox上的动画系统。在2003年，他转到洛杉矶艺电，为《荣誉勋章：血战太平洋（Medal of Honor: Pacific Assault）》开发游戏引擎及游戏性技术，并在《荣誉勋章：空降神兵（Medal of Honor: Airborne）》中担任首席工程师。他现时是顽皮狗公司的通才程序员，为《神秘海域：德雷克船长的宝藏（Uncharted: Drake's Fortune）》及《神秘海域：纵横四海（Uncharted: Among Thieves）》开发引擎及游戏性软件。他也在南加州大学教授游戏技术的课程。译者简介：叶劲峰（Milo Yip）从小自习编程，并爱好计算机图形学。上中学时兼职开发策略RPG《王子传奇》，该游戏在1995年于台湾发行。其后他获取了香港大学认知科学学士、香港中文大学系统工程及工程管理哲学硕士。毕业后在香港理工大学设计学院从事游戏引擎及相关技术的研发，职至项目主任。除发表学术文章外，也曾合著《DirectX9游戏编程实务》。2008年往上海育碧担任引擎工程师开发《美食从天而降（Cloudy with a Chance of Meatballs）》Xbox360/PS3/Wii/PC，2009年起于麻辣马开发《爱丽丝：疯狂回归（Alice: Madness Returns）》Xbox360/PS3/PC，2011年加入腾讯互动娱乐引擎技术中心担任专家工程师，所研发的技术已用于《斗战神》、《天涯明月刀》、《众神争霸》等项目中。推荐序1 最初拿到《Game Engine Architecture》一书的英文版，是编辑侠少邮寄给我的打印版。他建议我接下翻译此书的合同。当时我正在杭州带领一个团队开发3D游戏引擎，我和我的同事都对这本书的内容颇有兴趣，两大本打印的英文书立刻在同事间传开。可惜那段时间个人精力顾及不来，把近千页的英文读物精读而后翻译成中文对个人的业余时间是个极大的挑战，不能担此翻译任务颇为遗憾。不久以后听说Milo Yip（叶劲峰）已开始着手翻译，甚为欣喜。翻译此巨著，他一定是比我更合适的人选。我和Milo虽未曾蒙面，但神交已久。在网络上读过一些他的成长经历，和我颇为相似，心有戚戚。他对游戏3D实时渲染技术研究精深为我所不及，我们曾通过Google Talk讨论过许多技术问题，他都有独到的见解。翻译工作开始后，Milo是香港人，英文技术术语在香港的中文译法和大陆的有许多不同。但此书由大陆出版社出版，考虑到面对的读者主要是大陆程序员，Milo希望能更符合大陆程序员的用词习惯，所以在翻译一开始就通过Google Docs创建了协作页面，邀请大家共同探讨书中技术名词的中译名。从中我们可以一窥他作为译者的慎重。三年之后，有幸在出版之前就拿到了完整的译本。这是一本用LaTeX精心排版的800页的电子书，我只花了一周时间，几乎是一口气读完。流畅的阅读享受，绝对不仅仅是因为原著精彩的内容，精美的版面和翔实的译注也加了不少分。在阅读本书的过程中，我不只一次地获得共鸣。例如在第5章的内存管理系统的介绍中，作者介绍的几种游戏特有的内存管理方法我都曾在项目中用过，而这是第一次有书籍专门将这些方法详尽记录；又如第11章动画系统的介绍，我们也同样在3D引擎开发过程中改进原有动画片段混合方法的经历。虽然书中介绍的每个技术点，都可能可以在某篇论文，某本其他的书的章节，某篇网络blog上见过，但之前却无一本书可以把这些东西放在一起相互参照。对于从事游戏引擎开发的程序员来说，了解各种引擎在处理每个具体问题时的方案是相当重要的。而每种方案又各有利弊，即使不做引擎开发工作而是在某一特定游戏引擎上做游戏开发，从中也可以理解引擎的局限性以及可能的改进方法。尤其是第14章介绍的对游戏性相关系统的设计，各个开发人员几乎都是凭经验设计，很少见有书籍对这些做总结。对于基于渲染引擎做开发的游戏程序员，这是必须面对的工作，这一章会有很大的借鉴意义。本书作者是业内资深的游戏引擎开发人，他所参于的《神秘海域》和《最后生还者》都是我的个人最爱。在玩游戏的过程中，作为游戏程序员的天性，自然会不断地猜想各个技术点是如何实现的，背后需要怎样的工具支持。能在书中一一得到印证是件特别开心的事情。作者反复强调代码实践的重要性，在书中遍布着C++代码。我不认为这些代码有直接取来使用的价值，但它们极大地帮助了读者理解书中的技术点。书中列出的顽皮狗工作室用lisp方言作为游戏配置脚本的范例也给我很大的启发，有了这些具体的代码示例以及作者本身的一线工程师背景，也让我确信书中那些关于主机游戏开发相关等，我所没有接触过的内容都也绝非泛泛而谈。国内的游戏开发社区的壮大，主要是随最近十年的MMO风潮而生。而就在大型网络游戏在中国有些畸形发展，让这类游戏偏离电子游戏游戏性的趋势时，我们有幸迎来了为移动设备开发游戏的大潮。游戏开发的重心重新回到游戏性本身。我们更需要去借鉴单机游戏是如何为玩家带来更纯粹的游戏体验，我相信书中记录的各种技术点会变的更有帮助。资深游戏开发及创业者云风 @简悦云风推荐序2 在我认识的许多游戏业开发同仁中，只有少数香港同胞，Milo Yip（叶劲峰）却正是这样一位给我印象非常深刻的优秀香港游戏开发者。我俩认识，是在Milo加入腾讯互动娱乐研发部引擎技术中心后，说来到现在也只是两年多时间。其间，他为人的谦逊务实，对待技术问题的严谨求真态度，对算法设计和性能优化的娴熟技术，都为人所称道。Milo一丝不苟的工作风格，甚至表现在对待技术文档排版这类事情上（Milo常执著地用LaTeX将技术文档排到完美），我想这一定是他在香港读大学、硕士及在香港理工大学的多媒体创新中心从事研究员，一贯沿袭至今的好作风。我很高兴腾讯游戏有实力吸引到这样优秀的技术专家；即使在其已从上海迁回香港家中，依然选择到深圳腾讯互动娱乐总部工作。叶兄从此工作日每天早晚过关，来往香港和深圳两地，虽有舟车劳顿，但是兼顾了对家庭的照顾和在游戏引擎方面的专业研究，希望这样的状况是令他满意的。认识叶兄当时，我便知道他在进行Jason Gregory所著《游戏引擎架构》一书的中译工作。因为自己从前也有业余翻译游戏开发有关书籍的经历，所以我能理解其中的辛苦和责任重大，对叶兄也更多一分钦佩。我以为，本书以及本书的中文读者最大的幸运便是，遇到叶兄这位对游戏有着如同对家对国般强烈责任感，犹如“游戏科学工作者”般的专业译者！现在（2013年年末）无疑是游戏史上对独立游戏制作者最友好的年代。开发设备方便获得（相对过往仅由主机厂商授权才能获得专利开发设备，现在有一台智能手机和一台个人电脑就可以开发）、技术工具友好、调试过程简单方便，且互联网上有丰富的例程和开源代码参考，也有网上社区便于交流。很多爱好者能够很快地制作出可运行的游戏原型，其中一些也能发布到应用商店。但是不全面掌握各方面知识，尤其是游戏引擎架构知识，往往只能停留在勉强修改、凑合重用别人提供的资源的应用程度上，难以做极限的性能改进，更妄谈革命式的架构创新。这样的程度是很难在成千上万的游戏中脱颖而出的。我们所认可的真正的游戏大作，必定是在某方面大幅超越用户期待的产品。为了打造这样的产品，游戏内容创作者（策划、美术等）需要“戴着镣铐跳舞”（在当前的机能下争取更多的创作自由度），而引擎架构合理的游戏可以经得起──也值得进行──反复优化，最终可以提供更多的自由度，这是大作出现的技术前提。书的作者、译者、出版社的编者，加上读者，大家是因书而结缘的有缘人。因叶兄这本《游戏引擎架构》译著而在线上线下相识的读者们，你们是不是因“了解游戏引擎架构，从而制作/优化好游戏”这样的理想而结了缘呢？亲爱的读者，愿你的游戏有一天因谜题巧妙绝伦、趣味超凡、虚拟世界气势磅礴、视觉效果逼真精美等专业因素取得业界褒奖，并得到玩家真诚的赞美。希望届时曾读叶兄这本《游戏引擎架构》译作的你，也可以回馈社会，回馈游戏开发的学习社区，帮助新人。希望你也可以建立微信公众号、博客等，或翻译游戏开发书籍，造福外语不好的读者，所以如果你的外语（英语、日语、韩语之于游戏行业比较重要）水平仍需精进，现在也可以同步加油了！腾讯《天天爱消除》游戏团队Leader 沙鹰 @也是沙鹰译序数千年以来，艺术家们通过文学、绘画、雕塑、建筑、音乐、舞蹈、戏剧等传统艺术形式充实人类的精神层面。自20世纪中叶，计算机的普及派生出另一种艺术形式──电子游戏。游戏结合了上述传统艺术以及近代科技派生的其他艺术（如摄影、电影、动画），并且完全脱离了艺术欣赏这种单向传递的方式──游戏必然是互动的，“玩家”并不是“读者”、“观众”或“听众”，而是进入游戏世界、感知并对世界做出反应的参与者。基于游戏的互动本质，游戏的制作通常比其他大众艺术复杂。商业游戏的制作通常需要各种人才的参与，而他们则需要依赖各种工具及科技。游戏引擎便是专门为游戏而设计的工具及科技集成。之所以称为引擎，如同交通工具中的引擎，提供了最核心的技术部分。因为复杂，研发成本高，人们不希望制作每款游戏（或车款）时都重新设计引擎，重用性是游戏引擎的一个重要设计目标。然而，各游戏本身的性质以及平台的差异，使研发完全通用的游戏引擎变得极困难，甚至不可能。市面上出售的游戏引擎，有一些虽然已经达到很高的技术水平，但在商业应用中，很多时候还是需要因应个别游戏项目对引擎改造、整合、扩展及优化。因此，即使能使用市面上最好的商用引擎或自研引擎，我们仍需要理解当中的架构、各种机制和技术，并且分析及解决在制作中遇到的问题。这些也是译者曾任于上海两家工作室时的主要工作范畴。选择翻译此著作，主要原因是在阅读中得到共鸣，并且能知悉一些知名游戏作品实际上所采用的方案。有感坊间大部分游戏开发书籍并不是由业内人士执笔，内容只足够应付一些最简单的游戏开发，欠缺宏观比较各种方案，技术与当今实际情况也有很大差距。而一些Gems类丛书虽然偶有好文章，但受形式所限欠缺系统性、全面性。难得本书原作者身为世界一流游戏工作室的资深游戏开发者（注1），在繁重的游戏开发工作外，还在大学教授游戏开发课程以至编写本著作。此外，从与内地同事的交流中，了解到许多从业者不愿意阅读外文书籍。为了普及知识及反馈业界社会，希望能尽绵力。或许有些人以为本著作是针对单机／游戏机游戏的，并不适合国内以网游为主的环境。但译者认为这是一种误解，许多游戏本身所涉及的技术是具通用性的。例如游戏性相关的游戏性系统、场景管理、人工智能、物理模拟等部分，许多时候也会同时用于网游的前台和后台。现时，一些动作为主、非MMO的国内端游甚至会直接在后台运行传统意义上的游戏引擎。至于前台相关的技术，单机和端游的区别更少。此外，随着近年移动终端的兴起，其硬件性能已超越传统掌上游戏机，开发手游所需的技术与传统掌上游戏机并无太大差异。还可预料，现时单机／游戏机的一些较高级的架构及技术，将在不远的未来着陆移动终端平台。译者认为，本书涵括游戏开发技术的方方面面，同时适合入门及经验丰富的游戏程序员。书名中的架构二字，并不单是给出一个系统结构图，而是描述每个子系统的需求、相关技术及与其他子系统的关系。对译者本人而言，本书的第11章（动画系统）及第14章（运行时游戏性基础系统）是本书特別精彩之处，含有许多少见于其他书籍的内容。而第10章（渲染引擎）由于是游戏引擎中的一个极大的部分，有限的篇幅可能未能覆盖广度及深度，推荐读者参考[1]（注2），人工智能方面也需参考其他专著。本译作采用LaTeX排版（注3），以Inkscape编译矢量图片。为了令阅读更流畅，内文中的网址都统一改以脚注标示。另外，由于现时游戏开发相关的文献以英文为主，而且游戏开发涉及的知识面很广，本译作尽量以括号形式保留英文术语。为了方便读者查找内容，在附录中增设中英文双向索引（索引条目与原著的不同）。本人在香港成长学习及工作，至2008年才赴内地游戏工作室工作，不黯内地的中文写作及用字习惯，翻译中曾遇到不少困难。有幸得到出版社人员以及良师益友的帮助，才能完成本译作。特别感谢周筠老师支持本作的提案，并耐心地给予协助及鼓励。编辑张春雨老师和卢鸫翔老师，以及好友余晟给予了大量翻译上的知识及指导。也感谢游戏业界专家云风、大宝和Dave给予了许多宝贵意见。此书的翻译及排版工作比预期更花时间，感谢妻子及儿女们的体谅。此次翻译工作历时三年半，因工作及家庭事宜导致严重延误，唯有在翻译及排版工作上更尽心尽力，希望求得等待此译作的读者们谅解。无论是批评或建议，诚希阁下通过电邮miloyip@gmail.com、新浪微博、豆瓣等渠道不吝赐教。叶劲峰（Milo Yip） 2013年10月原作者是顽皮狗（Naughty Dog）《神秘海域（Uncharted）》系列的通才程序员、《最后生还者（The Last of Us）》的首席程序员，之前还曾在EA和Midway工作。中括号表示引用附录中的参考文献。一些参考条目加入了其中译本的信息。具体是使用CTEX套装，它是在MiKTeX的基础上增加中文的支持。前言最早的电子游戏完全由硬件构成，但微处理器（microprocessor）的高速发展完全改变了游戏的面貌。现在的游戏是在多用途的PC和专门的电子游戏主机（video game console）上玩的，凭借软件带来绝妙的游戏体验。从最初的游戏诞生至今已有半个世纪，但很多人仍然认为游戏是一个未成熟的产业。即使游戏可能是个年轻的产业，若仔细观察，也会发现它正在高速发展。现时游戏已成为一个上百亿美元的产业，覆盖不同年龄、性别的广泛受众。千变万化的游戏，可以分为从纸牌游戏到大型多人在线游戏（massively multiplayer online game，MMOG）等多个种类（category）和“类型（genre）”（注1），也可以运行在任何装有微芯片（microchip）的设备上。你现在可以在PC、手机及多种特别为游戏而设计的手持/电视游戏主机上玩游戏。家用电视游戏通常代表最尖端的游戏科技，又由于它们是周期性地推出新版本，因此有游戏机“世代”（generation）的说法。最新一代（注2）的游戏机包括微软的Xbox 360和索尼的PlayStation 3，但一定不可忽视长盛不衰的PC，以及最近非常流行的任天堂Wii。最近，剧增的下载式休闲游戏，使这个多样化的商业游戏世界变得更复杂。虽然如此，大型游戏仍然是一门大生意。今天的游戏平台非常复杂，有难以置信的运算能力，这使软件的复杂度得以进一步提升。所有这些先进的软件都需要由人创造出来，这导致团队人数增加，开发成本上涨。随着产业变得成熟，开发团队要寻求更好、更高效的方式去制作产品，可复用软件（reusable software）和中间件（middleware）便应运而生，以补偿软件复杂度的提升。由于有这么多风格迥异的游戏及多种游戏平台，因此不可能存在单一理想的软件方案。然而，业界已经发展出一些模式，也有大量的潜在方案可供选择。现今的问题是如何找到一个合适的方案去迎合某个项目的需要。再进一步，开发团队必须考虑项目的方方面面，以及如何把各方面集成。对于一个崭新的游戏设计，鲜有可能找到一个完美搭配游戏设计各方面的软件包。现时业界内的老手，入行时都是“开荒牛”。我们这代人很少是计算机科学专业出身（Matt的专业是航空工程、Jason的专业是系统设计工程），但现时很多学院已设有游戏开发的课程和学位。时至今日，为了获取有用的游戏开发信息，学生和开发者必须找到好的途径。对于高端的图形技术，从研究到实践都有大量高质量的信息。可是，这些信息经常不能直接应用到游戏的生产环境，或者没有一个生产级质量的实现。对于图形以外的游戏开发技术，市面上有一些所谓的入门书籍，没提及参考文献就描述很多内容细节，像自己发明的一样。这种做法根本没有用处，甚至经常带有不准确的内容。另一方面，市场上有一些高端的专门领域书籍，例如物理、碰撞、人工智能等。可是，这类书或者啰嗦到让你难以忍受，或者高深到让部分读者无法理解，又或者内容过于零散而难于融会贯通。有一些甚至会直接和某项技术挂钩，软硬件一旦改动，其内容就会迅速过时。此外，互联网也是收集相关知识的绝佳工具。可是，除非你确实知道要找些什么，否则断链、不准确的资料、质量差的内容也会成为学习障碍。好在，我们有Jason Gregory，他是一位拥有在顽皮狗（Naughty Dog）工作经验的业界老手，而顽皮狗是全球高度瞩目的游戏工作室之一。Jason在南加州大学教授游戏编程课程时，找不到概括游戏架构的教科书。值得庆幸的是，他承担了这个任务，填补了这个空白。 Jason把应用到实际发行游戏的生产级别知识，以及整个游戏开发的大局编集于本书。他凭经验，不仅融汇了游戏开发的概念和技巧，还用实际的代码示例及实现例子去说明怎样贯通知识来制作游戏。本书的引用及参考文献可以让读者更深入探索游戏开发过程的各方面。虽然例子经常是基于某些技术的，但是概念和技巧是用来实际创作游戏的，它们可以超越个别引擎或API的束缚。本书是一本我们入行做游戏时想要的书。我们认为本书能让入门者增长知识，也能为有经验者开拓更大的视野。 Jeff Lander（注3） Matthew Whiting（注4）译注：Genre一词在文学中为体裁。电影和游戏里通常译作类型。不同的游戏类型可见1.2节。译注：按一般说法，2005年至今属于第7个游戏机世代。这3款游戏机的发行年份为Xbox 360（2005）、PlayStation 3（2006）、Wii（2006）。有关游戏机世代可参考维基百科。译注：Jeff Lander现时为Darwin 3D公司的首席技术总监、Game Tech公司创始人，曾为艺电首席程序员、Luxoflux公司游戏性及动画技术程序员。译注：Matthew Whiting现时为Wholesale Algorithms公司程序员，曾为Luxoflux公司首席软件工程师、Insomniac Games公司程序员。序言欢迎来到《游戏引擎架构》世界。本书旨在全面探讨典型商业游戏引擎的主要组件。游戏编程是一个庞大的主题，有许多内容需要讨论。不过相信你会发现，我们讨论的深度将足以使你充分理解本书所涵盖的工程理论及常用实践的方方面面。话虽如此，令人着迷的漫长游戏编程之旅其实才刚刚启程。与此相关的每项技术都包含丰富内容，本书将为你打下基础，并引领你进入更广阔的学习空间。本书焦点在于游戏引擎的技术及架构。我们会探讨商业游戏引擎中，各个子系统的相关理论，以及实现这些理论所需要的典型数据结构、算法和软件接口。游戏引擎与游戏的界限颇为模糊。我们将把注意力集中在引擎本身，包括多个低阶基础系统（low-level foundation system）、渲染引擎（rendering engine）、碰撞系统（collision system）、物理模拟（physics simulation）、人物动画（character animation），及一个我称为游戏性基础层（gameplay foundation layer）的深入讨论。此层包括游戏对象模型（game object model）、世界编辑器（world editor）、事件系统（event system）及脚本系统（scripting system）。我们也将会接触游戏性编程（gameplay programming）的多个方面，包括玩家机制（player mechanics）、摄像机（camera）及人工智能（artificial intelligence，AI）。然而，这类讨论会被限制在游戏性系统和引擎接口范围。本书可以作为大学中等级游戏程序设计中两到三门课程的教材。当然，本书也适合软件工程师、业余爱好者、自学的游戏程序员，以及游戏行业从业人员。通过阅读本书，资历较浅的游戏程序员可以巩固他们所学的游戏数学、引擎架构及游戏科技方面的知识。专注某一领域的资深程序员也能从本书更为全面的介绍中获益。为了更好地学习本书内容，你需要掌握基本的面向对象编程概念并至少拥有一些C++编程经验。尽管游戏行业已经开始尝试使用一些新的、令人兴奋的编程语言，然而工业级的3D游戏引擎仍然是用C或C++编写的，任何认真的游戏程序员都应该掌握C++。我们将在第3章重温一些面向对象编程的基本原则，毫无疑问，你还会从本书学到一些C++的小技巧，不过C++的基础最好还是通过阅读[39]、[31]及[32]来获得。如果你对C++已经有点生疏，建议你在阅读本书的同时，最好能重温这几本或者类似书籍。如果你完全没有C++经验，在看本书之前，可以考虑先阅读[39]的前几章，或者尝试学习一些C++的在线教程。学习编程技能最好的方法就是写代码。在阅读本书时，强烈建议你选择一些特别感兴趣的主题付诸实践。举例来说，如果你觉得人物动画很有趣，那么可以首先安装OGRE，并测试一下它的蒙皮动画示范。接着还可以尝试用OGRE实现本书谈及的一些动画混合技巧。下一步你可能会打算用游戏手柄控制人物在平面上行走。等你能玩转一些简单的东西了，就应该以此为基础，继续前进！之后可以转移到另一个游戏技术范畴，周而复始。这些项目是什么并不重要，重要的是你在实践游戏编程的艺术，而不是纸上谈兵。游戏科技是一个活生生、会呼吸的家伙，永远不可能将之束缚于书本之上。因此，附加的资源、勘误、更新、示例代码、项目构思等已经发到本书的网站。目录推荐序1 iii推荐序2 v译序 vii序言 xvii前言 xix致谢 xxi第一部分基础 1第1章导论 31.1 典型游戏团队的结构 41.2 游戏是什么 71.3 游戏引擎是什么 101.4 不同游戏类型中的引擎差异 111.5 游戏引擎概观 221.6 运行时引擎架构 271.7 工具及资产管道 46第2章专业工具 532.1 版本控制 532.2 微软Visual Studio 612.3 剖析工具 782.4 内存泄漏和损坏检测 792.5 其他工具 80第3章游戏软件工程基础 833.1 重温C++及最佳实践 833.2 C/C++的数据、代码及内存 903.3 捕捉及处理错误 118第4章游戏所需的三维数学 1254.1 在二维中解决三维问题 1254.2 点和矢量 1254.3 矩阵 1394.4 四元数 1564.5 比较各种旋转表达方式 1644.6 其他数学对象 1684.7 硬件加速的SIMD运算 1734.8 产生随机数 180第二部分低阶引擎系统 183第5章游戏支持系统 1855.1 子系统的启动和终止 1855.2 内存管理 1935.3 容器 2085.4 字符串 2255.5 引擎配置 234第6章资源及文件系统 2416.1 文件系统 2416.2 资源管理器 251第7章游戏循环及实时模拟 2777.1 渲染循环 2777.2 游戏循环 2787.3 游戏循环的架构风格 2807.4 抽象时间线 2837.5 测量及处理时间 2857.6 多处理器的游戏循环 2967.7 网络多人游戏循环 304第8章人体学接口设备（HID） 3098.1 各种人体学接口设备 3098.2 人体学接口设备的接口技术 3118.3 输入类型 3128.4 输出类型 3168.5 游戏引擎的人体学接口设备系统 3188.6 人体学接口设备使用实践 332第9章调试及开发工具 3339.1 日志及跟踪 3339.2 调试用的绘图功能 3379.3 游戏内置菜单 3449.4 游戏内置主控台 3479.5 调试用摄像机和游戏暂停 3489.6 作弊 3489.7 屏幕截图及录像 3499.8 游戏内置性能剖析 3499.9 游戏内置的内存统计和泄漏检测 356第三部分图形及动画 359第10章渲染引擎 36110.1 采用深度缓冲的三角形光栅化基础 36110.2 渲染管道 40410.3 高级光照及全局光照 42610.4 视觉效果和覆盖层 43810.5 延伸阅读 446第11章动画系统 44711.1 角色动画的类型 44711.2 骨骼 45211.3 姿势 45411.4 动画片段 45911.5 蒙皮及生成矩阵调色板 47111.6 动画混合 47611.7 后期处理 49311.8 压缩技术 49611.9 动画系统架构 50111.10 动画管道 50211.11 动作状态机 51511.12 动画控制器 535第12章碰撞及刚体动力学 53712.1 你想在游戏中加入物理吗 53712.2 碰撞/物理中间件 54212.3 碰撞检测系统 54412.4 刚体动力学 56912.5 整合物理引擎至游戏 60112.6 展望：高级物理功能 616第四部分游戏性 617第13章游戏性系统简介 61913.1 剖析游戏世界 61913.2 实现动态元素：游戏对象 62313.3 数据驱动游戏引擎 62613.4 游戏世界编辑器 627第14章运行时游戏性基础系统 63714.1 游戏性基础系统的组件 63714.2 各种运行时对象模型架构 64014.3 世界组块的数据格式 65714.4 游戏世界的加载和串流 66314.5 对象引用与世界查询 67014.6 实时更新游戏对象 67614.7 事件与消息泵 69014.8 脚本 70714.9 高层次的游戏流程 726第五部分总结 727第15章还有更多内容吗 72915.1 一些未谈及的引擎系统 72915.2 游戏性系统 730参考文献 733中文索引 737英文索引 755 参考文献 Tomas Akenine-Moller, Eric Haines, and Naty Hoffman. Real-Time Rendering (3rd Edition). Wellesley, MA: A K Peters, 2008. 中译本：《实时计算机图形学（第2版）》，普建涛译，北京大学出版社，2004. Andrei Alexandrescu. Modern C++ Design: Generic Programming and Design Patterns Applied. Resding, MA: Addison-Wesley, 2001. 中译本：《C++设计新思维：泛型编程与设计模式之应用》，侯捷/於春景译，华中科技大学出版社，2003. Grenville Armitage, Mark Claypool and Philip Branch. Networking and Online Games: Understanding and Engineering Multiplayer Internet Games. New York, NY: John Wiley and Sons, 2006. James Arvo (editor). Graphics Gems II. San Diego, CA: Academic Press, 1991. Grady Booch, Robert A. Maksimchuk, Michael W. Engel, Bobbi J. Young, Jim Conallen, and Kelli A. Houston. Object-Oriented Analysis and Design with Applications (3rd Edition). Reading, MA: Addison-Wesley, 2007. 中译本：《面向对象分析与设计（第3版）》，王海鹏/潘加宇译，电子工业出版社，2012. Mark DeLoura (editor). Game Programming Gems. Hingham, MA: Charles River Media, 2000. 中译本：《游戏编程精粹 1》，王淑礼译，人民邮电出版社，2004. Mark DeLoura (editor). Game Programming Gems 2. Hingham, MA: Charles River Media, 2001. 中译本：《游戏编程精粹 2》，袁国忠译，人民邮电出版社，2003. Philip Dutré, Kavita Bala and Philippe Bekaert. Advanced Global Illumination (2nd Edition). Wellesley, MA: A K Peters, 2006. David H. Eberly. 3D Game Engine Design: A Practical Approach to Real-Time Computer Graphics. San Francisco, CA: Morgan Kaufmann, 2001. 国内英文版：《3D游戏引擎设计：实时计算机图形学的应用方法（第2版）》，人民邮电出版社，2009. David H. Eberly. 3D Game Engine Architecture: Engineering Real-Time Applications with Wild Magic. San Francisco, CA: Morgan Kaufmann, 2005. David H. Eberly. Game Physics. San Francisco, CA: Morgan Kaufmann, 2003. Christer Ericson. Real-Time Collision Detection. San Francisco, CA: Morgan Kaufmann, 2005. 中译本：《实时碰撞检测算法技术》，刘天慧译，清华大学出版社，2010. Randima Fernando (editor). GPU Gems: Programming Techniques, Tips and Tricks for Real-Time Graphics. Reading, MA: Addison-Wesley, 2004. 中译本：《GPU精粹：实时图形编程的技术、技巧和技艺》，姚勇译，人民邮电出版社，2006. James D. Foley, Andries van Dam, Steven K. Feiner, and John F. Hughes. Computer Graphics: Principles and Practice in C (2nd Edition). Reading, MA: Addison-Wesley, 1995. 中译本：《计算机图形学原理及实践──C语言描述》，唐泽圣/董士海/李华/吴恩华/汪国平译，机械工业出版社，2004. Grant R. Fowles and George L. Cassiday. Analytical Mechanics (7th Edition). Pacific Grove, CA: Brooks Cole, 2005. John David Funge. AI for Games and Animation: A Cognitive Modeling Approach. Wellesley, MA: A K Peters, 1999. Erich Gamma, Richard Helm, Ralph Johnson, and John M. Vlissiddes. Design Patterns: Elements of Reusable Object-Oriented Software. Reading, MA: Addison-Wesley, 1994. 中译本：《设计模式：可复用面向对象软件的基础》，李英军/马晓星/蔡敏/刘建中译，机械工业出版社，2005. Andrew S. Glassner (editor). Graphics Gems I. San Francisco, CA: Morgan Kaufmann, 1990. Paul S. Heckbert (editor). Graphics Gems IV. San Diego, CA: Academic Press, 1994. Maurice Herlihy, Nir Shavit. The Art of Multiprocessor Programming. San Francisco, CA: Morgan Kaufmann, 2008. 中译本：《多处理器编程的艺术》，金海/胡侃译，机械工业出版社，2009. Roberto Ierusalimschy, Luiz Henrique de Figueiredo and Waldemar Celes. Lua 5.1 Reference Manual. Lua.org, 2006. Roberto Ierusalimschy. Programming in Lua, 2nd Edition. Lua.org, 2006. 中译本：《Lua程序设计（第2版）》，周惟迪译，电子工业出版社，2008. Isaac Victor Kerlow. The Art of 3-D Computer Animation and Imaging (2nd Edition). New York, NY: John Wiley and Sons, 2000. David Kirk (editor). Graphics Gems III. San Francisco, CA: Morgan Kaufmann, 1994. Danny Kodicek. Mathematics and Physics for Game Programmers. Hingham, MA: Charles River Media, 2005. Raph Koster. A Theory of Fun for Game Design. Phoenix, AZ: Paraglyph, 2004. 中译本：《快乐之道：游戏设计的黄金法则》，姜文斌等译，百家出版社，2005. John Lakos. Large-Scale C++ Software Design. Reading, MA: Addison-Wesley, 1995. 中译本：《大规模C++程序设计》，李师贤/明仲/曾新红/刘显明译，中国电力出版社，2003. Eric Lengyel. Mathematics for 3D Game Programming and Computer Graphics (2nd Edition). Hingham, MA: Charles River Media, 2003. Tuoc V. Luong, James S. H. Lok, David J. Taylor and Kevin Driscoll. Internationalization: Developing Software for Global Markets. New York, NY: John Wiley & Sons, 1995. Steve Maguire. Writing Solid Code: Microsoft's Techniques for Developing Bug Free C Programs. Bellevue, WA: Microsoft Press, 1993. 国内英文版：《编程精粹：编写高质量C语言代码》，人民邮电出版社，2009. Scott Meyers. Effective C++: 55 Specific Ways to Improve Your Programs and Designs (3rd Edition). Reading, MA: Addison-Wesley, 2005. 中译本：《Effective C++：改善程序与设计的55个具体做法（第3版）》，侯捷译，电子工业出版社，2011. Scott Meyers. More Effective C++: 35 New Ways to Improve Your Programs and Designs. Reading, MA: Addison-Wesley, 1996. 中译本：《More Effective C++：35个改善编程与设计的有效方法（中文版）》，侯捷译，电子工业出版社，2011. Scott Meyers. Effective STL: 50 Specific Ways to Improve Your Use of the Standard Template Library. Reading, MA: Addison-Wesley, 2001. 中译本：《Effective STL：50条有效使用STL的经验》，潘爱民/陈铭/邹开红译，电子工业出版社，2013. Ian Millington. Game Physics Engine Development. San Francisco, CA: Morgan Kaufmann, 2007. Hubert Nguyen (editor). GPU Gems 3. Reading, MA: Addison-Wesley, 2007. 中译本：《GPU精粹3》，杨柏林/陈根浪/王聪译，清华大学出版社，2010. Alan W. Paeth (editor). Graphics Gems V. San Francisco, CA: Morgan Kaufmann, 1995. C. Michael Pilato, Ben Collins-Sussman, and Brian W. Fitzpatrick. Version Control with Subversion (2nd Edition). Sebastopol , CA: O'Reilly Media, 2008. （常被称作“The Subversion Book”，线上版本.）国内英文版：《使用Subversion进行版本控制》，开明出版社，2009. Matt Pharr (editor). GPU Gems 2: Programming Techniques for High-Performance Graphics and General-Purpose Computation. Reading, MA: Addison-Wesley, 2005. 中译本：《GPU精粹2：高性能图形芯片和通用计算编程技巧》，龚敏敏译，清华大学出版社，2007. Bjarne Stroustrup. The C++ Programming Language, Special Edition (3rd Edition). Reading, MA: Addison-Wesley, 2000. 中译本《C++程序设计语言（特别版）》，裘宗燕译，机械工业出版社，2010. Dante Treglia (editor). Game Programming Gems 3. Hingham, MA: Charles River Media, 2002. 中译本：《游戏编程精粹3》，张磊译，人民邮电出版社，2003. Gino van den Bergen. Collision Detection in Interactive 3D Environments. San Francisco, CA: Morgan Kaufmann, 2003. Alan Watt. 3D Computer Graphics (3rd Edition). Reading, MA: Addison Wesley, 1999. James Whitehead II, Bryan McLemore and Matthew Orlando. World of Warcraft Programming: A Guide and Reference for Creating WoW Addons. New York, NY: John Wiley & Sons, 2008. 中译本：《魔兽世界编程宝典：World of Warcraft Addons完全参考手册》，杨柏林/张卫星/王聪译，清华大学出版社，2010. Richard Williams. The Animator's Survival Kit. London, England: Faber & Faber, 2002. 中译本：《原动画基础教程：动画人的生存手册》，邓晓娥译，中国青年出版社，2006. 勘误第1次印册（2014年2月） P.xviii: 译注中 Wholesale Algoithms -> Wholesale Algorithms P.10: 最后一段第一行微软的媒体播放器 -> 微软的Windows Media Player (多谢读者OpenGPU来函指正) P.15: 1.4.3节第三点按妞 -> 按钮 (多谢读者一个小小凡人来函指正) P.40: 正文最后一行按扭 -> 按钮 P.50: 1.7.8节第二节第一行同是 -> 同时 (多谢读者czfdd来函指正) P.98: 代码 writeExampleStruct(Example& ex, Stream& ex) 中 Stream& ex -> Stream& stream (多谢读者Snow来函指正) P.106: 第一段中有六处 BBS -> BSS，最后一段代码的注释也有同样错误 (多谢读者trout来函指正) P.119: 译注中软体工程 -> 软件工程 (多谢读者Snow来函指正) P.214: 正文第一段有两处虚内存 -> 虚拟内存 (多谢读者Snow来函指正) P.216: 脚注24应标明为译注 (多谢读者Snow来函指正) P.221: 第一段代码的第二个断言应为 ASSERT(link.m_pPrev != NULL); (多谢读者Snow来函指正) P.230: 5.4.4.1节第二段软体 -> 软件 P.286: 脚注4应标明为译注 (多谢读者Snow来函指正) P.322: 第二段按扭事件字 -> 按钮事件 P.349: 9.8节第二段第二行两处部析器 -> 剖析器 (多谢读者Snow来函指正) P.738-572: 双数页页眉参考文献 -> 中文索引 P.755-772: 双数页页眉参考文献 -> 英文索引 P.755: kd tree项应归入K而不是Symbols 以上的错误已于第2次印册中修正。第2次印册及之前 P.11: 第四行细致程度 -> 层次细节 (这是level-of-detail/LOD的内地通译，多谢读者OpenGPU来函指正) P.12: 正文第一段及图1.2标题使命之唤 -> 使命召唤 (多谢读者OpenGPU来函指正) P.12: 正文第一段战栗时空 -> 半条命 (多谢读者OpenGPU来函指正) P.16: 第一点表面下散射 -> 次表面散射 (多谢读者OpenGPU来函指正) P.17: 1.4.4节第五行次文化 -> 亚文化 (此译法在内地更常用。多谢读者OpenGPU来函提示) P.22: 战栗时空 -> 半条命 P.24: 战栗时空2 -> 半条命2 P.34: 1.6.8.2节第一行提呈 -> 提交 (这术语在本书其他地方都写作提交。多谢读者OpenGPU来函提示) P.35: 第七行提呈 -> 提交 (这术语在本书其他地方都写作提交。多谢读者OpenGPU来函提示) P.50: 战栗时空2 -> 半条命2 P.365: 第四段第二行: 细致程度 -> 层次细节 P.441: 10.4.3.2节第三行细致程度 -> 层次细节 P.494: sinusiod -> sinusoid (多谢读者OpenGPU来函指正) P.511: 11.10.4节第一行谈入 -> 淡入 (多谢读者Snow来函指正) P.541: 战栗时空2 -> 半条命2 P.627: 战栗时空2 -> 半条命2 P.654: 第二行建康值 -> 血量 (原来是改正错别字，但译者发现应改作前后统一使用的“血量”。多谢读者Snow来函指正) P.692: 第二行内部分式 -> 内部方式 (多谢读者Snow来函指正) P.696: 14.7.6节第四行不设实际 -> 不切实际 (多谢读者Snow来函指正) 以上的错误已于第3次印册中修正。其他意见 P.220: 正文第一段 m_root.m_pElement 和 P.218 第一段代码中的 m_pElem 不统一。原文有此问题，但因为它们是不同的struct，暂不列作错误。 (多谢读者Snow来函提示) P.331: 8.5.8节第二段中 “反覆”较常见的写法为“反复”，但前者也是正确的，暂不列作错误。 (多谢读者Snow来函提示) P.390: 10.1.3.3节静态光照第二段中“取而代之，我们会使用一张光照纹理贴到所有受光源影响范围内的物体上。这样做能令动态物体经过光源时得到正确的光照。” 后面的一句与前句好像难以一起理解。译者认为，作者应该是指，使用同一静态光源去为静态物件生成光照纹理，以及用于动态对象的光照，能使两者的效果维持一致性。译者会考虑对译文作出改善或加入译注解译。（多谢读者店残来函查询） P.689: 第五行并行处理世代 -> 并行处理时代是对era较准确的翻译。 (多谢读者Snow来函提示) 本篇文章为转载内容。原文链接：https://blog.csdn.net/mypongo/article/details/38388381。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-12 23:04:05

327

转载

JQuery

jquery按钮的click事件无效

...元素已被浏览器解析并构建成为可被JavaScript代码访问和操作的对象模型。在$(document).ready()函数中，当DOM元素加载完成后，jQuery会立即执行传递给它的回调函数，确保在此阶段设置的事件处理器可以正确绑定到指定的DOM元素上，如按钮myButton。事件委托 , 在JavaScript和jQuery中，事件委托是一种将事件处理器绑定到父级元素而非直接绑定到子元素的技术。这样，即使子元素是动态生成的，也能触发该事件处理器。在本文的情境下，虽然未明确提到事件委托，但它是解决动态生成DOM元素点击事件无效问题的有效策略之一。事件委托利用了事件冒泡机制，当子元素触发事件时，事件会逐级向上冒泡至父级元素，在父级元素上设置的事件处理器能够捕获并响应这些事件，从而避免了为每个动态生成的子元素单独绑定事件的低效做法。

2023-03-10 18:35:11

148

码农

JSON

json 文件后缀名

...JavaScript对象。在开发中，JSON文件是一种非常常用的资料保存方式。无论是保存一些配置信息，还是保存用户资料，JSON文件都可以胜任。由于JSON格式的资料比较简洁，网络传输成本较低，因此在前端开发中也大量利用JSON格式的资料进行接口交互。总之，JSON扩展名为.json，是一种非常常用的资料保存方式，在前端开发中扮演着重要的角色。

2023-05-29 11:53:15

526

程序媛

JSON

json 解析易语言例

...ON数据的解析效率与内存占用，使得开发者能够更加便捷高效地操作JSON对象。实际案例方面，某电商团队利用易语言开发了一款移动端管理工具，通过内建的HTTP客户端发送请求获取服务器返回的大量JSON数据，并利用易语言的JSON模块成功实现了复杂嵌套结构的数据提取与展示，极大地提高了业务处理速度与用户体验。深入解读上，易语言对JSON的支持不仅体现在基础的读取、解析能力，更在于它如何将JSON数据映射为易语言中的数据结构，以及错误处理机制的设计。例如，当遇到无效或缺失的JSON键值时，易语言可以通过异常捕获机制确保程序稳定运行，同时提供详细的错误信息供开发者定位问题。此外，为了帮助开发者更好地掌握JSON处理技术，易语言社区定期举办线上教程和实战训练营，邀请行业专家分享JSON在实际项目中的最佳实践，以及易语言与其他主流Web框架整合的最新方案。无论是初学者还是资深开发者，都能从中获得提升JSON数据处理能力的关键知识与技巧，紧跟时代步伐，适应日益增长的数据交换需求。

2023-10-08 20:20:12

490

逻辑鬼才

Java

java中wait和notify实现银行

...ngQueue，可以构建出生产者消费者模式，有效解决线程间数据交换的问题，确保存款请求与取款请求按照先进先出（FIFO）或其他策略有序进行处理。同时，随着JDK版本的更新，Java内存模型（JMM）的完善以及对原子变量类（AtomicInteger、AtomicLong等）的支持，使得我们能够更好地理解和利用这些底层机制优化并行计算性能，降低死锁概率，提高系统整体并发效率。此外，对于分布式系统中的银行账户模型，还可以研究分布式锁服务（如Redis或ZooKeeper提供的分布式锁机制），以应对集群环境下多个节点间的并发控制挑战，确保全局一致性。综上所述，尽管基于wait和notify的经典线程同步方式在特定场合下依然适用，但不断发展的Java并发库为我们提供了更多与时俱进、更为高效且功能丰富的工具，帮助开发者构建更为稳健且高性能的并发程序。

2023-09-21 14:29:58

387

电脑达人

转载文章

[转载]Python:实现counting sort计数排序算法(附完整源码)

...特定领域如数据库索引构建中具有广泛的应用前景。近期，Google在优化其大数据处理框架Apache Beam的排序组件时，就考虑采用了计数排序等非比较型排序算法以提升系统性能。研究人员发现，通过针对性地分析数据分布特征，并适时引入计数排序算法，可以在不影响稳定性的同时显著减少排序所需的时间成本。然而，对于浮点数或数据范围极大的情况，计数排序则可能因为需要创建极大空间的计数数组而导致空间效率低下。因此，在实际应用中，往往需要结合其他高效排序算法（如快速排序、归并排序等）进行混合使用，根据实际情况灵活选择最优策略。此外，深入探究排序算法背后的理论基础也十分有益，例如Knuth在其经典著作《计算机程序设计艺术》中对各种排序算法进行了详尽而深入的解读，其中包括计数排序的设计原理及其在实际问题中的应用场景分析。学习这些理论知识将有助于我们更好地理解并运用计数排序以及其他各类排序算法，从而在面对不同的工程问题时能够做出更为精准有效的决策。

2023-10-02 13:00:57

130

转载

Java

java中处理异常的方式和语句

...序运行时出现可捕获的问题或严重错误时，会抛出一个Throwable的实例。程序员通常关注并处理的是Exception类型的子类，而Error类型的子类则通常代表严重的系统级问题，不建议也不方便在程序中进行捕获和处理。 try-catch块 , try-catch块是Java语言中的异常处理结构，用于检测和处理代码块中可能发生的异常情况。在try块中，程序员编写可能会抛出异常的代码；如果该代码执行过程中抛出了异常，控制权将立即转移到与之匹配的catch块，由catch块中的代码来执行相应的异常处理逻辑。 finally块 , finally块在Java异常处理机制中扮演着重要角色，它总是在try和catch语句之后执行，无论try块中的代码是否抛出异常或者catch块是否有匹配到并处理了异常。通常，finally块用于放置那些必须被执行的清理代码，如关闭打开的文件流、数据库连接等资源，以确保资源能够得到及时释放，避免内存泄漏等问题的发生。异常类型匹配规则 , 在Java编程中，catch块需要指定具体的异常类型以便准确捕获对应的异常。这意味着只有当try块中抛出的异常与catch块后声明的具体异常类型相匹配（或者是其子类）时，该catch块才会被执行。例如，若try块内可能出现NullPointerException，那么需要有一个catch(NullPointerException e)块来捕获和处理这种类型的异常。 throw关键字 , throw是Java中用于手动抛出异常的关键字。程序员可以在代码中使用throw显式地抛出一个异常对象，这通常发生在检测到某种不可接受的状态或条件时，比如参数无效、资源未找到等情况。通过抛出异常，可以强制程序中断当前执行流程，并将控制权转移给能处理此异常的上层代码逻辑。 try-with-resources语句 , Java 7引入的一种简化资源管理的语法结构，允许在try语句后面直接定义和初始化资源，这些资源会在try代码块结束时自动关闭，无需在finally块中手动处理。这样不仅提高了代码的简洁性，还降低了因忘记关闭资源而导致的潜在风险。例如，在读写文件操作中，我们可以直接在try关键字后的括号内声明FileInputStream对象，编译器会确保在try块结束后正确关闭这个输入流。

2024-01-13 22:39:29

335

键盘勇士

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

whoami - 显示当前登录用户的用户名。