... load 命令时会计算脚本的 SHA1 摘要并记录在脚本缓存中，执行 EVALSHA 命令时 Redis 会根据提供的摘要从脚本缓存中查找对应的脚本内容，如果找到了则执行脚本，否则会返回错误:“NOSCRIPT No matching script. Please use EVAL.” 127.0.0.1:6379> script load "return 'Hello World'" "470877a599ac74fbfda41caa908de682c5fc7d4b"127.0.0.1:6379> evalsha "470877a599ac74fbfda41caa908de682c5fc7d4b" 0 "Hello World" 3.2.5 自乘案例 Redis 有 incrby 这样的自增命令，但是没有自乘，比如乘以 3，乘以 5。我们可以写一个自乘的运算，让它乘以后面的参数： local curVal = redis.call("get", KEYS[1]) if curVal == false thencurVal = 0 elsecurVal = tonumber(curVal)endcurVal = curVal tonumber(ARGV[1]) redis.call("set", KEYS[1], curVal) return curVal 把这个脚本变成单行，语句之间使用分号隔开 local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal script load ‘命令’ 127.0.0.1:6379> script load 'local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal' "be4f93d8a5379e5e5b768a74e77c8a4eb0434441" 调用: 127.0.0.1:6379> set num 2OK127.0.0.1:6379> evalsha be4f93d8a5379e5e5b768a74e77c8a4eb0434441 1 num 6 (integer) 12 3.2.6 脚本超时 Redis 的指令执行本身是单线程的，这个线程还要执行客户端的 Lua 脚本，如果 Lua 脚本执行超时或者陷入了死循环，是不是没有办法为客户端提供服务了呢? eval 'while(true) do end' 0 为了防止某个脚本执行时间过长导致 Redis 无法提供服务，Redis 提供了 lua-time-limit 参数限制脚本的最长运行时间，默认为 5 秒钟。 lua-time-limit 5000(redis.conf 配置文件中) 当脚本运行时间超过这一限制后，Redis 将开始接受其他命令但不会执行(以确保脚本的原子性，因为此时脚本并没有被终止)，而是会返回“BUSY”错误。 Redis 提供了一个 script kill 的命令来中止脚本的执行。新开一个客户端: script kill 如果当前执行的 Lua 脚本对 Redis 的数据进行了修改(SET、DEL 等)，那么通过 script kill 命令是不能终止脚本运行的。 127.0.0.1:6379> eval "redis.call('set','gupao','666') while true do end" 0 因为要保证脚本运行的原子性，如果脚本执行了一部分终止，那就违背了脚本原子性的要求。最终要保证脚本要么都执行，要么都不执行。 127.0.0.1:6379> script kill(error) UNKILLABLE Sorry the script already executed write commands against the dataset. You can either wait the scripttermination or kill the server in a hard way using the SHUTDOWN NOSAVE command. 遇到这种情况，只能通过 shutdown nosave 命令来强行终止 redis。 shutdown nosave 和 shutdown 的区别在于 shutdown nosave 不会进行持久化操作，意味着发生在上一次快照后的数据库修改都会丢失。 4、Redis 为什么这么快? 4.1 Redis到底有多快？根据官方的数据，Redis 的 QPS 可以达到 10 万左右(每秒请求数)。 4.2 Redis为什么这么快? 总结:1)纯内存结构、2)单线程、3)多路复用 4.2.1 内存 KV 结构的内存数据库，时间复杂度 O(1)。第二个，要实现这么高的并发性能，是不是要创建非常多的线程? 恰恰相反，Redis 是单线程的。 4.2.2 单线程单线程有什么好处呢? 1、没有创建线程、销毁线程带来的消耗 2、避免了上线文切换导致的 CPU 消耗 3、避免了线程之间带来的竞争问题，例如加锁释放锁死锁等等 4.2.3 异步非阻塞异步非阻塞 I/O，多路复用处理并发连接。 4.3 Redis为什么是单线程的? 不是白白浪费了 CPU 的资源吗? 因为单线程已经够用了，CPU 不是 redis 的瓶颈。Redis 的瓶颈最有可能是机器内存或者网络带宽。既然单线程容易实现，而且 CPU 不会成为瓶颈，那就顺理成章地采用单线程的方案了。 4.4 单线程为什么这么快? 因为 Redis 是基于内存的操作，我们先从内存开始说起。 4.4.1 虚拟存储器(虚拟内存 Vitual Memory) 名词解释:主存:内存;辅存:磁盘(硬盘) 计算机主存(内存)可看作一个由 M 个连续的字节大小的单元组成的数组，每个字节有一个唯一的地址，这个地址叫做物理地址(PA)。早期的计算机中，如果 CPU 需要内存，使用物理寻址，直接访问主存储器。这种方式有几个弊端: 1、在多用户多任务操作系统中，所有的进程共享主存，如果每个进程都独占一块物理地址空间，主存很快就会被用完。我们希望在不同的时刻，不同的进程可以共用同一块物理地址空间。 2、如果所有进程都是直接访问物理内存，那么一个进程就可以修改其他进程的内存数据，导致物理地址空间被破坏，程序运行就会出现异常。为了解决这些问题，我们就想了一个办法，在 CPU 和主存之间增加一个中间层。CPU 不再使用物理地址访问，而是访问一个虚拟地址，由这个中间层把地址转换成物理地址，最终获得数据。这个中间层就叫做虚拟存储器(Virtual Memory)。具体的操作如下所示: 在每一个进程开始创建的时候，都会分配一段虚拟地址，然后通过虚拟地址和物理地址的映射来获取真实数据，这样进程就不会直接接触到物理地址，甚至不知道自己调用的哪块物理地址的数据。目前，大多数操作系统都使用了虚拟内存，如 Windows 系统的虚拟内存、Linux 系统的交换空间等等。Windows 的虚拟内存(pagefile.sys)是磁盘空间的一部分。在 32 位的系统上，虚拟地址空间大小是 2^32bit=4G。在 64 位系统上，最大虚拟地址空间大小是多少? 是不是 2^64bit=10241014TB=1024PB=16EB?实际上没有用到 64 位，因为用不到这么大的空间，而且会造成很大的系统开销。Linux 一般用低 48 位来表示虚拟地址空间，也就是 2^48bit=256T。 cat /proc/cpuinfo address sizes : 40 bits physical, 48 bits virtual 实际的物理内存可能远远小于虚拟内存的大小。总结：引入虚拟内存，可以提供更大的地址空间，并且地址空间是连续的，使得程序编写、链接更加简单。并且可以对物理内存进行隔离，不同的进程操作互不影响。还可以通过把同一块物理内存映射到不同的虚拟地址空间实现内存共享。 4.4.2 用户空间和内核空间为了避免用户进程直接操作内核，保证内核安全，操作系统将虚拟内存划分为两部分，一部分是内核空间(Kernel-space)/ˈkɜːnl /，一部分是用户空间(User-space)。内核是操作系统的核心，独立于普通的应用程序，可以访问受保护的内存空间，也有访问底层硬件设备的权限。内核空间中存放的是内核代码和数据，而进程的用户空间中存放的是用户程序的代码和数据。不管是内核空间还是用户空间，它们都处于虚拟空间中，都是对物理地址的映射。在 Linux 系统中, 内核进程和用户进程所占的虚拟内存比例是 1:3。当进程运行在内核空间时就处于内核态，而进程运行在用户空间时则处于用户态。进程在内核空间以执行任意命令，调用系统的一切资源;在用户空间只能执行简单的运算，不能直接调用系统资源，必须通过系统接口(又称 system call)，才能向内核发出指令。 top 命令: us 代表 CPU 消耗在 User space 的时间百分比; sy 代表 CPU 消耗在 Kernel space 的时间百分比。 4.4.3 进程切换(上下文切换) 多任务操作系统是怎么实现运行远大于 CPU 数量的任务个数的? 当然，这些任务实际上并不是真的在同时运行，而是因为系统通过时间片分片算法，在很短的时间内，将 CPU 轮流分配给它们，造成多任务同时运行的错觉。为了控制进程的执行，内核必须有能力挂起正在 CPU 上运行的进程，并恢复以前挂起的某个进程的执行。这种行为被称为进程切换。什么叫上下文? 在每个任务运行前，CPU 都需要知道任务从哪里加载、又从哪里开始运行，也就是说，需要系统事先帮它设置好 CPU 寄存器和程序计数器(ProgramCounter)，这个叫做 CPU 的上下文。而这些保存下来的上下文，会存储在系统内核中，并在任务重新调度执行时再次加载进来。这样就能保证任务原来的状态不受影响，让任务看起来还是连续运行。在切换上下文的时候，需要完成一系列的工作，这是一个很消耗资源的操作。 4.4.4 进程的阻塞正在运行的进程由于提出系统服务请求(如 I/O 操作)，但因为某种原因未得到操作系统的立即响应，该进程只能把自己变成阻塞状态，等待相应的事件出现后才被唤醒。进程在阻塞状态不占用 CPU 资源。 4.4.5 文件描述符 FD Linux 系统将所有设备都当作文件来处理，而 Linux 用文件描述符来标识每个文件对象。文件描述符(File Descriptor)是内核为了高效管理已被打开的文件所创建的索引，用于指向被打开的文件，所有执行 I/O 操作的系统调用都通过文件描述符;文件描述符是一个简单的非负整数，用以表明每个被进程打开的文件。 Linux 系统里面有三个标准文件描述符。 0:标准输入(键盘); 1:标准输出(显示器); 2:标准错误输出(显示器)。 4.4.6 传统 I/O 数据拷贝以读操作为例: 当应用程序执行 read 系统调用读取文件描述符(FD)的时候，如果这块数据已经存在于用户进程的页内存中，就直接从内存中读取数据。如果数据不存在，则先将数据从磁盘加载数据到内核缓冲区中，再从内核缓冲区拷贝到用户进程的页内存中。(两次拷贝，两次 user 和 kernel 的上下文切换)。 I/O 的阻塞到底阻塞在哪里? 4.4.7 Blocking I/O 当使用 read 或 write 对某个文件描述符进行过读写时，如果当前 FD 不可读，系统就不会对其他的操作做出响应。从设备复制数据到内核缓冲区是阻塞的，从内核缓冲区拷贝到用户空间，也是阻塞的，直到 copy complete，内核返回结果，用户进程才解除 block 的状态。为了解决阻塞的问题，我们有几个思路。 1、在服务端创建多个线程或者使用线程池，但是在高并发的情况下需要的线程会很多，系统无法承受，而且创建和释放线程都需要消耗资源。 2、由请求方定期轮询，在数据准备完毕后再从内核缓存缓冲区复制数据到用户空间 (非阻塞式 I/O)，这种方式会存在一定的延迟。能不能用一个线程处理多个客户端请求? 4.4.8 I/O 多路复用(I/O Multiplexing) I/O 指的是网络 I/O。多路指的是多个 TCP 连接(Socket 或 Channel)。复用指的是复用一个或多个线程。它的基本原理就是不再由应用程序自己监视连接，而是由内核替应用程序监视文件描述符。客户端在操作的时候，会产生具有不同事件类型的 socket。在服务端，I/O 多路复用程序(I/O Multiplexing Module)会把消息放入队列中，然后通过文件事件分派器(File event Dispatcher)，转发到不同的事件处理器中。多路复用有很多的实现，以 select 为例，当用户进程调用了多路复用器，进程会被阻塞。内核会监视多路复用器负责的所有 socket，当任何一个 socket 的数据准备好了，多路复用器就会返回。这时候用户进程再调用 read 操作，把数据从内核缓冲区拷贝到用户空间。所以，I/O 多路复用的特点是通过一种机制一个进程能同时等待多个文件描述符，而这些文件描述符(套接字描述符)其中的任意一个进入读就绪(readable)状态，select() 函数就可以返回。 Redis 的多路复用，提供了 select, epoll, evport, kqueue 几种选择，在编译的时候来选择一种。 evport 是 Solaris 系统内核提供支持的; epoll 是 LINUX 系统内核提供支持的; kqueue 是 Mac 系统提供支持的; select 是 POSIX 提供的，一般的操作系统都有支撑(保底方案); 源码 ae_epoll.c、ae_select.c、ae_kqueue.c、ae_evport.c 5、内存回收 Reids 所有的数据都是存储在内存中的，在某些情况下需要对占用的内存空间进行回收。内存回收主要分为两类，一类是 key 过期，一类是内存使用达到上限(max_memory) 触发内存淘汰。 5.1 过期策略要实现 key 过期，我们有几种思路。 5.1.1 定时过期(主动淘汰) 每个设置过期时间的 key 都需要创建一个定时器，到过期时间就会立即清除。该策略可以立即清除过期的数据，对内存很友好;但是会占用大量的 CPU 资源去处理过期的数据，从而影响缓存的响应时间和吞吐量。 5.1.2 惰性过期(被动淘汰) 只有当访问一个 key 时，才会判断该 key 是否已过期，过期则清除。该策略可以最大化地节省 CPU 资源，却对内存非常不友好。极端情况可能出现大量的过期 key 没有再次被访问，从而不会被清除，占用大量内存。例如 String，在 getCommand 里面会调用 expireIfNeeded server.c expireIfNeeded(redisDb db, robj key) 第二种情况，每次写入 key 时，发现内存不够，调用 activeExpireCycle 释放一部分内存。 expire.c activeExpireCycle(int type) 5.1.3 定期过期源码:server.h typedef struct redisDb { dict dict; / 所有的键值对 /dict expires; / 设置了过期时间的键值对 /dict blocking_keys; dict ready_keys; dict watched_keys; int id;long long avg_ttl;list defrag_later; } redisDb; 每隔一定的时间，会扫描一定数量的数据库的 expires 字典中一定数量的 key，并清除其中已过期的 key。该策略是前两者的一个折中方案。通过调整定时扫描的时间间隔和每次扫描的限定耗时，可以在不同情况下使得 CPU 和内存资源达到最优的平衡效果。 Redis 中同时使用了惰性过期和定期过期两种过期策略。 5.2 淘汰策略 Redis 的内存淘汰策略，是指当内存使用达到最大内存极限时，需要使用淘汰算法来决定清理掉哪些数据，以保证新数据的存入。 5.2.1 最大内存设置 redis.conf 参数配置: maxmemory <bytes> 如果不设置 maxmemory 或者设置为 0，64 位系统不限制内存，32 位系统最多使用 3GB 内存。动态修改: redis> config set maxmemory 2GB 到达最大内存以后怎么办? 5.2.2 淘汰策略 https://redis.io/topics/lru-cache redis.conf maxmemory-policy noeviction 先从算法来看: LRU，Least Recently Used:最近最少使用。判断最近被使用的时间，目前最远的数据优先被淘汰。 LFU，Least Frequently Used，最不常用，4.0 版本新增。 random，随机删除。如果没有符合前提条件的 key 被淘汰，那么 volatile-lru、volatile-random、 volatile-ttl 相当于 noeviction(不做内存回收)。动态修改淘汰策略: redis> config set maxmemory-policy volatile-lru 建议使用 volatile-lru，在保证正常服务的情况下，优先删除最近最少使用的 key。 5.2.3 LRU 淘汰原理问题：如果基于传统 LRU 算法实现 Redis LRU 会有什么问题? 需要额外的数据结构存储，消耗内存。 Redis LRU 对传统的 LRU 算法进行了改良，通过随机采样来调整算法的精度。如果淘汰策略是 LRU，则根据配置的采样值 maxmemory_samples(默认是 5 个), 随机从数据库中选择 m 个 key, 淘汰其中热度最低的 key 对应的缓存数据。所以采样参数m配置的数值越大, 就越能精确的查找到待淘汰的缓存数据,但是也消耗更多的CPU计算,执行效率降低。问题：如何找出热度最低的数据? Redis 中所有对象结构都有一个 lru 字段, 且使用了 unsigned 的低 24 位，这个字段用来记录对象的热度。对象被创建时会记录 lru 值。在被访问的时候也会更新 lru 的值。但是不是获取系统当前的时间戳，而是设置为全局变量 server.lruclock 的值。源码：server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; server.lruclock 的值怎么来的? Redis 中有个定时处理的函数 serverCron，默认每 100 毫秒调用函数 updateCachedTime 更新一次全局变量的 server.lruclock 的值，它记录的是当前 unix 时间戳。源码:server.c void updateCachedTime(void) { time_t unixtime = time(NULL); atomicSet(server.unixtime,unixtime); server.mstime = mstime();struct tm tm; localtime_r(&server.unixtime,&tm);server.daylight_active = tm.tm_isdst; } 问题:为什么不获取精确的时间而是放在全局变量中?不会有延迟的问题吗? 这样函数 lookupKey 中更新数据的 lru 热度值时,就不用每次调用系统函数 time，可以提高执行效率。 OK，当对象里面已经有了 LRU 字段的值，就可以评估对象的热度了。函数 estimateObjectIdleTime 评估指定对象的 lru 热度，思想就是对象的 lru 值和全局的 server.lruclock 的差值越大(越久没有得到更新)，该对象热度越低。源码 evict.c / Given an object returns the min number of milliseconds the object was never requested, using an approximated LRU algorithm. /unsigned long long estimateObjectIdleTime(robj o) {unsigned long long lruclock = LRU_CLOCK(); if (lruclock >= o->lru) {return (lruclock - o->lru) LRU_CLOCK_RESOLUTION; } else {return (lruclock + (LRU_CLOCK_MAX - o->lru)) LRU_CLOCK_RESOLUTION;} } server.lruclock 只有 24 位，按秒为单位来表示才能存储 194 天。当超过 24bit 能表示的最大时间的时候，它会从头开始计算。 server.h define LRU_CLOCK_MAX ((1<<LRU_BITS)-1) / Max value of obj->lru / 在这种情况下，可能会出现对象的 lru 大于 server.lruclock 的情况，如果这种情况出现那么就两个相加而不是相减来求最久的 key。为什么不用常规的哈希表+双向链表的方式实现?需要额外的数据结构，消耗资源。而 Redis LRU 算法在 sample 为 10 的情况下，已经能接近传统 LRU 算法了。问题:除了消耗资源之外，传统 LRU 还有什么问题? 如图，假设 A 在 10 秒内被访问了 5 次，而 B 在 10 秒内被访问了 3 次。因为 B 最后一次被访问的时间比 A 要晚，在同等的情况下，A 反而先被回收。问题:要实现基于访问频率的淘汰机制，怎么做? 5.2.4 LFU server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; 当这 24 bits 用作 LFU 时，其被分为两部分: 高 16 位用来记录访问时间(单位为分钟，ldt，last decrement time) 低 8 位用来记录访问频率，简称 counter(logc，logistic counter) counter 是用基于概率的对数计数器实现的，8 位可以表示百万次的访问频率。对象被读写的时候，lfu 的值会被更新。 db.c——lookupKey void updateLFU(robj val) {unsigned long counter = LFUDecrAndReturn(val); counter = LFULogIncr(counter);val->lru = (LFUGetTimeInMinutes()<<8) | counter;} 增长的速率由，lfu-log-factor 越大，counter 增长的越慢 redis.conf 配置文件。 lfu-log-factor 10 如果计数器只会递增不会递减，也不能体现对象的热度。没有被访问的时候，计数器怎么递减呢? 减少的值由衰减因子 lfu-decay-time(分钟)来控制，如果值是 1 的话，N 分钟没有访问就要减少 N。 redis.conf 配置文件 lfu-decay-time 1 6、持久化机制 https://redis.io/topics/persistence Redis 速度快，很大一部分原因是因为它所有的数据都存储在内存中。如果断电或者宕机，都会导致内存中的数据丢失。为了实现重启后数据不丢失，Redis 提供了两种持久化的方案，一种是 RDB 快照(Redis DataBase)，一种是 AOF(Append Only File)。 6.1 RDB RDB 是 Redis 默认的持久化方案。当满足一定条件的时候，会把当前内存中的数据写入磁盘，生成一个快照文件 dump.rdb。Redis 重启会通过加载 dump.rdb 文件恢复数据。什么时候写入 rdb 文件? 6.1.1 RDB 触发 1、自动触发 a)配置规则触发。 redis.conf， SNAPSHOTTING，其中定义了触发把数据保存到磁盘的触发频率。如果不需要 RDB 方案，注释 save 或者配置成空字符串""。 save 900 1 900 秒内至少有一个 key 被修改(包括添加) save 300 10 400 秒内至少有 10 个 key 被修改save 60 10000 60 秒内至少有 10000 个 key 被修改注意上面的配置是不冲突的，只要满足任意一个都会触发。 RDB 文件位置和目录: 文件路径，dir ./ 文件名称dbfilename dump.rdb 是否是LZF压缩rdb文件 rdbcompression yes 开启数据校验 rdbchecksum yes 问题：为什么停止 Redis 服务的时候没有 save，重启数据还在? RDB 还有两种触发方式: b)shutdown 触发，保证服务器正常关闭。 c)flushall，RDB 文件是空的，没什么意义(删掉 dump.rdb 演示一下)。 2、手动触发如果我们需要重启服务或者迁移数据，这个时候就需要手动触 RDB 快照保存。Redis 提供了两条命令: a)save save 在生成快照的时候会阻塞当前 Redis 服务器， Redis 不能处理其他命令。如果内存中的数据比较多，会造成 Redis 长时间的阻塞。生产环境不建议使用这个命令。为了解决这个问题，Redis 提供了第二种方式。执行 bgsave 时，Redis 会在后台异步进行快照操作，快照同时还可以响应客户端请求。具体操作是 Redis 进程执行 fork 操作创建子进程(copy-on-write)，RDB 持久化过程由子进程负责，完成后自动结束。它不会记录 fork 之后后续的命令。阻塞只发生在 fork 阶段，一般时间很短。用 lastsave 命令可以查看最近一次成功生成快照的时间。 6.1.2 RDB 数据的恢复(演示) 1、shutdown 持久化添加键值添加键值 redis> set k1 1 redis> set k2 2 redis> set k3 3 redis> set k4 4 redis> set k5 5 停服务器，触发 save redis> shutdown 备份 dump.rdb 文件 cp dump.rdb dump.rdb.bak 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 啥都没有: redis> keys 3、通过备份文件恢复数据停服务器 redis> shutdown 重命名备份文件 mv dump.rdb.bak dump.rdb 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 查看数据 redis> keys 6.1.3 RDB 文件的优势和劣势一、优势 1.RDB 是一个非常紧凑(compact)的文件，它保存了 redis 在某个时间点上的数据集。这种文件非常适合用于进行备份和灾难恢复。 2.生成 RDB 文件的时候，redis 主进程会 fork()一个子进程来处理所有保存工作，主进程不需要进行任何磁盘 IO 操作。 3.RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。二、劣势 1、RDB 方式数据没办法做到实时持久化/秒级持久化。因为 bgsave 每次运行都要执行 fork 操作创建子进程，频繁执行成本过高。 2、在一定间隔时间做一次备份，所以如果 redis 意外 down 掉的话，就会丢失最后一次快照之后的所有修改(数据有丢失)。如果数据相对来说比较重要，希望将损失降到最小，则可以使用 AOF 方式进行持久化。 6.2 AOF Append Only File AOF:Redis 默认不开启。AOF 采用日志的形式来记录每个写操作，并追加到文件中。开启后，执行更改 Redis 数据的命令时，就会把命令写入到 AOF 文件中。 Redis 重启时会根据日志文件的内容把写指令从前到后执行一次以完成数据的恢复工作。 6.2.1 AOF 配置配置文件 redis.conf 开关appendonly no 文件名appendfilename "appendonly.aof" AOF 文件的内容(vim 查看): 问题：数据都是实时持久化到磁盘吗? 由于操作系统的缓存机制，AOF 数据并没有真正地写入硬盘，而是进入了系统的硬盘缓存。什么时候把缓冲区的内容写入到 AOF 文件? 问题:文件越来越大，怎么办? 由于 AOF 持久化是 Redis 不断将写命令记录到 AOF 文件中，随着 Redis 不断的进行，AOF 的文件会越来越大，文件越大，占用服务器内存越大以及 AOF 恢复要求时间越长。例如 set xxx 666，执行 1000 次，结果都是 xxx=666。为了解决这个问题，Redis 新增了重写机制，当 AOF 文件的大小超过所设定的阈值时，Redis 就会启动 AOF 文件的内容压缩，只保留可以恢复数据的最小指令集。可以使用命令 bgrewriteaof 来重写。 AOF 文件重写并不是对原文件进行重新整理，而是直接读取服务器现有的键值对，然后用一条命令去代替之前记录这个键值对的多条命令，生成一个新的文件后去替换原来的 AOF 文件。重写触发机制 auto-aof-rewrite-percentage 100 auto-aof-rewrite-min-size 64mb 问题:重写过程中，AOF 文件被更改了怎么办? 另外有两个与 AOF 相关的参数: 6.2.2 AOF 数据恢复重启 Redis 之后就会进行 AOF 文件的恢复。 6.2.3 AOF 优势与劣势优点: 1、AOF 持久化的方法提供了多种的同步频率，即使使用默认的同步频率每秒同步一次，Redis 最多也就丢失 1 秒的数据而已。缺点: 1、对于具有相同数据的的 Redis，AOF 文件通常会比 RDB 文件体积更大(RDB 存的是数据快照)。 2、虽然 AOF 提供了多种同步的频率，默认情况下，每秒同步一次的频率也具有较高的性能。在高并发的情况下，RDB 比 AOF 具好更好的性能保证。 6.3 两种方案比较那么对于 AOF 和 RDB 两种持久化方式，我们应该如何选择呢? 如果可以忍受一小段时间内数据的丢失，毫无疑问使用 RDB 是最好的，定时生成 RDB 快照(snapshot)非常便于进行数据库备份，并且 RDB 恢复数据集的速度也要比 AOF 恢复的速度要快。否则就使用 AOF 重写。但是一般情况下建议不要单独使用某一种持久化机制，而是应该两种一起用，在这种情况下,当 redis 重启的时候会优先载入 AOF 文件来恢复原始的数据，因为在通常情况下 AOF 文件保存的数据集要比 RDB 文件保存的数据集要完整。本篇文章为转载内容。原文链接：https://blog.csdn.net/zhoutaochun/article/details/120075092。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-03-18 12:25:04

541

转载

Java

中文分词器分词词典txt免费下载，49万多词汇

...之前有一篇文章介绍了计算机领域的分词器词汇词典：点这里传送过去但这里面只有计算机领域的术语，对于常用中文，比如“吃饭”、“逛街”...等词汇是不包括的。所以，如果大家需要对日常中文文章或语料做分词，需要用这里的词典。两个词典可以并存，配置到分词器的配置文件中。 2. 下载地址点我免费下载词库txt文件一览（49万多个词汇）：建议：如果你的程序对分词比较敏感，请务必先小范围用少量样本测试试用，看看分词效果是否符合预期，没有问题再放入正式环境。 3. 分词器使用关于分词器的使用，见本文第一小节的链接，那个链接里面有介绍。如果你是用的是IKAnalyzer，可以把新的词典加入到配置文件中：IKAnalyzer.cfg.xml 4. 补充说明尽管该文章以IKAnalyzer为例，但是这个词典是通用的，它的格式是“词汇1\n词汇2\n词汇3\n”，即用回车符分隔的一个个词汇。很多分词器都是通用的。分词器有很多，大家根据实际需求选择使用。比如： IK Analyzer：一款基于Java开发的开源中文分词工具，广泛应用于Elasticsearch和Solr中。 Ansj：一个高效的Java分词框架，支持多种分词模式如最大匹配、最小切分等。 Stanford Segmenter：斯坦福大学提供的分词器，基于统计模型和规则，具有较高的准确性。 FudanNLP分词器：复旦大学自然语言处理小组研发的分词系统。 jieba分词：Python社区中流行的开源中文分词库，支持精确模式、全模式、搜索引擎模式等多种分词模式。 LTP（哈工大 Language Technology Platform）分词器：哈尔滨工业大学开发的一套全面的自然语言处理工具包，其中包含高质量的分词模块。 THULAC：由清华大学自然语言处理与社会人文计算实验室推出的分词和词性标注工具。 HanLP：由李航团队开发的自然语言处理库，包含高效准确的分词组件。

2024-01-27 19:37:56

371

admin-tim

Python

python求单位向量

...如何使用Python计算向量的单位向量之后，我们可以进一步探索这一概念在实际应用中的重要性。近期，在机器学习和人工智能领域，特别是在深度学习中的自然语言处理任务中，单位向量作为一种关键工具被广泛应用。例如，在Word2Vec模型中，每个词都被映射为一个高维空间的单位向量，这些向量不仅保留了词语之间的语义关系，而且其单位化属性确保了相似度比较的有效性和准确性。此外，单位向量在计算机图形学中也有着至关重要的作用，如在三维渲染、游戏开发等领域，方向性的表示通常采用单位向量形式，以实现光照、反射等物理效果的模拟。另外，值得注意的是，单位向量在优化问题中也扮演着重要角色，尤其是在梯度下降法中，通过计算梯度的单位向量来确定搜索方向，从而有效地最小化损失函数。近期的研究工作甚至将单位向量扩展到了量子计算领域，研究人员发现特定类型的量子比特状态可以表达为单位向量，这为构建高效的量子算法提供了新的思路。综上所述，了解并掌握向量单位化的计算方法不仅能帮助我们解决数学和编程问题，还能为我们理解和参与前沿科技领域的研究与应用提供有力支持。对于有志于进一步钻研的读者来说，推荐阅读《线性代数及其应用》（作者：Gilbert Strang）以深入理解单位向量背后的数学原理，同时关注相关科研论文和技术博客，以便及时跟进单位向量在各领域尤其是AI、图形学和量子计算等前沿技术中的最新应用动态。

2023-03-29 15:10:37

算法侠

Java

java中构造函数和方法

...静态方法，它接收两个整数作为参数，计算它们的和，并返回结果，整个过程无需创建Calculator类的实例。对象方法 , 对象方法是Java类中定义的另一种方法，它必须通过类的实例（对象）来调用。对象方法可以访问类的所有成员变量（包括静态和非静态），也可以调用类的其他非静态方法。在Calculator类中，multiply()方法是一个对象方法，需要先创建Calculator类的一个实例，然后通过这个实例调用该方法，以实现两个整数相乘的操作。在这个过程中，如果方法内部需要用到类的成员变量，则可以从当前对象实例中直接获取和操作。

2023-05-03 21:19:21

261

程序媛

Python

python正数加负数

...例如，对于金融、科学计算等领域，精准且高效的正负数运算至关重要。与此同时，Python在非数值类型如字符串、列表、元组等上的加法操作也体现了其动态语言特性。在实际开发场景中，开发者可以利用这些灵活的加法规则实现数据拼接、集合合并等功能，极大地提高了开发效率与代码可读性。例如，Facebook的开源库Django就广泛运用了Python的字符串格式化和列表合并机制，从而简化Web开发中的模板渲染逻辑。此外，深入探讨Python的底层实现原理，我们会发现，无论是整数还是浮点数的加法运算，Python内部都采用了C语言编写的高效算法，确保了计算的准确性和速度。而对于复杂的数据结构，Python通过其内置的方法巧妙地实现了类似“加法”的行为，这是对面向对象编程思想的深刻体现，也是Python设计哲学“简洁即力量”在实践中的应用典范。总之，Python在正负数加法以及各类数据类型的“加法”操作上展现出了卓越的灵活性与实用性，不断与时俱进的更新也让它持续保持活力，满足广大开发者在不同场景下的需求。建议读者进一步探索Python的相关文档，了解其更多高级特性，并关注Python社区的最新动态，以便更好地掌握这一强大的编程工具。

2023-05-02 19:24:10

336

软件工程师

MySQL

怎么看mysql有远程连接

...关重要。近日，随着云计算和分布式应用的普及，MySQL数据库远程管理的需求日益增加，但同时也带来了更严峻的安全挑战。据2022年的一份网络安全报告指出，针对数据库系统的未授权访问攻击事件增长了近30%，其中大量案例源于弱口令或不当的远程访问设置。为强化MySQL远程连接安全性，建议关注以下几个方面： 1. 强化身份验证机制：采用双因素认证或多因素认证，避免仅依赖用户名和密码；启用MySQL的SSL加密连接功能，确保数据传输过程中的安全性。 2. 权限最小化原则：遵循“按需分配”的权限策略，只给每个用户提供完成其工作所需的最低权限，减少潜在的安全风险。 3. 定期审计与更新：定期审查MySQL用户表中的远程访问权限设置，及时移除不再需要的远程访问账号；同时保持MySQL服务器及其插件的版本更新，利用最新安全补丁修复已知漏洞。 4. 配合防火墙规则：在服务器层面，结合IPtables或其他防火墙工具精细控制对MySQL服务端口（默认3306）的访问，只允许特定可信IP地址进行远程连接。 5. 利用专门的数据库访问代理服务：对于大型企业或高安全需求场景，可考虑部署数据库访问代理服务，如Amazon RDS Proxy、Azure Database for MySQL Flexible Server等，它们提供了细粒度的访问控制、负载均衡及日志审计等功能，有助于提升远程访问MySQL数据库的整体安全性。总之，在实现MySQL数据库远程访问便利性的同时，务必重视并实施严格的安全措施，以确保数据库资源不被恶意利用，有效保障企业信息资产的安全。

2023-12-17 16:15:36

数据库专家

MySQL

怎么把mysql的数据导出html

...据导出过程中遵循数据最小化原则，对敏感信息进行合理脱敏处理，避免在生成的HTML文件中泄露用户隐私。综上所述，在实际项目中，根据具体业务需求和技术栈选择合适的数据库数据导出及前端展现策略，不仅限于上述提及的技术，更应持续关注领域内的新技术发展和最佳实践，以期达到高效、安全、易用的目标。

2023-12-22 18:05:58

编程狂人

JSON

json 数值精度

...pt中，所有数字包括整数和浮点数都遵循这一标准存储。由于该标准采用二进制表示十进制小数，导致部分十进制小数无法精确转换为二进制，从而在进行数学运算时可能会出现精度丢失的问题，如文章中提到的0.1与0.2相加结果不等于预期的0.3。 JSON (JavaScript Object Notation) , JSON是一种轻量级的数据交换格式，它基于JavaScript的一个子集，易于人阅读和编写，同时也易于机器解析和生成。JSON数据由键值对构成，其值可以是字符串、数字、布尔值、数组、null以及其它嵌套的JSON对象。在Web开发领域，JSON广泛应用于前后端之间的数据传输，因为它具有良好的跨语言兼容性，便于不同系统之间进行数据交换。 WebAssembly , WebAssembly是一种低级的类汇编语言，设计初衷是为了在现代网络浏览器中实现接近本机代码性能的高性能应用。WebAssembly模块可以在多种编程语言（如C/C++、Rust等）中编写并编译成字节码形式，然后在浏览器环境中运行。尽管文章中未直接提及WebAssembly，但在处理高精度计算或需要优化性能的场景下，它可以作为一种解决方案，通过在JavaScript环境中执行WebAssembly模块以达到更精确的浮点数运算效果，进而解决JSON中数值精度问题。

2023-03-17 15:37:33

314

程序媛

Java

java中g1和cms的区别

...式，仅专注于资源占用最小化，特别适合于短生命周期或对响应时间要求极为严格的微服务场景。综上所述，随着技术的发展，Java垃圾回收领域的研究和创新从未止步，不断为开发者提供更高效、更灵活的内存管理工具，以适应日益复杂的软件系统需求。对于系统管理员和技术决策者而言，紧跟这些最新的垃圾回收技术动态，结合实际业务场景进行合理选择和调优，是提升系统整体性能和稳定性的关键所在。

2023-11-22 10:36:57

339

逻辑鬼才

Python

python正则法则入门

... 匹配任何字母和整数或小数：[a-zA-Z0-9_] \W 匹配任何非字母和整数或小数：[^\w] \d 匹配任何整数或小数：[0-9] \D 匹配任何非整数或小数：[^\d] \s 匹配一个空白字符：[\t\n\f\r\p{Z}] \S 匹配一个非空格字符：[^\t\n\f\r\p{Z}] . 匹配任何任意一个字符，除了换行符（\n） [...] 匹配特定的一组字符 [^...] 不匹配特定的一组字符正则表达式使用特定的符号表示模式。例如，您可以使用方括号 [] 来确定匹配目标的一组字符。例如，要匹配所有词字符和下划线字符，使用表达式[\w_]。有时，您需要指定文本的位置。例如，您可能需要在字符串的开头或结尾进行查找。在这种情况下，您可以使用字符^来指定字符串的开头，或使用字符$来指定字符串的结尾。例如，要匹配一个以大写字母开头的字符串，使用表达式^[A-Z]。使用正则表达式需要一些实践和熟悉。下面是一个示例程序，它使用 re 模块从字符串中寻找匹配项的单词： import re 待查找的字符串 str = "Python is an awesome language" 模式 pattern = "\w+" 搜索匹配 result = re.findall(pattern, str) 打印结果 print(result) 在这个示例中，我们使用了 re 模块中的findall()方法来查找所有符合模式的单词。这个程序的输出应该是： ['Python', 'is', 'an', 'awesome', 'language'] 这是一个简单的程序，但它为您提供了足够的知识来开始编写自己的正则表达式。

2023-08-02 16:27:28

304

代码侠

PHP

... 面向对象编程是一种计算机编程范式，其核心概念包括类、对象、封装、继承和多态等。在本文中，通过创建一个User类来描述和操作用户数据，实现了对用户信息及其推荐用户的结构化管理，这是PHP实现统计功能时采用的面向对象编程方法的具体应用。关联数组（Associative Array） , 关联数组是编程语言中一种特殊的数据结构，其中的元素由键值对组成，而不是通过整数索引访问。在本文解决方案部分，PHP中的$countMap就是一种关联数组，它的键是用户ID，值是对应的推荐用户人数。通过遍历用户列表并更新关联数组，可以方便地存储和检索每个用户的推荐用户数量，从而满足需求分析中提出的功能要求。

2023-06-30 08:23:33

素颜如水_t

转载文章

[转载]Python:实现counting sort计数排序算法(附完整源码)

...围的依赖特性，在处理整数且数据范围相对较小的情况时表现出优秀的性能，时间复杂度为O(n+k)，其中n为待排序元素个数，k为数据范围大小。这一特性使其在大规模数据预处理和特定领域如数据库索引构建中具有广泛的应用前景。近期，Google在优化其大数据处理框架Apache Beam的排序组件时，就考虑采用了计数排序等非比较型排序算法以提升系统性能。研究人员发现，通过针对性地分析数据分布特征，并适时引入计数排序算法，可以在不影响稳定性的同时显著减少排序所需的时间成本。然而，对于浮点数或数据范围极大的情况，计数排序则可能因为需要创建极大空间的计数数组而导致空间效率低下。因此，在实际应用中，往往需要结合其他高效排序算法（如快速排序、归并排序等）进行混合使用，根据实际情况灵活选择最优策略。此外，深入探究排序算法背后的理论基础也十分有益，例如Knuth在其经典著作《计算机程序设计艺术》中对各种排序算法进行了详尽而深入的解读，其中包括计数排序的设计原理及其在实际问题中的应用场景分析。学习这些理论知识将有助于我们更好地理解并运用计数排序以及其他各类排序算法，从而在面对不同的工程问题时能够做出更为精准有效的决策。

2023-10-02 13:00:57

130

转载

转载文章

[转载]51Nod-1013 3的幂的和【快速模幂+逆元】

...，这是一种高效处理大整数运算的实用方法。事实上，在现代密码学、大数据计算及程序设计竞赛等领域，此类高效算法具有极高的应用价值。近期，美国国家标准与技术研究院（NIST）正式宣布了下一代加密标准——抗量子计算的加密算法竞赛的最终胜出者，其中CRYSTALS-Kyber算法因其高效的密钥交换机制而受到广泛关注。该算法在实现过程中就利用了快速数论变换以及类似于上述问题中提及的模幂运算和求逆元等数学工具，确保在抵抗量子计算机攻击的同时，也能保持较高的运算效率。此外，今年年初，谷歌的研究团队发表了一篇关于使用FPGA加速大整数模幂运算的研究论文，他们通过优化算法结构和硬件并行计算能力，极大地提升了此类复杂计算任务的执行速度，这进一步验证了我们在解决“3的幂的和”问题时采用策略的有效性和前瞻性。深入理解这类算法不仅有助于提高编程能力，而且对于理解和跟进现代密码学的发展动态、应对未来可能面临的量子计算挑战等方面都具有重要意义。同时，类似的数学工具和技术也广泛应用于区块链技术的安全性保障、云计算环境中的数据加密与解密等诸多方面，值得我们持续关注和深入研究。

2023-10-20 19:43:14

142

转载

Java

java中变量分为成员变量和

...开发者通常建议遵循“最小权限原则”，即尽可能地减少全局共享状态，以降低代码耦合度和并发环境下的线程安全问题。在设计模式领域，如单例模式、策略模式等，都可见静态成员变量与实例成员变量灵活而巧妙的应用。深入理解并恰当运用成员变量和局部变量，不仅可以提高代码质量，还有助于我们在面对大规模复杂系统时更好地进行架构设计与性能优化。同时，结合最新的语言特性及框架更新，不断探索和完善这两种变量在现代软件工程实践中的新用途和最佳实践，是每个Java开发者持续精进的方向之一。

2023-07-02 10:26:04

287

算法侠

转载文章

[转载]Centos7实操练习题

...统在企业级服务器及云计算环境中的广泛应用，用户权限管理和账户安全管理的重要性日益凸显。例如，红帽公司近期发布的《强化Linux安全实践指南》就详细阐述了如何结合useradd、usermod等命令对用户账户进行生命周期管理，并强调了 /etc/shadow 文件加密策略以及sudoers配置文件的精细化权限控制。此外，在多用户环境下，合理使用groupadd和gpasswd命令创建并管理用户组，不仅能够简化权限分配，而且有助于提升系统的组织性和安全性。例如，针对开发团队可以创建特定的开发组，通过usermod -G将成员加入该组，从而实现代码库访问权限的统一管理。同时，对于用户家目录迁移、默认shell修改等高级操作，运维人员应熟悉usermod命令的各项参数，以应对不同的系统配置需求。值得注意的是，在执行这些操作时，务必遵循最小权限原则，防止因权限过度集中导致的安全隐患。总之，随着Linux操作系统技术不断发展，CentOS用户和用户组管理的精细度和复杂性也在不断提升。实时关注最新的安全公告和技术动态，结合本文所介绍的基础命令和技巧，将助力您在日常运维工作中实现更加高效且安全的用户管理。

2023-10-12 23:41:45

转载

Docker

docker改造(安装Docker)

在当前云计算与DevOps的热潮中，Docker容器技术的地位日益凸显。近期，Docker公司发布了Docker Desktop 4.0版本，进一步增强了对Kubernetes的支持，并优化了开发者的工作流程，使得创建、构建、推送和运行容器化应用程序变得更加简单高效。与此同时，全球范围内的企业也正在积极采用Docker进行数字化转型。例如，某知名电商平台通过全面应用Docker容器技术，成功实现了微服务架构的落地，不仅大幅度提升了系统的稳定性和可扩展性，还大大减少了资源浪费，降低了运维成本。深入探讨Docker的安全问题，业界专家强调遵循安全最佳实践的重要性，如最小权限原则、定期更新镜像以及实施严格的容器网络策略等。此外，随着云原生生态的发展，诸如OpenShift、Harbor等开源项目也在为Docker提供更强大的镜像仓库管理和部署支持，助力企业在保证安全性的同时提升业务敏捷性。值得注意的是，Docker与服务网格（Service Mesh）的结合应用正逐渐成为新的趋势。 Istio、Linkerd等服务网格解决方案能够有效解决大规模容器集群间的通信和服务治理问题，为企业提供了更为完善的云原生基础设施。综上所述，Docker作为容器技术的领军者，在不断迭代演进的过程中持续赋能企业创新与变革，而在未来，Docker与更多前沿技术的深度融合将有望塑造更加智能、灵活且安全的云环境。

2023-07-04 21:55:54

503

算法侠

JSON

json 属性过滤器

... 同时，在大数据和云计算领域，像Apache Spark等分布式计算框架也支持对JSON数据进行高效的属性过滤与转换，以便于后续分析与存储。通过运用特定的过滤策略，企业能够快速从海量JSON日志或其他半结构化数据中提炼关键信息，辅助业务决策。此外，对于那些注重隐私保护和数据最小化原则的应用场景，JSON属性过滤技术同样发挥着不可或缺的作用。在GDPR等相关法规的要求下，开发者必须确保只收集和传输必要的用户数据，这时精细到属性级别的过滤功能就能有效防止数据泄露风险。总之，JSON属性过滤器及其相关技术不仅是提升开发效率的重要手段，也是应对当前大数据时代挑战，实现数据安全、合规使用的必备工具。无论是前端交互逻辑优化，还是后端大规模数据处理，乃至云端数据合规流通，深入理解和掌握JSON属性过滤方法都将带来显著的价值提升。

2023-02-21 22:09:00

545

电脑达人

MySQL

怎么用mysql存储系统数据

...记录时自动生成唯一的整数值作为某一列（通常为主键列）的值。例如，在文章中创建user表时，id字段被设置为AUTO_INCREMENT，这意味着每当向user表中添加新的用户记录时，系统会自动为id字段生成下一个未使用的正整数，确保了主键的唯一性。 SQL注入 , SQL注入是一种常见的安全攻击手段，攻击者通过在用户输入的数据中嵌入恶意的SQL代码，试图欺骗服务器执行非授权的SQL命令。例如，如果应用程序不恰当地将未经处理的用户输入拼接到SQL查询语句中，攻击者可能会通过输入构造特定字符串，改变原SQL语句的逻辑，进而获取、修改或者删除数据库中的敏感信息。为了避免SQL注入，开发者需要对用户输入进行严格的过滤和转义处理，并采用参数化查询等安全编程方式。在MySQL或其他数据库管理系统的实际应用中，防范SQL注入是保证系统数据安全的重要环节之一。

2023-01-17 16:44:32

123

程序媛

转载文章

[转载]1009. Complement of Base 10 Integer*

...e题1009“十进制整数的补码”之后，我们可以通过实际应用和更深入的技术背景来进一步探讨二进制补码的概念及其在计算机科学中的重要性。近期，《IEEE Spectrum》杂志的一篇文章详细解读了补码系统的历史沿革以及它如何成为现代计算机中表示负数的标准方式。在硬件设计与编程实践中，补码运算不仅涉及基础的位操作，还与处理器架构、编译器优化紧密相关。例如，在处理带符号整数时，许多现代CPU指令集直接支持对补码的快速计算和转换。2021年，Intel发布了一篇技术白皮书，详细介绍了其最新CPU架构中如何利用硬件加速来提高补码运算性能，这对于开发者理解和优化涉及补码转换的相关代码具有极高的参考价值。此外，补码原理在网络安全领域也有广泛应用。例如，在密码学中，某些加密算法如RSA的实现过程中，就巧妙地运用了补码的思想进行模逆运算，确保数据的安全传输。近日，斯坦福大学的研究团队发表了一项新研究，通过改进补码在密码学算法中的使用方式，成功提升了加密效率和安全性。总之，掌握二进制补码的概念并了解其在不同场景下的应用，对于计算机科学家、软件工程师乃至信息安全专家都至关重要。而持续关注这一领域的前沿动态和研究成果，将有助于我们在实践中更好地应对复杂问题，提升整体技术水平。

2023-04-09 11:10:16

614

转载

Apache Pig

Pig在大数据处理中的关键数据类型与结构：基本类型、复杂类型解析及元组、包的使用

...中的整型是一个十进制整数。例如： css b = 123; （3）浮点型：float Pig中的浮点型是一个十进制浮点数。例如： bash c = 3.14; （4）双精度浮点型：double Pig中的双精度浮点型是一个具有较高精度的十进制浮点数。例如： bash d = 3.14159265358979323846; （5）日期型：date Pig中的日期型是一个日期值。例如： python e = '2024-01-18'; （6）时间型：time Pig中的时间型是一个时间值。例如： go f = '12:00:00'; （7）时间戳型：timestamp Pig中的时间戳型是一个包含日期和时间信息的时间值。例如： go g = '2024-01-18 12:00:00'; （8）字节型：bytearray Pig中的字节型是一个二进制数据。例如： python h = {'1', '2', '3'}; （9）集合型：bag Pig中的集合型是一个包含多个相同类型元素的列表。例如： javascript i = {(1, 'apple'), (2, 'banana')}; （10）映射型：tuple Pig中的映射型是一个包含两个不同类型的键值对的元组。例如： php-template j = (1, 'apple'); （11）映射数组型：map Pig中的映射数组型是一个包含多个键值对的列表。例如： bash k = {'key1': 'value1', 'key2': 'value2'}; 2. 复杂类型 Pig中的复杂数据类型主要有两种：列表和文件。（1）列表：list Pig中的列表是一个包含多个相同类型元素的列表。例如： php-template l = [1, 2, 3]; （2）文件：file Pig中的文件是一个包含多个行的数据文件。例如： makefile m = '/path/to/file.txt'; 3. 特殊类型 Pig中的特殊数据类型主要有三种：null、undefined和struct。（1）null：null Pig中的null表示一个空值。例如： java n = null; （2）undefined：undefined Pig中的undefined表示一个未定义的值。例如： python o = undefined;

2023-01-14 19:17:59

480

诗和远方-t

HBase

掌握HBase元数据管理：表、列族与数据块元数据的创建、修改与删除操作实践

...族的访问模式，动态调整数据块大小和压缩策略，有效提升了系统整体运行效能。同时，也有一些专家针对HBase元数据安全问题进行深度解读，强调了在设计和运维阶段加强对敏感元数据保护的重要性。综上所述，随着技术和业务需求的发展，深入探究HBase元数据管理不仅有助于提升数据库性能，也是确保数据安全、实现企业数字化转型的关键一环。持续关注领域内的最新研究成果和技术动态，将助力我们更高效地驾驭HBase这类分布式数据库系统，应对未来更为复杂的数据挑战。

2023-11-14 11:58:02

434

风中飘零-t

转载文章

[转载]有汇源上下界最大流和最小流

...制）以及一个下限（即最小流量需求或残留流量限制）。求解该问题的目标是在满足所有边的上下界约束条件下，找到从源点到汇点的最大流量。这个问题相较于传统的最大流问题更为复杂，因为它不仅要求流量尽可能大，还必须保证各条边的流量满足预设的最小值。 Dinic算法 , Dinic算法是一种用于解决网络流问题中的最大流问题的高效算法，由俄罗斯计算机科学家尤里·季林提出。该算法基于层次搜索思想，通过不断寻找并扩充增广路径来逐步增加网络中的流值，直到无法找到新的增广路径为止。在处理稀疏图时，其时间复杂度为O(V^2E)，其中V代表顶点数量，E代表边的数量。文章中的代码片段正是基于Dinic算法实现的有源汇上下界最大流求解过程。网络流残余网络 , 在网络流理论中，残余网络是对原网络进行某种操作后得到的新网络，它反映了在当前流状态下，网络中可以进一步传输流量的能力。具体来说，在已知某个流方案的基础上，将每条正向边的剩余可传送流量以及反向边已经传送的流量作为新网络中对应边的容量，从而构建出残余网络。在求解有源汇上下界最大流问题时，需要不断地更新并分析残余网络，以寻找下一个增广路径并调整流值。

2023-02-17 10:00:53

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

nc host port - 通过netcat工具连接到远程主机和端口。