前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[分布式数据库索引策略设计 ]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
...用 setnx 实现分布式锁,我们先 set,然后设置对 key 设置 expire, 防止 del 发生异常的时候锁不会被释放,业务处理完了以后再 del,这三个动作我们就希望它们作为一组命令执行。 Redis 的事务有两个特点: 1、按进入队列的顺序执行。 2、不会受到其他客户端的请求的影响。 Redis 的事务涉及到四个命令:multi(开启事务),exec(执行事务),discard (取消事务),watch(监视) 2.2 事务的用法 案例场景:tom 和 mic 各有 1000 元,tom 需要向 mic 转账 100 元。tom 的账户余额减少 100 元,mic 的账户余额增加 100 元。 通过 multi 的命令开启事务。事务不能嵌套,多个 multi 命令效果一样。 multi 执行后,客户端可以继续向服务器发送任意多条命令,这些命令不会立即被执行,而是被放到一个队列中,当 exec 命令被调用时,所有队列中的命令才会被执行。 通过 exec 的命令执行事务。如果没有执行 exec,所有的命令都不会被执行。如果中途不想执行事务了,怎么办? 可以调用 discard 可以清空事务队列,放弃执行。 2.3 watch命令 在 Redis 中还提供了一个 watch 命令。 它可以为 Redis 事务提供 CAS 乐观锁行为(Check and Set / Compare and Swap),也就是多个线程更新变量的时候,会跟原值做比较,只有它没有被其他线程修改的情况下,才更新成新的值。 我们可以用 watch 监视一个或者多个 key,如果开启事务之后,至少有一个被监视 key 键在 exec 执行之前被修改了,那么整个事务都会被取消(key 提前过期除外)。可以用 unwatch 取消。 2.4 事务可能遇到的问题 我们把事务执行遇到的问题分成两种,一种是在执行 exec 之前发生错误,一种是在执行 exec 之后发生错误。 2.4.1 在执行 exec 之前发生错误 比如:入队的命令存在语法错误,包括参数数量,参数名等等(编译器错误)。 在这种情况下事务会被拒绝执行,也就是队列中所有的命令都不会得到执行。 2.4.2 在执行 exec 之后发生错误 比如,类型错误,比如对 String 使用了 Hash 的命令,这是一种运行时错误。 最后我们发现 set k1 1 的命令是成功的,也就是在这种发生了运行时异常的情况下, 只有错误的命令没有被执行,但是其他命令没有受到影响。 这个显然不符合我们对原子性的定义,也就是我们没办法用 Redis 的这种事务机制来实现原子性,保证数据的一致。 3、Lua脚本 Lua/ˈluə/是一种轻量级脚本语言,它是用 C 语言编写的,跟数据的存储过程有点类似。 使用 Lua 脚本来执行 Redis 命令的好处: 1、一次发送多个命令,减少网络开销。 2、Redis 会将整个脚本作为一个整体执行,不会被其他请求打断,保持原子性。 3、对于复杂的组合命令,我们可以放在文件中,可以实现程序之间的命令集复用。 3.1 在Redis中调用Lua脚本 使用 eval /ɪ’væl/ 方法,语法格式: redis> eval lua-script key-num [key1 key2 key3 ....] [value1 value2 value3 ....] eval代表执行Lua语言的命令。 lua-script代表Lua语言脚本内容。 key-num表示参数中有多少个key,需要注意的是Redis中key是从1开始的,如果没有key的参数,那么写0。 [key1key2key3…]是key作为参数传递给Lua语言,也可以不填,但是需要和key-num的个数对应起来。 [value1 value2 value3 …]这些参数传递给 Lua 语言,它们是可填可不填的。 示例,返回一个字符串,0 个参数: redis> eval "return 'Hello World'" 0 3.2 在Lua脚本中调用Redis命令 使用 redis.call(command, key [param1, param2…])进行操作。语法格式: redis> eval "redis.call('set',KEYS[1],ARGV[1])" 1 lua-key lua-value command是命令,包括set、get、del等。 key是被操作的键。 param1,param2…代表给key的参数。 注意跟 Java 不一样,定义只有形参,调用只有实参。 Lua 是在调用时用 key 表示形参,argv 表示参数值(实参)。 3.2.1 设置键值对 在 Redis 中调用 Lua 脚本执行 Redis 命令 redis> eval "return redis.call('set',KEYS[1],ARGV[1])" 1 gupao 2673 redis> get gupao 以上命令等价于 set gupao 2673。 在 redis-cli 中直接写 Lua 脚本不够方便,也不能实现编辑和复用,通常我们会把脚本放在文件里面,然后执行这个文件。 3.2.2 在 Redis 中调用 Lua 脚本文件中的命令,操作 Redis 创建 Lua 脚本文件: cd /usr/local/soft/redis5.0.5/src vim gupao.lua Lua 脚本内容,先设置,再取值: cd /usr/local/soft/redis5.0.5/src redis-cli --eval gupao.lua 0 得到返回值: root@localhost src] redis-cli --eval gupao.lua 0 "lua666" 3.2.3 案例:对 IP 进行限流 需求:在 X 秒内只能访问 Y 次。 设计思路:用 key 记录 IP,用 value 记录访问次数。 拿到 IP 以后,对 IP+1。如果是第一次访问,对 key 设置过期时间(参数 1)。否则判断次数,超过限定的次数(参数 2),返回 0。如果没有超过次数则返回 1。超过时间, key 过期之后,可以再次访问。 KEY[1]是 IP, ARGV[1]是过期时间 X,ARGV[2]是限制访问的次数 Y。 -- ip_limit.lua-- IP 限流,对某个 IP 频率进行限制 ,6 秒钟访问 10 次 local num=redis.call('incr',KEYS[1])if tonumber(num)==1 thenredis.call('expire',KEYS[1],ARGV[1])return 1elseif tonumber(num)>tonumber(ARGV[2]) thenreturn 0 elsereturn 1 end 6 秒钟内限制访问 10 次,调用测试(连续调用 10 次): ./redis-cli --eval "ip_limit.lua" app:ip:limit:192.168.8.111 , 6 10 app:ip:limit:192.168.8.111 是 key 值 ,后面是参数值,中间要加上一个空格和一个逗号,再加上一个空格 。 即:./redis-cli –eval [lua 脚本] [key…]空格,空格[args…] 多个参数之间用一个空格分割 。 代码:LuaTest.java 3.2.4 缓存 Lua 脚本 为什么要缓存 在脚本比较长的情况下,如果每次调用脚本都需要把整个脚本传给 Redis 服务端, 会产生比较大的网络开销。为了解决这个问题,Redis 提供了 EVALSHA 命令,允许开发者通过脚本内容的 SHA1 摘要来执行脚本。 如何缓存 Redis 在执行 script load 命令时会计算脚本的 SHA1 摘要并记录在脚本缓存中,执行 EVALSHA 命令时 Redis 会根据提供的摘要从脚本缓存中查找对应的脚本内容,如果找到了则执行脚本,否则会返回错误:“NOSCRIPT No matching script. Please use EVAL.” 127.0.0.1:6379> script load "return 'Hello World'" "470877a599ac74fbfda41caa908de682c5fc7d4b"127.0.0.1:6379> evalsha "470877a599ac74fbfda41caa908de682c5fc7d4b" 0 "Hello World" 3.2.5 自乘案例 Redis 有 incrby 这样的自增命令,但是没有自乘,比如乘以 3,乘以 5。我们可以写一个自乘的运算,让它乘以后面的参数: local curVal = redis.call("get", KEYS[1]) if curVal == false thencurVal = 0 elsecurVal = tonumber(curVal)endcurVal = curVal tonumber(ARGV[1]) redis.call("set", KEYS[1], curVal) return curVal 把这个脚本变成单行,语句之间使用分号隔开 local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal script load ‘命令’ 127.0.0.1:6379> script load 'local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal' "be4f93d8a5379e5e5b768a74e77c8a4eb0434441" 调用: 127.0.0.1:6379> set num 2OK127.0.0.1:6379> evalsha be4f93d8a5379e5e5b768a74e77c8a4eb0434441 1 num 6 (integer) 12 3.2.6 脚本超时 Redis 的指令执行本身是单线程的,这个线程还要执行客户端的 Lua 脚本,如果 Lua 脚本执行超时或者陷入了死循环,是不是没有办法为客户端提供服务了呢? eval 'while(true) do end' 0 为了防止某个脚本执行时间过长导致 Redis 无法提供服务,Redis 提供了 lua-time-limit 参数限制脚本的最长运行时间,默认为 5 秒钟。 lua-time-limit 5000(redis.conf 配置文件中) 当脚本运行时间超过这一限制后,Redis 将开始接受其他命令但不会执行(以确保脚本的原子性,因为此时脚本并没有被终止),而是会返回“BUSY”错误。 Redis 提供了一个 script kill 的命令来中止脚本的执行。新开一个客户端: script kill 如果当前执行的 Lua 脚本对 Redis 的数据进行了修改(SET、DEL 等),那么通过 script kill 命令是不能终止脚本运行的。 127.0.0.1:6379> eval "redis.call('set','gupao','666') while true do end" 0 因为要保证脚本运行的原子性,如果脚本执行了一部分终止,那就违背了脚本原子性的要求。最终要保证脚本要么都执行,要么都不执行。 127.0.0.1:6379> script kill(error) UNKILLABLE Sorry the script already executed write commands against the dataset. You can either wait the scripttermination or kill the server in a hard way using the SHUTDOWN NOSAVE command. 遇到这种情况,只能通过 shutdown nosave 命令来强行终止 redis。 shutdown nosave 和 shutdown 的区别在于 shutdown nosave 不会进行持久化操作,意味着发生在上一次快照后的数据库修改都会丢失。 4、Redis 为什么这么快? 4.1 Redis到底有多快? 根据官方的数据,Redis 的 QPS 可以达到 10 万左右(每秒请求数)。 4.2 Redis为什么这么快? 总结:1)纯内存结构、2)单线程、3)多路复用 4.2.1 内存 KV 结构的内存数据库,时间复杂度 O(1)。 第二个,要实现这么高的并发性能,是不是要创建非常多的线程? 恰恰相反,Redis 是单线程的。 4.2.2 单线程 单线程有什么好处呢? 1、没有创建线程、销毁线程带来的消耗 2、避免了上线文切换导致的 CPU 消耗 3、避免了线程之间带来的竞争问题,例如加锁释放锁死锁等等 4.2.3 异步非阻塞 异步非阻塞 I/O,多路复用处理并发连接。 4.3 Redis为什么是单线程的? 不是白白浪费了 CPU 的资源吗? 因为单线程已经够用了,CPU 不是 redis 的瓶颈。Redis 的瓶颈最有可能是机器内存或者网络带宽。既然单线程容易实现,而且 CPU 不会成为瓶颈,那就顺理成章地采用单线程的方案了。 4.4 单线程为什么这么快? 因为 Redis 是基于内存的操作,我们先从内存开始说起。 4.4.1 虚拟存储器(虚拟内存 Vitual Memory) 名词解释:主存:内存;辅存:磁盘(硬盘) 计算机主存(内存)可看作一个由 M 个连续的字节大小的单元组成的数组,每个字节有一个唯一的地址,这个地址叫做物理地址(PA)。早期的计算机中,如果 CPU 需要内存,使用物理寻址,直接访问主存储器。 这种方式有几个弊端: 1、在多用户多任务操作系统中,所有的进程共享主存,如果每个进程都独占一块物理地址空间,主存很快就会被用完。我们希望在不同的时刻,不同的进程可以共用同一块物理地址空间。 2、如果所有进程都是直接访问物理内存,那么一个进程就可以修改其他进程的内存数据,导致物理地址空间被破坏,程序运行就会出现异常。 为了解决这些问题,我们就想了一个办法,在 CPU 和主存之间增加一个中间层。CPU 不再使用物理地址访问,而是访问一个虚拟地址,由这个中间层把地址转换成物理地址,最终获得数据。这个中间层就叫做虚拟存储器(Virtual Memory)。 具体的操作如下所示: 在每一个进程开始创建的时候,都会分配一段虚拟地址,然后通过虚拟地址和物理地址的映射来获取真实数据,这样进程就不会直接接触到物理地址,甚至不知道自己调用的哪块物理地址的数据。 目前,大多数操作系统都使用了虚拟内存,如 Windows 系统的虚拟内存、Linux 系统的交换空间等等。Windows 的虚拟内存(pagefile.sys)是磁盘空间的一部分。 在 32 位的系统上,虚拟地址空间大小是 2^32bit=4G。在 64 位系统上,最大虚拟地址空间大小是多少? 是不是 2^64bit=10241014TB=1024PB=16EB?实际上没有用到 64 位,因为用不到这么大的空间,而且会造成很大的系统开销。Linux 一般用低 48 位来表示虚拟地址空间,也就是 2^48bit=256T。 cat /proc/cpuinfo address sizes : 40 bits physical, 48 bits virtual 实际的物理内存可能远远小于虚拟内存的大小。 总结:引入虚拟内存,可以提供更大的地址空间,并且地址空间是连续的,使得程序编写、链接更加简单。并且可以对物理内存进行隔离,不同的进程操作互不影响。还可以通过把同一块物理内存映射到不同的虚拟地址空间实现内存共享。 4.4.2 用户空间和内核空间 为了避免用户进程直接操作内核,保证内核安全,操作系统将虚拟内存划分为两部分,一部分是内核空间(Kernel-space)/ˈkɜːnl /,一部分是用户空间(User-space)。 内核是操作系统的核心,独立于普通的应用程序,可以访问受保护的内存空间,也有访问底层硬件设备的权限。 内核空间中存放的是内核代码和数据,而进程的用户空间中存放的是用户程序的代码和数据。不管是内核空间还是用户空间,它们都处于虚拟空间中,都是对物理地址的映射。 在 Linux 系统中, 内核进程和用户进程所占的虚拟内存比例是 1:3。 当进程运行在内核空间时就处于内核态,而进程运行在用户空间时则处于用户态。 进程在内核空间以执行任意命令,调用系统的一切资源;在用户空间只能执行简单的运算,不能直接调用系统资源,必须通过系统接口(又称 system call),才能向内核发出指令。 top 命令: us 代表 CPU 消耗在 User space 的时间百分比; sy 代表 CPU 消耗在 Kernel space 的时间百分比。 4.4.3 进程切换(上下文切换) 多任务操作系统是怎么实现运行远大于 CPU 数量的任务个数的? 当然,这些任务实际上并不是真的在同时运行,而是因为系统通过时间片分片算法,在很短的时间内,将 CPU 轮流分配给它们,造成多任务同时运行的错觉。 为了控制进程的执行,内核必须有能力挂起正在 CPU 上运行的进程,并恢复以前挂起的某个进程的执行。这种行为被称为进程切换。 什么叫上下文? 在每个任务运行前,CPU 都需要知道任务从哪里加载、又从哪里开始运行,也就是说,需要系统事先帮它设置好 CPU 寄存器和程序计数器(ProgramCounter),这个叫做 CPU 的上下文。 而这些保存下来的上下文,会存储在系统内核中,并在任务重新调度执行时再次加载进来。这样就能保证任务原来的状态不受影响,让任务看起来还是连续运行。 在切换上下文的时候,需要完成一系列的工作,这是一个很消耗资源的操作。 4.4.4 进程的阻塞 正在运行的进程由于提出系统服务请求(如 I/O 操作),但因为某种原因未得到操作系统的立即响应,该进程只能把自己变成阻塞状态,等待相应的事件出现后才被唤醒。 进程在阻塞状态不占用 CPU 资源。 4.4.5 文件描述符 FD Linux 系统将所有设备都当作文件来处理,而 Linux 用文件描述符来标识每个文件对象。 文件描述符(File Descriptor)是内核为了高效管理已被打开的文件所创建的索引,用于指向被打开的文件,所有执行 I/O 操作的系统调用都通过文件描述符;文件描述符是一个简单的非负整数,用以表明每个被进程打开的文件。 Linux 系统里面有三个标准文件描述符。 0:标准输入(键盘); 1:标准输出(显示器); 2:标准错误输出(显示器)。 4.4.6 传统 I/O 数据拷贝 以读操作为例: 当应用程序执行 read 系统调用读取文件描述符(FD)的时候,如果这块数据已经存在于用户进程的页内存中,就直接从内存中读取数据。如果数据不存在,则先将数据从磁盘加载数据到内核缓冲区中,再从内核缓冲区拷贝到用户进程的页内存中。(两次拷贝,两次 user 和 kernel 的上下文切换)。 I/O 的阻塞到底阻塞在哪里? 4.4.7 Blocking I/O 当使用 read 或 write 对某个文件描述符进行过读写时,如果当前 FD 不可读,系统就不会对其他的操作做出响应。从设备复制数据到内核缓冲区是阻塞的,从内核缓冲区拷贝到用户空间,也是阻塞的,直到 copy complete,内核返回结果,用户进程才解除 block 的状态。 为了解决阻塞的问题,我们有几个思路。 1、在服务端创建多个线程或者使用线程池,但是在高并发的情况下需要的线程会很多,系统无法承受,而且创建和释放线程都需要消耗资源。 2、由请求方定期轮询,在数据准备完毕后再从内核缓存缓冲区复制数据到用户空间 (非阻塞式 I/O),这种方式会存在一定的延迟。 能不能用一个线程处理多个客户端请求? 4.4.8 I/O 多路复用(I/O Multiplexing) I/O 指的是网络 I/O。 多路指的是多个 TCP 连接(Socket 或 Channel)。 复用指的是复用一个或多个线程。它的基本原理就是不再由应用程序自己监视连接,而是由内核替应用程序监视文件描述符。 客户端在操作的时候,会产生具有不同事件类型的 socket。在服务端,I/O 多路复用程序(I/O Multiplexing Module)会把消息放入队列中,然后通过文件事件分派器(File event Dispatcher),转发到不同的事件处理器中。 多路复用有很多的实现,以 select 为例,当用户进程调用了多路复用器,进程会被阻塞。内核会监视多路复用器负责的所有 socket,当任何一个 socket 的数据准备好了,多路复用器就会返回。这时候用户进程再调用 read 操作,把数据从内核缓冲区拷贝到用户空间。 所以,I/O 多路复用的特点是通过一种机制一个进程能同时等待多个文件描述符,而这些文件描述符(套接字描述符)其中的任意一个进入读就绪(readable)状态,select() 函数就可以返回。 Redis 的多路复用, 提供了 select, epoll, evport, kqueue 几种选择,在编译的时 候来选择一种。 evport 是 Solaris 系统内核提供支持的; epoll 是 LINUX 系统内核提供支持的; kqueue 是 Mac 系统提供支持的; select 是 POSIX 提供的,一般的操作系统都有支撑(保底方案); 源码 ae_epoll.c、ae_select.c、ae_kqueue.c、ae_evport.c 5、内存回收 Reids 所有的数据都是存储在内存中的,在某些情况下需要对占用的内存空间进行回 收。内存回收主要分为两类,一类是 key 过期,一类是内存使用达到上限(max_memory) 触发内存淘汰。 5.1 过期策略 要实现 key 过期,我们有几种思路。 5.1.1 定时过期(主动淘汰) 每个设置过期时间的 key 都需要创建一个定时器,到过期时间就会立即清除。该策略可以立即清除过期的数据,对内存很友好;但是会占用大量的 CPU 资源去处理过期的 数据,从而影响缓存的响应时间和吞吐量。 5.1.2 惰性过期(被动淘汰) 只有当访问一个 key 时,才会判断该 key 是否已过期,过期则清除。该策略可以最大化地节省 CPU 资源,却对内存非常不友好。极端情况可能出现大量的过期 key 没有再次被访问,从而不会被清除,占用大量内存。 例如 String,在 getCommand 里面会调用 expireIfNeeded server.c expireIfNeeded(redisDb db, robj key) 第二种情况,每次写入 key 时,发现内存不够,调用 activeExpireCycle 释放一部分内存。 expire.c activeExpireCycle(int type) 5.1.3 定期过期 源码:server.h typedef struct redisDb { dict dict; / 所有的键值对 /dict expires; / 设置了过期时间的键值对 /dict blocking_keys; dict ready_keys; dict watched_keys; int id;long long avg_ttl;list defrag_later; } redisDb; 每隔一定的时间,会扫描一定数量的数据库的 expires 字典中一定数量的 key,并清除其中已过期的 key。该策略是前两者的一个折中方案。通过调整定时扫描的时间间隔和每次扫描的限定耗时,可以在不同情况下使得 CPU 和内存资源达到最优的平衡效果。 Redis 中同时使用了惰性过期和定期过期两种过期策略。 5.2 淘汰策略 Redis 的内存淘汰策略,是指当内存使用达到最大内存极限时,需要使用淘汰算法来决定清理掉哪些数据,以保证新数据的存入。 5.2.1 最大内存设置 redis.conf 参数配置: maxmemory <bytes> 如果不设置 maxmemory 或者设置为 0,64 位系统不限制内存,32 位系统最多使用 3GB 内存。 动态修改: redis> config set maxmemory 2GB 到达最大内存以后怎么办? 5.2.2 淘汰策略 https://redis.io/topics/lru-cache redis.conf maxmemory-policy noeviction 先从算法来看: LRU,Least Recently Used:最近最少使用。判断最近被使用的时间,目前最远的数据优先被淘汰。 LFU,Least Frequently Used,最不常用,4.0 版本新增。 random,随机删除。 如果没有符合前提条件的 key 被淘汰,那么 volatile-lru、volatile-random、 volatile-ttl 相当于 noeviction(不做内存回收)。 动态修改淘汰策略: redis> config set maxmemory-policy volatile-lru 建议使用 volatile-lru,在保证正常服务的情况下,优先删除最近最少使用的 key。 5.2.3 LRU 淘汰原理 问题:如果基于传统 LRU 算法实现 Redis LRU 会有什么问题? 需要额外的数据结构存储,消耗内存。 Redis LRU 对传统的 LRU 算法进行了改良,通过随机采样来调整算法的精度。如果淘汰策略是 LRU,则根据配置的采样值 maxmemory_samples(默认是 5 个), 随机从数据库中选择 m 个 key, 淘汰其中热度最低的 key 对应的缓存数据。所以采样参数m配置的数值越大, 就越能精确的查找到待淘汰的缓存数据,但是也消耗更多的CPU计算,执行效率降低。 问题:如何找出热度最低的数据? Redis 中所有对象结构都有一个 lru 字段, 且使用了 unsigned 的低 24 位,这个字段用来记录对象的热度。对象被创建时会记录 lru 值。在被访问的时候也会更新 lru 的值。 但是不是获取系统当前的时间戳,而是设置为全局变量 server.lruclock 的值。 源码:server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; server.lruclock 的值怎么来的? Redis 中有个定时处理的函数 serverCron,默认每 100 毫秒调用函数 updateCachedTime 更新一次全局变量的 server.lruclock 的值,它记录的是当前 unix 时间戳。 源码:server.c void updateCachedTime(void) { time_t unixtime = time(NULL); atomicSet(server.unixtime,unixtime); server.mstime = mstime();struct tm tm; localtime_r(&server.unixtime,&tm);server.daylight_active = tm.tm_isdst; } 问题:为什么不获取精确的时间而是放在全局变量中?不会有延迟的问题吗? 这样函数 lookupKey 中更新数据的 lru 热度值时,就不用每次调用系统函数 time,可以提高执行效率。 OK,当对象里面已经有了 LRU 字段的值,就可以评估对象的热度了。 函数 estimateObjectIdleTime 评估指定对象的 lru 热度,思想就是对象的 lru 值和全局的 server.lruclock 的差值越大(越久没有得到更新),该对象热度越低。 源码 evict.c / Given an object returns the min number of milliseconds the object was never requested, using an approximated LRU algorithm. /unsigned long long estimateObjectIdleTime(robj o) {unsigned long long lruclock = LRU_CLOCK(); if (lruclock >= o->lru) {return (lruclock - o->lru) LRU_CLOCK_RESOLUTION; } else {return (lruclock + (LRU_CLOCK_MAX - o->lru)) LRU_CLOCK_RESOLUTION;} } server.lruclock 只有 24 位,按秒为单位来表示才能存储 194 天。当超过 24bit 能表 示的最大时间的时候,它会从头开始计算。 server.h define LRU_CLOCK_MAX ((1<<LRU_BITS)-1) / Max value of obj->lru / 在这种情况下,可能会出现对象的 lru 大于 server.lruclock 的情况,如果这种情况 出现那么就两个相加而不是相减来求最久的 key。 为什么不用常规的哈希表+双向链表的方式实现?需要额外的数据结构,消耗资源。而 Redis LRU 算法在 sample 为 10 的情况下,已经能接近传统 LRU 算法了。 问题:除了消耗资源之外,传统 LRU 还有什么问题? 如图,假设 A 在 10 秒内被访问了 5 次,而 B 在 10 秒内被访问了 3 次。因为 B 最后一次被访问的时间比 A 要晚,在同等的情况下,A 反而先被回收。 问题:要实现基于访问频率的淘汰机制,怎么做? 5.2.4 LFU server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; 当这 24 bits 用作 LFU 时,其被分为两部分: 高 16 位用来记录访问时间(单位为分钟,ldt,last decrement time) 低 8 位用来记录访问频率,简称 counter(logc,logistic counter) counter 是用基于概率的对数计数器实现的,8 位可以表示百万次的访问频率。 对象被读写的时候,lfu 的值会被更新。 db.c——lookupKey void updateLFU(robj val) {unsigned long counter = LFUDecrAndReturn(val); counter = LFULogIncr(counter);val->lru = (LFUGetTimeInMinutes()<<8) | counter;} 增长的速率由,lfu-log-factor 越大,counter 增长的越慢 redis.conf 配置文件。 lfu-log-factor 10 如果计数器只会递增不会递减,也不能体现对象的热度。没有被访问的时候,计数器怎么递减呢? 减少的值由衰减因子 lfu-decay-time(分钟)来控制,如果值是 1 的话,N 分钟没有访问就要减少 N。 redis.conf 配置文件 lfu-decay-time 1 6、持久化机制 https://redis.io/topics/persistence Redis 速度快,很大一部分原因是因为它所有的数据都存储在内存中。如果断电或者宕机,都会导致内存中的数据丢失。为了实现重启后数据不丢失,Redis 提供了两种持久化的方案,一种是 RDB 快照(Redis DataBase),一种是 AOF(Append Only File)。 6.1 RDB RDB 是 Redis 默认的持久化方案。当满足一定条件的时候,会把当前内存中的数据写入磁盘,生成一个快照文件 dump.rdb。Redis 重启会通过加载 dump.rdb 文件恢复数据。 什么时候写入 rdb 文件? 6.1.1 RDB 触发 1、自动触发 a)配置规则触发。 redis.conf, SNAPSHOTTING,其中定义了触发把数据保存到磁盘的触发频率。 如果不需要 RDB 方案,注释 save 或者配置成空字符串""。 save 900 1 900 秒内至少有一个 key 被修改(包括添加) save 300 10 400 秒内至少有 10 个 key 被修改save 60 10000 60 秒内至少有 10000 个 key 被修改 注意上面的配置是不冲突的,只要满足任意一个都会触发。 RDB 文件位置和目录: 文件路径,dir ./ 文件名称dbfilename dump.rdb 是否是LZF压缩rdb文件 rdbcompression yes 开启数据校验 rdbchecksum yes 问题:为什么停止 Redis 服务的时候没有 save,重启数据还在? RDB 还有两种触发方式: b)shutdown 触发,保证服务器正常关闭。 c)flushall,RDB 文件是空的,没什么意义(删掉 dump.rdb 演示一下)。 2、手动触发 如果我们需要重启服务或者迁移数据,这个时候就需要手动触 RDB 快照保存。Redis 提供了两条命令: a)save save 在生成快照的时候会阻塞当前 Redis 服务器, Redis 不能处理其他命令。如果内存中的数据比较多,会造成 Redis 长时间的阻塞。生产环境不建议使用这个命令。 为了解决这个问题,Redis 提供了第二种方式。 执行 bgsave 时,Redis 会在后台异步进行快照操作,快照同时还可以响应客户端请求。 具体操作是 Redis 进程执行 fork 操作创建子进程(copy-on-write),RDB 持久化过程由子进程负责,完成后自动结束。它不会记录 fork 之后后续的命令。阻塞只发生在 fork 阶段,一般时间很短。 用 lastsave 命令可以查看最近一次成功生成快照的时间。 6.1.2 RDB 数据的恢复(演示) 1、shutdown 持久化添加键值 添加键值 redis> set k1 1 redis> set k2 2 redis> set k3 3 redis> set k4 4 redis> set k5 5 停服务器,触发 save redis> shutdown 备份 dump.rdb 文件 cp dump.rdb dump.rdb.bak 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 啥都没有: redis> keys 3、通过备份文件恢复数据停服务器 redis> shutdown 重命名备份文件 mv dump.rdb.bak dump.rdb 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 查看数据 redis> keys 6.1.3 RDB 文件的优势和劣势 一、优势 1.RDB 是一个非常紧凑(compact)的文件,它保存了 redis 在某个时间点上的数据集。这种文件非常适合用于进行备份和灾难恢复。 2.生成 RDB 文件的时候,redis 主进程会 fork()一个子进程来处理所有保存工作,主进程不需要进行任何磁盘 IO 操作。 3.RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。 二、劣势 1、RDB 方式数据没办法做到实时持久化/秒级持久化。因为 bgsave 每次运行都要执行 fork 操作创建子进程,频繁执行成本过高。 2、在一定间隔时间做一次备份,所以如果 redis 意外 down 掉的话,就会丢失最后一次快照之后的所有修改(数据有丢失)。 如果数据相对来说比较重要,希望将损失降到最小,则可以使用 AOF 方式进行持久化。 6.2 AOF Append Only File AOF:Redis 默认不开启。AOF 采用日志的形式来记录每个写操作,并追加到文件中。开启后,执行更改 Redis 数据的命令时,就会把命令写入到 AOF 文件中。 Redis 重启时会根据日志文件的内容把写指令从前到后执行一次以完成数据的恢复工作。 6.2.1 AOF 配置 配置文件 redis.conf 开关appendonly no 文件名appendfilename "appendonly.aof" AOF 文件的内容(vim 查看): 问题:数据都是实时持久化到磁盘吗? 由于操作系统的缓存机制,AOF 数据并没有真正地写入硬盘,而是进入了系统的硬盘缓存。什么时候把缓冲区的内容写入到 AOF 文件? 问题:文件越来越大,怎么办? 由于 AOF 持久化是 Redis 不断将写命令记录到 AOF 文件中,随着 Redis 不断的进行,AOF 的文件会越来越大,文件越大,占用服务器内存越大以及 AOF 恢复要求时间越长。 例如 set xxx 666,执行 1000 次,结果都是 xxx=666。 为了解决这个问题,Redis 新增了重写机制,当 AOF 文件的大小超过所设定的阈值时,Redis 就会启动 AOF 文件的内容压缩,只保留可以恢复数据的最小指令集。 可以使用命令 bgrewriteaof 来重写。 AOF 文件重写并不是对原文件进行重新整理,而是直接读取服务器现有的键值对,然后用一条命令去代替之前记录这个键值对的多条命令,生成一个新的文件后去替换原来的 AOF 文件。 重写触发机制 auto-aof-rewrite-percentage 100 auto-aof-rewrite-min-size 64mb 问题:重写过程中,AOF 文件被更改了怎么办? 另外有两个与 AOF 相关的参数: 6.2.2 AOF 数据恢复 重启 Redis 之后就会进行 AOF 文件的恢复。 6.2.3 AOF 优势与劣势 优点: 1、AOF 持久化的方法提供了多种的同步频率,即使使用默认的同步频率每秒同步一次,Redis 最多也就丢失 1 秒的数据而已。 缺点: 1、对于具有相同数据的的 Redis,AOF 文件通常会比 RDB 文件体积更大(RDB 存的是数据快照)。 2、虽然 AOF 提供了多种同步的频率,默认情况下,每秒同步一次的频率也具有较高的性能。在高并发的情况下,RDB 比 AOF 具好更好的性能保证。 6.3 两种方案比较 那么对于 AOF 和 RDB 两种持久化方式,我们应该如何选择呢? 如果可以忍受一小段时间内数据的丢失,毫无疑问使用 RDB 是最好的,定时生成 RDB 快照(snapshot)非常便于进行数据库备份, 并且 RDB 恢复数据集的速度也要比 AOF 恢复的速度要快。 否则就使用 AOF 重写。但是一般情况下建议不要单独使用某一种持久化机制,而是应该两种一起用,在这种情况下,当 redis 重启的时候会优先载入 AOF 文件来恢复原始的数据,因为在通常情况下 AOF 文件保存的数据集要比 RDB 文件保存的数据集要完整。 本篇文章为转载内容。原文链接:https://blog.csdn.net/zhoutaochun/article/details/120075092。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2024-03-18 12:25:04
541
转载
MySQL
...幅增强等新特性,使得数据处理更为高效便捷。此外,MySQL 8.0在安全性方面新增了 caching_sha2_password 身份验证插件,有效提升了数据库账户的安全级别。 同时,随着云服务的发展,MySQL也在各大云平台如AWS RDS、阿里云RDS等上提供了更加灵活且易于管理的服务选项。企业用户可以根据自身需求选择适合的部署方式,实现资源按需分配与扩展。 而对于开发者而言,掌握MySQL优化技巧及其实战应用至关重要。例如,合理设计数据库表结构、熟练运用索引策略、适时进行查询优化等方法,能够在很大程度上提高MySQL数据库在高并发场景下的响应速度和稳定性。 总的来说,MySQL作为全球最广泛使用的开源关系型数据库之一,在不断迭代升级中持续赋能各行业业务发展,而深入理解和熟练掌握MySQL的各项功能,无疑将为企业和个人开发者在大数据时代带来更强竞争力。
2023-02-06 16:45:27
103
程序媛
MySQL
...我们还可以进一步探讨数据库在游戏开发中的核心作用以及数据库优化对提升玩家体验的影响。近期,《游戏开发者》杂志的一篇文章揭示了某知名网络游戏通过优化数据库架构,成功减少了游戏内交易的延迟,显著提升了元宝充值、消耗等操作的实时性,从而提高了用户满意度和留存率。 同时,随着云计算和大数据技术的发展,许多游戏公司开始采用分布式数据库来应对高并发场景下的数据处理需求。例如,阿里云发布的最新解决方案中就详细介绍了如何借助云数据库实现动态扩容,有效支撑了大型网游在高峰期的海量元宝数值更新与查询请求。 此外,针对游戏经济系统的安全问题,也有专家提出应当强化数据库权限管理,采用加密传输技术和二次验证机制确保元宝等虚拟财产的安全存储与变更。最近一起因数据库漏洞导致的游戏元宝被盗事件,再次敲响了游戏数据安全的警钟,促使业界加大对数据库防护措施的研究和投入。 总的来说,从基本的MySQL操作到复杂的数据库架构设计与优化,再到数据安全防护,游戏开发过程中对于数据库技术的应用和探索是一个持续且深入的过程,它不仅影响着游戏功能的实现,更是关乎游戏生态健康与用户体验的关键因素。
2023-04-20 08:05:28
62
软件工程师
JSON
在了解了JSON数据格式及其在JavaScript中灵活应用的基础上,进一步探讨其在现代Web开发中的实际运用和最新进展。近期,随着前端技术的快速发展,JSON扮演的角色愈发重要,尤其是在API设计、数据传输与存储方面。 例如,在RESTful API设计规范中,JSON已成为主流的数据交换格式,其简洁明了的结构极大地提高了接口的易用性和可读性。同时,由于JSON兼容多种编程语言,使得不同平台间的通信更为便捷。而随着HTTP/2协议的普及,JSON的序列化与反序列化效率得到了进一步优化,如通过HTTP压缩头部节省带宽,提升响应速度。 此外,现代浏览器对JSON原生支持的强化也为前端开发者提供了更多便利。如最新的Fetch API可以直接处理JSON数据,无需手动调用JSON.parse方法解析。而在数据库领域,NoSQL数据库(如MongoDB)更是充分利用了JSON文档型数据模型的优势,能够直接存储和查询JSON格式数据,简化了数据操作流程。 不仅如此,对于大数据和实时应用,诸如Apache Kafka等消息中间件也支持以JSON格式进行消息传递,便于系统间的数据交换和集成。在未来,随着JSON在物联网(IoT)、微服务架构等领域的深入应用,其无索引序列特性将更好地服务于复杂数据流的高效处理与传输。 总之,理解并掌握JSON的特性和使用方式,是当今软件开发工程师必备技能之一。不断跟进JSON相关的最新技术和应用场景,将有助于我们构建更高效、更具扩展性的现代Web应用。
2023-01-19 19:48:00
519
代码侠
Java
...何通过SQL语句实现数据库的升序和降序排列后,我们进一步探索这一功能在实际项目开发中的应用以及相关技术动态。 近日,随着大数据处理需求的增长,Apache Calcite开源项目发布了新的优化方案,针对SQL查询中的排序操作进行了深度优化。Calcite作为动态数据管理框架的核心组件,支持包括JDBC在内的多种接口,可以高效执行包含复杂ORDER BY子句的大规模数据查询任务,极大地提升了Java应用程序对数据库进行排序操作的性能。 同时,在Oracle最新发布的Java持久化API(JPA)2.3版本中,对于实体类的排序也有了更灵活的支持。开发者不仅可以利用注解@OrderBy对字段进行默认排序设置,还可以在运行时动态调整排序策略,这无疑为Java开发者在处理大量数据排序场景时提供了更多便利。 此外,考虑到数据库性能调优的重要性,建议读者进一步研究索引对排序查询的影响。适当的索引设计能够显著加快数据库的排序速度,特别是在涉及大量数据且频繁进行排序操作的应用场景下。例如,MySQL的B+树索引结构天然适合用于支持ORDER BY和LIMIT操作,合理创建和使用索引将极大提升SQL排序查询效率。 综上所述,虽然Java中基于SQL的排序操作看似基础,但在现代数据库管理和应用开发中,它与高级查询优化技术、持久化框架特性以及底层数据库索引原理等多方面知识紧密相连,值得广大开发者持续关注并深入学习。
2023-08-17 09:50:12
327
数据库专家
MySQL
关系型数据库管理系统(RDBMS) , 关系型数据库管理系统是一种基于关系模型的数据库管理系统,它以表格的形式存储数据,并通过预定义的关系来组织和管理这些表格中的数据。在MySQL中,RDBMS允许用户通过SQL语言对数据进行查询、更新、删除等操作,并确保数据的一致性和完整性。在文章语境中,MySQL作为最广泛使用的关系型数据库管理系统,具备高性能和可扩展性等优点。 分布式系统 , 分布式系统是由多台计算机通过网络连接并协同工作,共同完成一个或多个任务的计算系统。在MySQL的分布式实现中,多台计算机组成集群,每台计算机处理部分数据库负载,它们之间相互协作,实现数据共享和高可用性,以此提高整个系统的处理能力和并发性能。 MySQL Proxy , MySQL Proxy是一款轻量级的中间件软件,设计用于MySQL数据库的负载均衡、读写分离以及访问控制等功能。在MySQL分布式架构中,MySQL Proxy接收客户端的所有数据库请求,根据预设策略将这些请求分发到不同的MySQL服务器上,从而实现数据库访问流量的均衡分布,保证系统整体性能和高可用性。此外,MySQL Proxy还支持复制和故障转移功能,增强了MySQL分布式环境下的稳定性和可靠性。
2023-02-25 16:35:15
123
逻辑鬼才
MySQL
...解了如何使用PHP将数据传输到MySQL数据库后,进一步探索数据库管理与优化领域具有重要意义。近日,MySQL官方发布了8.0.27版本,该版本在性能、安全性和兼容性上均有显著提升,特别是对于大量数据导入和处理的效率优化值得关注。例如,引入了新的批量插入机制,使得一次性上传大量数据时速度更快,这对于大数据应用和实时数据分析场景尤为关键。 此外,随着GDPR等数据保护法规的出台,对数据库操作的安全性和隐私保护提出了更高要求。开发者不仅需要关注SQL注入等传统安全问题,更要学会利用MySQL提供的加密功能对敏感数据进行存储和传输,比如透明数据加密(TDE)和列级别加密技术。同时,掌握错误日志分析、备份恢复策略也是数据库运维中不可或缺的知识点。 深入解读方面,理解数据库索引设计原理和查询优化器的工作机制能够有效提升数据查询效率。有经验的开发者会结合业务逻辑选择合适的索引类型(如B-Tree、哈希索引等),并适时调整SQL语句以充分利用索引优势。 总之,在实际开发过程中,无论是通过PHP与MySQL交互,还是深入探究数据库内核特性,都需持续关注数据库技术的新发展,确保数据处理的安全、高效与合规。
2024-01-19 14:50:17
333
数据库专家
Oracle
在数据库管理领域,日志记录是确保数据完整性和事务一致性的重要机制。Oracle数据库的Logging、Force Logging和Nologging三种模式为用户提供了灵活的选择以适应不同的业务场景。然而,随着云技术的发展与普及,数据库的日志管理和恢复策略也在不断进化。 近日,Oracle发布了最新版本的数据库管理系统,对日志结构进行了优化,并引入了新的智能日志管理功能。该功能可根据系统的实时负载自动调整日志记录级别,有效平衡了性能与安全性需求。例如,在系统负载较低时,保持详细的Logging模式以保证数据可恢复性;而在高并发写入场景下,系统能够动态切换至更为高效的日志记录方式,减轻I/O压力,提高整体性能。 此外,针对大型分布式系统和实时数据分析的需求,Oracle还推出了基于区块链技术的增强型审计日志方案,通过分布式的账本存储机制,确保了日志记录的不可篡改性和高度透明性,这对于金融、医疗等对数据安全及合规性要求极高的行业具有重要意义。 深入理解并合理运用这些日志管理的新技术和策略,将有助于企业在保障数据安全的同时,最大限度地提升数据库性能和运维效率,紧跟时代发展的步伐。同时,这也提醒我们关注数据库日志记录技术的持续演进,以及其对未来企业IT架构与运营模式可能产生的深远影响。
2023-10-22 22:38:41
276
人生如戏-t
Flink
...以及可扩展性。随着大数据领域的快速发展,Flink社区也在不断优化和完善各类State Backend的性能表现和功能特性。 近期,Flink 1.13版本对RocksDB State Backend进行了重大升级,引入了异步快照机制以提升checkpoint效率,同时优化了内存使用,减少GC压力,使得RocksDB在处理大规模、高并发状态存储时更加游刃有余。另一方面,FsStateBackend也持续得到增强,通过支持S3、HDFS等云存储服务,更好地满足分布式环境下的持久化需求和容灾备份策略。 此外,为了适应云原生时代的挑战,Flink社区正在积极探索和开发新型State Backend,例如基于增量检查点的Heap-based State Backend,以及针对Kubernetes环境优化的、利用持久卷存储状态的StatefulSet集成方案等。 因此,在实际生产环境中,用户应密切关注Flink社区的最新进展,并结合自身业务场景的具体特点(如数据量大小、状态访问模式、资源限制、运维要求等),进行细致的性能测试和对比分析,从而选出最契合业务需求的State Backend实现方案。
2023-07-04 20:53:04
508
海阔天空-t
Hive
在大数据领域,Apache Hive 数据库连接超时问题只是众多技术挑战中的一个。近期,随着云计算和分布式计算技术的快速发展,诸如 Apache Hadoop、Spark 等大数据处理框架不断优化升级,为解决类似的问题提供了更多可能。 例如,Apache Spark 通过内存计算与高效的 DAG 执行引擎显著提升了数据查询速度,结合动态资源分配机制,能够在高并发环境下有效避免数据库连接超时。同时,云服务商如阿里云、AWS 等推出的托管型数据仓库服务(如 MaxCompute、Redshift 等),凭借其强大的弹性伸缩能力和完善的网络优化策略,能够更好地应对网络波动和资源瓶颈导致的连接超时问题。 此外,数据库管理系统的设计理念也在与时俱进,许多现代数据库如 Google Spanner、Amazon Aurora 等均采用分布式架构并内置了智能连接管理模块,能够根据负载自动调整资源分配,以减少并发查询对系统造成的压力,并降低连接超时的风险。 值得注意的是,对于参数设置方面,除了关注具体工具的配置参数,理解 CAP 定理、 BASE 理论等分布式系统设计原则,也能帮助我们更科学地进行系统调优,从根本上预防数据库连接超时等问题的发生。因此,在面对大数据环境下的各种挑战时,持续跟进最新技术趋势、深入理解技术原理,并灵活运用到实际场景中,无疑是解决问题的关键所在。
2023-04-17 12:03:53
515
笑傲江湖-t
Kibana
...na的集成应用及优化策略显得尤为重要。近期,Elastic公司发布了Elastic Stack 8.0版本,其中包含了对Kibana功能的重大更新,如改进了API性能、增强了安全性配置选项以及提供了更为流畅的可视化体验。 针对API调用效率问题,官方文档详细介绍了如何通过合理的索引设计、查询优化以及使用Elasticsearch的安全特性来确保API访问既安全又高效。例如,合理设置分片数量和副本策略有助于提高大规模数据查询时的API响应速度;而利用Elasticsearch的Role-Based Access Control(RBAC)机制,则可精细控制不同用户对API的访问权限,避免因权限设置不当导致的API调用失败。 此外,为了提升Kibana的数据分析能力,技术社区也在不断分享实战经验和最佳实践。一篇最新的技术博客就深入剖析了如何结合Kibana的Timelion插件进行实时数据分析,同时展示了如何通过监控Elasticsearch集群状态,预防可能导致API调用异常的服务故障。 综上所述,紧跟Elasticsearch与Kibana的最新发展动态,并掌握其高级特性和优化技巧,对于解决实际应用中可能遇到的各种问题,包括但不限于API调用失败的情况,都具有极高的参考价值和实践意义。
2023-10-18 12:29:17
609
诗和远方-t
Apache Solr
...gion Based设计,在处理大规模数据索引服务如Solr时表现出更出色的性能表现。G1垃圾收集器能够自动进行堆内存分区管理和调整,减少手动设置-Xms和-Xmx参数的工作量,同时通过自适应大小调整策略优化内存分配。 另外,对于大型分布式Solr集群部署,除了关注单节点JVM优化,还需要考虑跨节点的数据分片(Sharding)和负载均衡策略,以实现整体系统的高效运行。Google的Cloud Native JVM项目也在探索如何更好地将JVM应用与Kubernetes等容器编排平台结合,提供更为智能、自动化的资源管理和性能优化方案。 此外,对于特定业务场景下的内存泄漏检测与预防,开源工具如VisualVM、MAT(Memory Analyzer Tool)等提供了强大的实时监控与分析功能,有助于开发者深入理解并解决Solr在实际运行中可能出现的内存占用过高问题。 综上所述,Solr的JVM调优是一个持续迭代和深化的过程,随着技术的发展和新工具的推出,我们不仅需要掌握传统调优手段,更要紧跟行业前沿动态,灵活运用最新技术和工具来应对不断变化的业务需求和挑战。
2023-01-02 12:22:14
468
飞鸟与鱼-t
ElasticSearch
...文中,URL模板帮助数据分析师在ElasticSearch中根据需要迅速定位并获取指定范围、类型或其他特定条件下的数据。 钻取(Drilldown)操作 , 在数据分析领域,钻取是指从概括性的高层面数据逐步深入到详细数据的过程。它允许用户从汇总数据开始,然后逐层向下探索更具体的数据细节。在Kibana中,通过设置和使用URL模板实现钻取操作,用户能够快速锁定并挖掘海量数据中的目标信息,提高分析效率。 ElasticSearch , Elasticsearch是一个基于Lucene构建的开源分布式全文搜索引擎,专为云计算环境设计,提供近实时搜索、分析以及存储数据的能力。在本文中,ElasticSearch是承载大数据分析的基础平台,与Kibana可视化工具结合使用,使得用户能够利用URL模板等高级功能高效地进行数据搜索和分析工作。
2023-08-09 23:59:55
494
雪域高原-t
Cassandra
...sandra, 这个分布式NoSQL数据库,以其高可用性和横向扩展能力而闻名。聊天到数据存储怎么玩得溜,你猜猜看,啥子话题最火?对头,就是UNLOGGED TABLES!特别是那些一心想要速度飞快、存储空间又省着使的朋友们,这简直就是他们的心头好啊!让我们深入了解一下,何时选择使用CQL(Cassandra查询语言)的UNLOGGED TABLES选项。 二、理解UNLOGGED TABLES 1. 定义与特点 UNLOGGED TABLES是一种特殊的表类型,它牺牲了一些Cassandra的ACID(原子性、一致性、隔离性和持久性)保证,以换取更高的写入吞吐量和更低的磁盘I/O。这就意味着数据不会乖乖地记在日记本里,万一系统出个小差错,可能没法完整地复原之前的交易。不过,对于那些不太在乎数据完美无瑕的场合,这还挺合适的。 2. 适用场景 - 数据缓存:如果你需要一个快速的读写速度,而不在乎数据丢失的可能性,UNLOGGED TABLES可以作为数据缓存,例如在实时分析应用中。 - 大数据流处理:在处理海量数据流时,快速写入和较低的磁盘操作对于延迟敏感的系统至关重要。 三、CQL与UNLOGGED TABLES的创建示例 cql CREATE TABLE users ( user_id uuid PRIMARY KEY, name text, email text, unlogged ) WITH bloom_filter_fp_chance = 0.01 AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'} AND comment = 'Fast writes, no durability'; 在这个例子中,unlogged关键字被添加到表定义中,声明这是一个UNLOGGED TABLES。嘿,你知道吗?咱们加了个小技巧,那就是把caching开关调到"不缓存行"模式,这样写入数据的时候速度能嗖嗖的快呢! 四、潜在风险与注意事项 1. 数据完整性 由于没有日志记录,如果集群崩溃,UNLOGGED TABLES的数据可能会丢失,这可能导致数据一致性问题。 2. 备份与恢复 由于缺乏日志,备份和恢复可能依赖于其他手段,如定期全量备份。 3. 监控与维护 需要更频繁地监控,确保数据的实时性和可用性。 五、实际应用案例 假设你在构建一个实时新闻聚合应用,用户点击行为需要迅速记录以便进行实时分析。你知道吗,如果你要记录用户的日常操作,可以选择用"未日志化表",这样即使偶尔漏掉点旧信息,你那实时显示的精准度也不会打折! 然而,如果应用涉及到法律合规或金融交易,那么你可能需要使用普通表格类型,以确保数据的完整性和满足法规要求。 六、总结与权衡 在Cassandra中,UNLOGGED TABLES是一个工具箱中的瑞士军刀,适用于特定场景下的性能优化。关键看你怎么定夺,就是得琢磨清楚你的业务到底啥需求,数据又有多宝贝,还有你能不能容忍点儿小误差,就这么简单。每种选择都有其代价,因此明智地评估和选择合适的表类型至关重要。 记住,数据科学家和工程师的角色不仅仅是编写代码,更是要理解业务需求,然后根据这些需求做出最佳技术决策。在Cassandra的世界里,这就是UNLOGGED TABLES发挥作用的地方。
2024-06-12 10:55:34
492
青春印记
PostgreSQL
...greSQL如何创建索引的基础知识后,我们可以进一步探索索引在实际应用中的最新趋势和优化策略。近期,PostgreSQL 14版本发布了一系列关于索引的增强功能,包括对BRIN(Block Range Indexes)索引类型的改进,它能更高效地处理大规模数据表,尤其对于按时间序列或连续数值排序的数据有显著提升。此外,还引入了表达式索引的新特性,允许用户基于列计算结果创建索引,极大地增强了索引的灵活性与适用性。 同时,在数据库优化实践中,了解何时以及如何选择正确的索引类型至关重要。例如,对于频繁进行范围查询的场景,B-tree索引可能是最佳选择;而对于全文搜索,则可能需要使用到gin或者gist索引。值得注意的是,尽管索引能够极大提升查询效率,但过度使用或不当使用也可能导致写操作性能下降及存储空间浪费,因此在设计数据库架构时需综合考量读写负载平衡及存储成本等因素。 此外,随着机器学习和AI技术的发展,智能化索引管理工具也逐渐崭露头角,它们可以根据历史查询模式自动推荐、调整甚至自动生成索引,以实现数据库性能的动态优化。这为数据库管理员提供了更为便捷高效的索引管理手段,有助于持续提升PostgreSQL等关系型数据库的服务质量和响应速度。
2023-11-16 14:06:06
485
晚秋落叶_t
Greenplum
...规模并行处理)架构的分布式数据库管理系统,其核心引擎源自PostgreSQL。在本文语境中,Greenplum因其出色的扩展性和对大数据量结构化数据处理的能力而被强调,同时它还提供了对JSON和XML等非关系型数据类型的原生支持,并拥有丰富的内置函数以方便用户进行复杂的数据操作。 JSONB , JSONB是“Binary JSON”的缩写,在Greenplum及PostgreSQL中,这是一种存储JSON数据的二进制格式数据类型。相较于传统的JSON文本格式,JSONB不仅提高了查询性能,还允许直接在数据库内执行索引查找、更新及其他更高效的操作。文中提到,通过CREATE TABLE语句可以创建包含JSONB列的表,进而实现JSON数据的存储和管理。 XML数据类型 , XML(eXtensible Markup Language)是一种标记语言,用于描述数据结构和存储数据内容。在数据库领域,XML数据类型是指能够将符合XML规范的文档直接作为数据库字段值进行存储和检索的数据类型。文中举例说明了Greenplum如何通过CREATE TABLE语句创建包含XML数据类型的表,并利用内置函数如xmlagg和xmlelement来处理和操作XML数据内容,满足了处理复杂结构化信息的需求。
2023-05-14 23:43:37
528
草原牧歌-t
MySQL
在了解了MySQL数据库中添加数据的基本步骤后,进一步探索和掌握数据库管理技术至关重要。近日,MySQL 8.0版本推出了一系列新功能,包括更强大的安全性选项、性能优化以及对JSON文档的支持增强,这些改进为数据插入与管理带来了更高的效率和灵活性(来源:Oracle官网,2022年MySQL 8.0最新特性介绍)。对于开发者而言,深入学习如何利用这些新特性进行批量插入、事务处理等高级操作,将极大提升应用的数据处理能力。 此外,随着近年来数据隐私法规的日益严格,《GDPR》等法规对数据库中的用户信息存储提出了更高要求。因此,在向MySQL数据库添加数据时,务必遵循数据最小化原则,确保收集和存储的数据仅限于实现特定目的所必需,并采取加密等手段保护敏感信息的安全性(来源:European Commission, GDPR Guidelines)。 另外,为了更好地应对大数据时代下数据量激增的挑战,越来越多的企业开始采用分布式数据库架构,如MySQL集群或云数据库服务(如阿里云RDS for MySQL)。这些服务提供了自动备份、故障切换及水平扩展等功能,使得在保持高性能的同时,也能方便地管理和添加海量数据(来源:阿里云官方文档,MySQL数据库解决方案)。 综上所述,除了基础的MySQL数据插入技巧外,关注数据库领域的最新发展动态和技术趋势,结合实际情况选择合适的数据库架构和服务,将有助于我们在实践中更加高效、安全地管理和添加数据。
2024-02-04 16:16:22
70
键盘勇士
ElasticSearch
在搜索引擎技术的快速发展中,Elasticsearch因其分布式架构和对大数据实时处理的优势,已在众多领域展现出强大的搜索与分析能力。近期,Elasticsearch针对邻近关键字匹配功能的应用场景愈发广泛,尤其在电商、新闻聚合、社交媒体等需要精确捕捉用户意图的行业中备受瞩目。 例如,在2021年某大型电商平台升级其搜索引擎时,就深度运用了Elasticsearch的邻近关键字匹配功能,显著提升了商品搜索结果的相关性和用户体验。通过对海量商品信息进行高效索引,并精准匹配用户输入的连贯性短语,该平台有效解决了用户搜索需求与实际展示结果之间可能存在的语义鸿沟。 此外,随着Elasticsearch 7.x版本的更新迭代,其邻近关键字匹配算法在性能优化上取得重大突破。借助更灵活的分词策略以及更高效的查询执行计划,使得即使面对大规模数据集,也能在保证高精度的同时大大缩短响应时间。 深入理解并合理应用Elasticsearch的邻近关键字匹配技术,不仅有助于企业提升服务质量和客户满意度,也为未来构建智能化、个性化的搜索推荐系统提供了坚实的技术支撑。在大数据时代,掌握这一关键技术,无疑将为企业带来更大的竞争优势和发展潜力。
2023-05-29 16:02:42
463
凌波微步_t
Go-Spring
在现代互联网架构设计中,缓存技术的应用已成常态,尤其在高并发、大数据量的场景下,其对于提升系统性能和用户体验的作用不言而喻。Go-Spring框架中的ehcache配置与使用仅是众多实现方案之一,实际上,随着云原生技术的发展,新型的分布式缓存服务如Redis、Memcached以及云服务商提供的托管缓存服务也逐渐崭露头角。 近期,AWS宣布对其Amazon ElastiCache服务进行升级,提供了更为强大的内存数据库功能,支持自动扩展、多可用区部署以及数据持久化,使开发者能够更加便捷高效地构建高可用、高性能的应用。同时,Google Cloud Platform也推出了Cloud Memorystore,一款全托管的Redis和Memcached服务,旨在简化大规模Web应用和服务的数据缓存管理。 此外,对于缓存策略的设计与优化亦至关重要,比如LRU(最近最少使用)算法、LFU(最不经常使用)算法等淘汰策略的选择及应用场景分析,都是深入研究缓存技术时不可或缺的内容。因此,在实际项目开发中,结合业务特性和资源条件灵活运用并持续优化缓存机制,方能最大程度发挥其效能,为系统的整体性能保驾护航。
2023-12-01 09:24:43
447
半夏微凉-t
Greenplum
...规模并行处理)架构的分布式数据库系统,用于处理和分析大规模数据。它建立在PostgreSQL的基础上,通过将大量数据分布到多个节点上,并行执行查询操作,从而实现高效的数据仓库和商业智能应用。 数据类型转换 , 在计算机编程和数据库管理中,数据类型转换是指将一种数据类型的值转换为另一种数据类型的过程。例如,在SQL查询语句中,可能需要将整数转换为字符串以便进行特定的操作或展示。如果源数据与目标数据类型不兼容,或者转换过程中违反了类型转换的逻辑规则,就可能出现数据类型转换错误。 分布式数据库系统 , 分布式数据库系统是一种将数据分布在多台独立计算机上的数据库管理系统,每台计算机都被称为一个节点。每个节点都可以存储一部分数据,并拥有自己的计算资源,共同协作完成数据处理任务。在Greenplum中,通过并行处理技术,所有节点能够同时执行查询,显著提高了大数据集上的查询性能和分析效率。 MPP(大规模并行处理)架构 , MPP(Massively Parallel Processing)是一种用于高性能计算和数据库系统的架构设计,允许大量的处理器(或节点)在同一时间内并行处理不同的部分任务,从而提高整体系统的处理速度和效率。在Greenplum数据库中,MPP架构使得数据库可以分割大表并在集群内的各个节点上并行执行查询操作。
2023-11-08 08:41:06
598
彩虹之上-t
PostgreSQL
在数据库管理系统中,序列生成器是一个关键功能,尤其对于需要唯一标识符的应用场景,如交易流水号、用户ID等。PostgreSQL的序列生成器功能强大且灵活,但在实际应用中,开发者还应考虑其并发环境下的性能和安全性问题。 近期,PostgreSQL官方社区发布了一篇深度技术文章,针对高并发场景下如何优化序列生成器的使用进行了探讨。文中指出,在多线程或多进程环境下,虽然序列生成器能确保生成的数字唯一,但如果不采取适当的并发控制策略,可能会导致序列号之间的间隙增大或序列生成效率降低。为此,建议采用“缓存”策略(例如通过设置CACHE大小),预先生成一组序列号,从而减少对序列对象的争用,提高并发性能。 此外,对于分布式系统中的全局唯一序列号生成需求,PostgreSQL提供的逻辑复制功能可以与序列生成器结合,实现跨多个数据库节点的全局唯一序列号分配。但这一过程涉及更复杂的架构设计与配置,开发者需深入理解并合理运用。 综上所述,尽管PostgreSQL的序列生成器为开发者提供了便利,但在实际应用时还需根据具体业务场景进行针对性优化,并时刻关注社区发布的最新技术动态,以便更好地利用数据库特性,提升系统的稳定性和性能。
2023-04-25 22:21:14
77
半夏微凉-t
MemCache
...智能的小秘书,把各种数据信息都存在一个小本本(内存)上,以“关键词+答案”的形式记录下来。这样一来,当你需要啥数据的时候,它就能迅速翻出对应的小纸条,眨眼间就把你要的数据送到你手上,响应速度那叫一个快!不过在实际用起来的时候,我们得时刻盯着 Memcached 的运行情况,确保这小子乖乖干活儿,不出岔子。本文将重点讨论如何分析 Memcached 的 topkeys 统计信息。 二、Memcached topkeys 统计信息介绍 在 Memcached 中,topkeys 是指那些最频繁被查询的 key。这些 key 对于优化 Memcached 的性能至关重要。瞧,通过瞅瞅那些 topkeys,咱们就能轻松发现哪些 key 是大家眼中的“香饽饽”,这样就能更巧妙、更接地气地去打理和优化咱们的数据啦! 三、如何获取 Memcached topkeys 统计信息 首先,我们可以通过 Memcached 的命令行工具来获取 topkeys 信息。例如,我们可以使用以下命令: bash $ memcached -l localhost:11211 -p 11211 -n 1 | grep 'GET ' | awk '{print $2}' | sort | uniq -c | sort -rn 这个命令会输出所有 GET 请求及其对应的次数,然后根据次数排序,并显示出最常见的 key。 四、解读 topkeys 统计信息 当我们获取到 topkeys 统计信息后,我们需要对其进行解读。下面是一些常见的解读方法: 1. 找出热点数据 通常,topkeys 就是我们的热点数据。设计应用程序的时候,咱得优先考虑那些最常被大家查来查去的数据的存储和查询效率。毕竟这些数据是“高频明星”,出场率贼高,咱们得好好伺候着,让它们能快准稳地被找到。 2. 调整数据分布 如果我们发现某些 topkeys 过于集中,可能会导致 Memcached 的负载不均衡。这时,我们应该尝试调整数据的分布,使数据更加均匀地分布在 Memcached 中。 3. 预测未来趋势 通过观察 topkeys 的变化,我们可以预测未来的流量趋势。如果某个key的访问量蹭蹭往上涨,那咱们就得未雨绸缪啦,提前把功课做足,别等到数据太多撑爆了,把服务整瘫痪喽。 五、结论 总的来说,Memcached topkeys 统计信息是我们管理 Memcached 数据的重要工具。把这些信息摸得门儿清,再巧妙地使上劲儿,咱们就能让 Memcached 的表现更上一层楼,把数据存取和查询速度调理得倍儿溜,这样一来,咱的应用程序使用体验自然就蹭蹭往上涨啦!
2023-07-06 08:28:47
127
寂静森林-t
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
cd -
- 在最近访问过的两个目录之间快速切换。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"