前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[数据缓存机制对大数据访问速度的影响]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
...如果生产者生产消息的速度远大于消费者消费消息的速度,List 会占用大量的内存。 2、消息的实时性降低。 list 还提供了一个阻塞的命令:blpop,没有任何元素可以弹出的时候,连接会被阻塞。 基于 list 实现的消息队列,不支持一对多的消息分发。 1.2 发布订阅模式 除了通过 list 实现消息队列之外,Redis 还提供了一组命令实现发布/订阅模式。 这种方式,发送者和接收者没有直接关联(实现了解耦),接收者也不需要持续尝试获取消息。 1.2.1 订阅频道 首先,我们有很多的频道(channel),我们也可以把这个频道理解成 queue。订阅者可以订阅一个或者多个频道。消息的发布者(生产者)可以给指定的频道发布消息。只要有消息到达了频道,所有订阅了这个频道的订阅者都会收到这条消息。 需要注意的注意是,发出去的消息不会被持久化,因为它已经从队列里面移除了,所以消费者只能收到它开始订阅这个频道之后发布的消息。 下面我们来看一下发布订阅命令的使用方法。 订阅者订阅频道:可以一次订阅多个,比如这个客户端订阅了 3 个频道。 subscribe channel-1 channel-2 channel-3 发布者可以向指定频道发布消息(并不支持一次向多个频道发送消息): publish channel-1 2673 取消订阅(不能在订阅状态下使用): unsubscribe channel-1 1.2.2 按规则(Pattern)订阅频道 支持 ?和 占位符。? 代表一个字符, 代表 0 个或者多个字符。 消费端 1,关注运动信息: psubscribe sport 消费端 2,关注所有新闻: psubscribe news 消费端 3,关注天气新闻: psubscribe news-weather 生产者,发布 3 条信息 publish news-sport yaoming publish news-music jaychou publish news-weather rain 2、Redis 事务 2.1 为什么要用事务 我们知道 Redis 的单个命令是原子性的(比如 get set mget mset),如果涉及到多个命令的时候,需要把多个命令作为一个不可分割的处理序列,就需要用到事务。 例如我们之前说的用 setnx 实现分布式锁,我们先 set,然后设置对 key 设置 expire, 防止 del 发生异常的时候锁不会被释放,业务处理完了以后再 del,这三个动作我们就希望它们作为一组命令执行。 Redis 的事务有两个特点: 1、按进入队列的顺序执行。 2、不会受到其他客户端的请求的影响。 Redis 的事务涉及到四个命令:multi(开启事务),exec(执行事务),discard (取消事务),watch(监视) 2.2 事务的用法 案例场景:tom 和 mic 各有 1000 元,tom 需要向 mic 转账 100 元。tom 的账户余额减少 100 元,mic 的账户余额增加 100 元。 通过 multi 的命令开启事务。事务不能嵌套,多个 multi 命令效果一样。 multi 执行后,客户端可以继续向服务器发送任意多条命令,这些命令不会立即被执行,而是被放到一个队列中,当 exec 命令被调用时,所有队列中的命令才会被执行。 通过 exec 的命令执行事务。如果没有执行 exec,所有的命令都不会被执行。如果中途不想执行事务了,怎么办? 可以调用 discard 可以清空事务队列,放弃执行。 2.3 watch命令 在 Redis 中还提供了一个 watch 命令。 它可以为 Redis 事务提供 CAS 乐观锁行为(Check and Set / Compare and Swap),也就是多个线程更新变量的时候,会跟原值做比较,只有它没有被其他线程修改的情况下,才更新成新的值。 我们可以用 watch 监视一个或者多个 key,如果开启事务之后,至少有一个被监视 key 键在 exec 执行之前被修改了,那么整个事务都会被取消(key 提前过期除外)。可以用 unwatch 取消。 2.4 事务可能遇到的问题 我们把事务执行遇到的问题分成两种,一种是在执行 exec 之前发生错误,一种是在执行 exec 之后发生错误。 2.4.1 在执行 exec 之前发生错误 比如:入队的命令存在语法错误,包括参数数量,参数名等等(编译器错误)。 在这种情况下事务会被拒绝执行,也就是队列中所有的命令都不会得到执行。 2.4.2 在执行 exec 之后发生错误 比如,类型错误,比如对 String 使用了 Hash 的命令,这是一种运行时错误。 最后我们发现 set k1 1 的命令是成功的,也就是在这种发生了运行时异常的情况下, 只有错误的命令没有被执行,但是其他命令没有受到影响。 这个显然不符合我们对原子性的定义,也就是我们没办法用 Redis 的这种事务机制来实现原子性,保证数据的一致。 3、Lua脚本 Lua/ˈluə/是一种轻量级脚本语言,它是用 C 语言编写的,跟数据的存储过程有点类似。 使用 Lua 脚本来执行 Redis 命令的好处: 1、一次发送多个命令,减少网络开销。 2、Redis 会将整个脚本作为一个整体执行,不会被其他请求打断,保持原子性。 3、对于复杂的组合命令,我们可以放在文件中,可以实现程序之间的命令集复用。 3.1 在Redis中调用Lua脚本 使用 eval /ɪ’væl/ 方法,语法格式: redis> eval lua-script key-num [key1 key2 key3 ....] [value1 value2 value3 ....] eval代表执行Lua语言的命令。 lua-script代表Lua语言脚本内容。 key-num表示参数中有多少个key,需要注意的是Redis中key是从1开始的,如果没有key的参数,那么写0。 [key1key2key3…]是key作为参数传递给Lua语言,也可以不填,但是需要和key-num的个数对应起来。 [value1 value2 value3 …]这些参数传递给 Lua 语言,它们是可填可不填的。 示例,返回一个字符串,0 个参数: redis> eval "return 'Hello World'" 0 3.2 在Lua脚本中调用Redis命令 使用 redis.call(command, key [param1, param2…])进行操作。语法格式: redis> eval "redis.call('set',KEYS[1],ARGV[1])" 1 lua-key lua-value command是命令,包括set、get、del等。 key是被操作的键。 param1,param2…代表给key的参数。 注意跟 Java 不一样,定义只有形参,调用只有实参。 Lua 是在调用时用 key 表示形参,argv 表示参数值(实参)。 3.2.1 设置键值对 在 Redis 中调用 Lua 脚本执行 Redis 命令 redis> eval "return redis.call('set',KEYS[1],ARGV[1])" 1 gupao 2673 redis> get gupao 以上命令等价于 set gupao 2673。 在 redis-cli 中直接写 Lua 脚本不够方便,也不能实现编辑和复用,通常我们会把脚本放在文件里面,然后执行这个文件。 3.2.2 在 Redis 中调用 Lua 脚本文件中的命令,操作 Redis 创建 Lua 脚本文件: cd /usr/local/soft/redis5.0.5/src vim gupao.lua Lua 脚本内容,先设置,再取值: cd /usr/local/soft/redis5.0.5/src redis-cli --eval gupao.lua 0 得到返回值: root@localhost src] redis-cli --eval gupao.lua 0 "lua666" 3.2.3 案例:对 IP 进行限流 需求:在 X 秒内只能访问 Y 次。 设计思路:用 key 记录 IP,用 value 记录访问次数。 拿到 IP 以后,对 IP+1。如果是第一次访问,对 key 设置过期时间(参数 1)。否则判断次数,超过限定的次数(参数 2),返回 0。如果没有超过次数则返回 1。超过时间, key 过期之后,可以再次访问。 KEY[1]是 IP, ARGV[1]是过期时间 X,ARGV[2]是限制访问的次数 Y。 -- ip_limit.lua-- IP 限流,对某个 IP 频率进行限制 ,6 秒钟访问 10 次 local num=redis.call('incr',KEYS[1])if tonumber(num)==1 thenredis.call('expire',KEYS[1],ARGV[1])return 1elseif tonumber(num)>tonumber(ARGV[2]) thenreturn 0 elsereturn 1 end 6 秒钟内限制访问 10 次,调用测试(连续调用 10 次): ./redis-cli --eval "ip_limit.lua" app:ip:limit:192.168.8.111 , 6 10 app:ip:limit:192.168.8.111 是 key 值 ,后面是参数值,中间要加上一个空格和一个逗号,再加上一个空格 。 即:./redis-cli –eval [lua 脚本] [key…]空格,空格[args…] 多个参数之间用一个空格分割 。 代码:LuaTest.java 3.2.4 缓存 Lua 脚本 为什么要缓存 在脚本比较长的情况下,如果每次调用脚本都需要把整个脚本传给 Redis 服务端, 会产生比较大的网络开销。为了解决这个问题,Redis 提供了 EVALSHA 命令,允许开发者通过脚本内容的 SHA1 摘要来执行脚本。 如何缓存 Redis 在执行 script load 命令时会计算脚本的 SHA1 摘要并记录在脚本缓存中,执行 EVALSHA 命令时 Redis 会根据提供的摘要从脚本缓存中查找对应的脚本内容,如果找到了则执行脚本,否则会返回错误:“NOSCRIPT No matching script. Please use EVAL.” 127.0.0.1:6379> script load "return 'Hello World'" "470877a599ac74fbfda41caa908de682c5fc7d4b"127.0.0.1:6379> evalsha "470877a599ac74fbfda41caa908de682c5fc7d4b" 0 "Hello World" 3.2.5 自乘案例 Redis 有 incrby 这样的自增命令,但是没有自乘,比如乘以 3,乘以 5。我们可以写一个自乘的运算,让它乘以后面的参数: local curVal = redis.call("get", KEYS[1]) if curVal == false thencurVal = 0 elsecurVal = tonumber(curVal)endcurVal = curVal tonumber(ARGV[1]) redis.call("set", KEYS[1], curVal) return curVal 把这个脚本变成单行,语句之间使用分号隔开 local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal script load ‘命令’ 127.0.0.1:6379> script load 'local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal' "be4f93d8a5379e5e5b768a74e77c8a4eb0434441" 调用: 127.0.0.1:6379> set num 2OK127.0.0.1:6379> evalsha be4f93d8a5379e5e5b768a74e77c8a4eb0434441 1 num 6 (integer) 12 3.2.6 脚本超时 Redis 的指令执行本身是单线程的,这个线程还要执行客户端的 Lua 脚本,如果 Lua 脚本执行超时或者陷入了死循环,是不是没有办法为客户端提供服务了呢? eval 'while(true) do end' 0 为了防止某个脚本执行时间过长导致 Redis 无法提供服务,Redis 提供了 lua-time-limit 参数限制脚本的最长运行时间,默认为 5 秒钟。 lua-time-limit 5000(redis.conf 配置文件中) 当脚本运行时间超过这一限制后,Redis 将开始接受其他命令但不会执行(以确保脚本的原子性,因为此时脚本并没有被终止),而是会返回“BUSY”错误。 Redis 提供了一个 script kill 的命令来中止脚本的执行。新开一个客户端: script kill 如果当前执行的 Lua 脚本对 Redis 的数据进行了修改(SET、DEL 等),那么通过 script kill 命令是不能终止脚本运行的。 127.0.0.1:6379> eval "redis.call('set','gupao','666') while true do end" 0 因为要保证脚本运行的原子性,如果脚本执行了一部分终止,那就违背了脚本原子性的要求。最终要保证脚本要么都执行,要么都不执行。 127.0.0.1:6379> script kill(error) UNKILLABLE Sorry the script already executed write commands against the dataset. You can either wait the scripttermination or kill the server in a hard way using the SHUTDOWN NOSAVE command. 遇到这种情况,只能通过 shutdown nosave 命令来强行终止 redis。 shutdown nosave 和 shutdown 的区别在于 shutdown nosave 不会进行持久化操作,意味着发生在上一次快照后的数据库修改都会丢失。 4、Redis 为什么这么快? 4.1 Redis到底有多快? 根据官方的数据,Redis 的 QPS 可以达到 10 万左右(每秒请求数)。 4.2 Redis为什么这么快? 总结:1)纯内存结构、2)单线程、3)多路复用 4.2.1 内存 KV 结构的内存数据库,时间复杂度 O(1)。 第二个,要实现这么高的并发性能,是不是要创建非常多的线程? 恰恰相反,Redis 是单线程的。 4.2.2 单线程 单线程有什么好处呢? 1、没有创建线程、销毁线程带来的消耗 2、避免了上线文切换导致的 CPU 消耗 3、避免了线程之间带来的竞争问题,例如加锁释放锁死锁等等 4.2.3 异步非阻塞 异步非阻塞 I/O,多路复用处理并发连接。 4.3 Redis为什么是单线程的? 不是白白浪费了 CPU 的资源吗? 因为单线程已经够用了,CPU 不是 redis 的瓶颈。Redis 的瓶颈最有可能是机器内存或者网络带宽。既然单线程容易实现,而且 CPU 不会成为瓶颈,那就顺理成章地采用单线程的方案了。 4.4 单线程为什么这么快? 因为 Redis 是基于内存的操作,我们先从内存开始说起。 4.4.1 虚拟存储器(虚拟内存 Vitual Memory) 名词解释:主存:内存;辅存:磁盘(硬盘) 计算机主存(内存)可看作一个由 M 个连续的字节大小的单元组成的数组,每个字节有一个唯一的地址,这个地址叫做物理地址(PA)。早期的计算机中,如果 CPU 需要内存,使用物理寻址,直接访问主存储器。 这种方式有几个弊端: 1、在多用户多任务操作系统中,所有的进程共享主存,如果每个进程都独占一块物理地址空间,主存很快就会被用完。我们希望在不同的时刻,不同的进程可以共用同一块物理地址空间。 2、如果所有进程都是直接访问物理内存,那么一个进程就可以修改其他进程的内存数据,导致物理地址空间被破坏,程序运行就会出现异常。 为了解决这些问题,我们就想了一个办法,在 CPU 和主存之间增加一个中间层。CPU 不再使用物理地址访问,而是访问一个虚拟地址,由这个中间层把地址转换成物理地址,最终获得数据。这个中间层就叫做虚拟存储器(Virtual Memory)。 具体的操作如下所示: 在每一个进程开始创建的时候,都会分配一段虚拟地址,然后通过虚拟地址和物理地址的映射来获取真实数据,这样进程就不会直接接触到物理地址,甚至不知道自己调用的哪块物理地址的数据。 目前,大多数操作系统都使用了虚拟内存,如 Windows 系统的虚拟内存、Linux 系统的交换空间等等。Windows 的虚拟内存(pagefile.sys)是磁盘空间的一部分。 在 32 位的系统上,虚拟地址空间大小是 2^32bit=4G。在 64 位系统上,最大虚拟地址空间大小是多少? 是不是 2^64bit=10241014TB=1024PB=16EB?实际上没有用到 64 位,因为用不到这么大的空间,而且会造成很大的系统开销。Linux 一般用低 48 位来表示虚拟地址空间,也就是 2^48bit=256T。 cat /proc/cpuinfo address sizes : 40 bits physical, 48 bits virtual 实际的物理内存可能远远小于虚拟内存的大小。 总结:引入虚拟内存,可以提供更大的地址空间,并且地址空间是连续的,使得程序编写、链接更加简单。并且可以对物理内存进行隔离,不同的进程操作互不影响。还可以通过把同一块物理内存映射到不同的虚拟地址空间实现内存共享。 4.4.2 用户空间和内核空间 为了避免用户进程直接操作内核,保证内核安全,操作系统将虚拟内存划分为两部分,一部分是内核空间(Kernel-space)/ˈkɜːnl /,一部分是用户空间(User-space)。 内核是操作系统的核心,独立于普通的应用程序,可以访问受保护的内存空间,也有访问底层硬件设备的权限。 内核空间中存放的是内核代码和数据,而进程的用户空间中存放的是用户程序的代码和数据。不管是内核空间还是用户空间,它们都处于虚拟空间中,都是对物理地址的映射。 在 Linux 系统中, 内核进程和用户进程所占的虚拟内存比例是 1:3。 当进程运行在内核空间时就处于内核态,而进程运行在用户空间时则处于用户态。 进程在内核空间以执行任意命令,调用系统的一切资源;在用户空间只能执行简单的运算,不能直接调用系统资源,必须通过系统接口(又称 system call),才能向内核发出指令。 top 命令: us 代表 CPU 消耗在 User space 的时间百分比; sy 代表 CPU 消耗在 Kernel space 的时间百分比。 4.4.3 进程切换(上下文切换) 多任务操作系统是怎么实现运行远大于 CPU 数量的任务个数的? 当然,这些任务实际上并不是真的在同时运行,而是因为系统通过时间片分片算法,在很短的时间内,将 CPU 轮流分配给它们,造成多任务同时运行的错觉。 为了控制进程的执行,内核必须有能力挂起正在 CPU 上运行的进程,并恢复以前挂起的某个进程的执行。这种行为被称为进程切换。 什么叫上下文? 在每个任务运行前,CPU 都需要知道任务从哪里加载、又从哪里开始运行,也就是说,需要系统事先帮它设置好 CPU 寄存器和程序计数器(ProgramCounter),这个叫做 CPU 的上下文。 而这些保存下来的上下文,会存储在系统内核中,并在任务重新调度执行时再次加载进来。这样就能保证任务原来的状态不受影响,让任务看起来还是连续运行。 在切换上下文的时候,需要完成一系列的工作,这是一个很消耗资源的操作。 4.4.4 进程的阻塞 正在运行的进程由于提出系统服务请求(如 I/O 操作),但因为某种原因未得到操作系统的立即响应,该进程只能把自己变成阻塞状态,等待相应的事件出现后才被唤醒。 进程在阻塞状态不占用 CPU 资源。 4.4.5 文件描述符 FD Linux 系统将所有设备都当作文件来处理,而 Linux 用文件描述符来标识每个文件对象。 文件描述符(File Descriptor)是内核为了高效管理已被打开的文件所创建的索引,用于指向被打开的文件,所有执行 I/O 操作的系统调用都通过文件描述符;文件描述符是一个简单的非负整数,用以表明每个被进程打开的文件。 Linux 系统里面有三个标准文件描述符。 0:标准输入(键盘); 1:标准输出(显示器); 2:标准错误输出(显示器)。 4.4.6 传统 I/O 数据拷贝 以读操作为例: 当应用程序执行 read 系统调用读取文件描述符(FD)的时候,如果这块数据已经存在于用户进程的页内存中,就直接从内存中读取数据。如果数据不存在,则先将数据从磁盘加载数据到内核缓冲区中,再从内核缓冲区拷贝到用户进程的页内存中。(两次拷贝,两次 user 和 kernel 的上下文切换)。 I/O 的阻塞到底阻塞在哪里? 4.4.7 Blocking I/O 当使用 read 或 write 对某个文件描述符进行过读写时,如果当前 FD 不可读,系统就不会对其他的操作做出响应。从设备复制数据到内核缓冲区是阻塞的,从内核缓冲区拷贝到用户空间,也是阻塞的,直到 copy complete,内核返回结果,用户进程才解除 block 的状态。 为了解决阻塞的问题,我们有几个思路。 1、在服务端创建多个线程或者使用线程池,但是在高并发的情况下需要的线程会很多,系统无法承受,而且创建和释放线程都需要消耗资源。 2、由请求方定期轮询,在数据准备完毕后再从内核缓存缓冲区复制数据到用户空间 (非阻塞式 I/O),这种方式会存在一定的延迟。 能不能用一个线程处理多个客户端请求? 4.4.8 I/O 多路复用(I/O Multiplexing) I/O 指的是网络 I/O。 多路指的是多个 TCP 连接(Socket 或 Channel)。 复用指的是复用一个或多个线程。它的基本原理就是不再由应用程序自己监视连接,而是由内核替应用程序监视文件描述符。 客户端在操作的时候,会产生具有不同事件类型的 socket。在服务端,I/O 多路复用程序(I/O Multiplexing Module)会把消息放入队列中,然后通过文件事件分派器(File event Dispatcher),转发到不同的事件处理器中。 多路复用有很多的实现,以 select 为例,当用户进程调用了多路复用器,进程会被阻塞。内核会监视多路复用器负责的所有 socket,当任何一个 socket 的数据准备好了,多路复用器就会返回。这时候用户进程再调用 read 操作,把数据从内核缓冲区拷贝到用户空间。 所以,I/O 多路复用的特点是通过一种机制一个进程能同时等待多个文件描述符,而这些文件描述符(套接字描述符)其中的任意一个进入读就绪(readable)状态,select() 函数就可以返回。 Redis 的多路复用, 提供了 select, epoll, evport, kqueue 几种选择,在编译的时 候来选择一种。 evport 是 Solaris 系统内核提供支持的; epoll 是 LINUX 系统内核提供支持的; kqueue 是 Mac 系统提供支持的; select 是 POSIX 提供的,一般的操作系统都有支撑(保底方案); 源码 ae_epoll.c、ae_select.c、ae_kqueue.c、ae_evport.c 5、内存回收 Reids 所有的数据都是存储在内存中的,在某些情况下需要对占用的内存空间进行回 收。内存回收主要分为两类,一类是 key 过期,一类是内存使用达到上限(max_memory) 触发内存淘汰。 5.1 过期策略 要实现 key 过期,我们有几种思路。 5.1.1 定时过期(主动淘汰) 每个设置过期时间的 key 都需要创建一个定时器,到过期时间就会立即清除。该策略可以立即清除过期的数据,对内存很友好;但是会占用大量的 CPU 资源去处理过期的 数据,从而影响缓存的响应时间和吞吐量。 5.1.2 惰性过期(被动淘汰) 只有当访问一个 key 时,才会判断该 key 是否已过期,过期则清除。该策略可以最大化地节省 CPU 资源,却对内存非常不友好。极端情况可能出现大量的过期 key 没有再次被访问,从而不会被清除,占用大量内存。 例如 String,在 getCommand 里面会调用 expireIfNeeded server.c expireIfNeeded(redisDb db, robj key) 第二种情况,每次写入 key 时,发现内存不够,调用 activeExpireCycle 释放一部分内存。 expire.c activeExpireCycle(int type) 5.1.3 定期过期 源码:server.h typedef struct redisDb { dict dict; / 所有的键值对 /dict expires; / 设置了过期时间的键值对 /dict blocking_keys; dict ready_keys; dict watched_keys; int id;long long avg_ttl;list defrag_later; } redisDb; 每隔一定的时间,会扫描一定数量的数据库的 expires 字典中一定数量的 key,并清除其中已过期的 key。该策略是前两者的一个折中方案。通过调整定时扫描的时间间隔和每次扫描的限定耗时,可以在不同情况下使得 CPU 和内存资源达到最优的平衡效果。 Redis 中同时使用了惰性过期和定期过期两种过期策略。 5.2 淘汰策略 Redis 的内存淘汰策略,是指当内存使用达到最大内存极限时,需要使用淘汰算法来决定清理掉哪些数据,以保证新数据的存入。 5.2.1 最大内存设置 redis.conf 参数配置: maxmemory <bytes> 如果不设置 maxmemory 或者设置为 0,64 位系统不限制内存,32 位系统最多使用 3GB 内存。 动态修改: redis> config set maxmemory 2GB 到达最大内存以后怎么办? 5.2.2 淘汰策略 https://redis.io/topics/lru-cache redis.conf maxmemory-policy noeviction 先从算法来看: LRU,Least Recently Used:最近最少使用。判断最近被使用的时间,目前最远的数据优先被淘汰。 LFU,Least Frequently Used,最不常用,4.0 版本新增。 random,随机删除。 如果没有符合前提条件的 key 被淘汰,那么 volatile-lru、volatile-random、 volatile-ttl 相当于 noeviction(不做内存回收)。 动态修改淘汰策略: redis> config set maxmemory-policy volatile-lru 建议使用 volatile-lru,在保证正常服务的情况下,优先删除最近最少使用的 key。 5.2.3 LRU 淘汰原理 问题:如果基于传统 LRU 算法实现 Redis LRU 会有什么问题? 需要额外的数据结构存储,消耗内存。 Redis LRU 对传统的 LRU 算法进行了改良,通过随机采样来调整算法的精度。如果淘汰策略是 LRU,则根据配置的采样值 maxmemory_samples(默认是 5 个), 随机从数据库中选择 m 个 key, 淘汰其中热度最低的 key 对应的缓存数据。所以采样参数m配置的数值越大, 就越能精确的查找到待淘汰的缓存数据,但是也消耗更多的CPU计算,执行效率降低。 问题:如何找出热度最低的数据? Redis 中所有对象结构都有一个 lru 字段, 且使用了 unsigned 的低 24 位,这个字段用来记录对象的热度。对象被创建时会记录 lru 值。在被访问的时候也会更新 lru 的值。 但是不是获取系统当前的时间戳,而是设置为全局变量 server.lruclock 的值。 源码:server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; server.lruclock 的值怎么来的? Redis 中有个定时处理的函数 serverCron,默认每 100 毫秒调用函数 updateCachedTime 更新一次全局变量的 server.lruclock 的值,它记录的是当前 unix 时间戳。 源码:server.c void updateCachedTime(void) { time_t unixtime = time(NULL); atomicSet(server.unixtime,unixtime); server.mstime = mstime();struct tm tm; localtime_r(&server.unixtime,&tm);server.daylight_active = tm.tm_isdst; } 问题:为什么不获取精确的时间而是放在全局变量中?不会有延迟的问题吗? 这样函数 lookupKey 中更新数据的 lru 热度值时,就不用每次调用系统函数 time,可以提高执行效率。 OK,当对象里面已经有了 LRU 字段的值,就可以评估对象的热度了。 函数 estimateObjectIdleTime 评估指定对象的 lru 热度,思想就是对象的 lru 值和全局的 server.lruclock 的差值越大(越久没有得到更新),该对象热度越低。 源码 evict.c / Given an object returns the min number of milliseconds the object was never requested, using an approximated LRU algorithm. /unsigned long long estimateObjectIdleTime(robj o) {unsigned long long lruclock = LRU_CLOCK(); if (lruclock >= o->lru) {return (lruclock - o->lru) LRU_CLOCK_RESOLUTION; } else {return (lruclock + (LRU_CLOCK_MAX - o->lru)) LRU_CLOCK_RESOLUTION;} } server.lruclock 只有 24 位,按秒为单位来表示才能存储 194 天。当超过 24bit 能表 示的最大时间的时候,它会从头开始计算。 server.h define LRU_CLOCK_MAX ((1<<LRU_BITS)-1) / Max value of obj->lru / 在这种情况下,可能会出现对象的 lru 大于 server.lruclock 的情况,如果这种情况 出现那么就两个相加而不是相减来求最久的 key。 为什么不用常规的哈希表+双向链表的方式实现?需要额外的数据结构,消耗资源。而 Redis LRU 算法在 sample 为 10 的情况下,已经能接近传统 LRU 算法了。 问题:除了消耗资源之外,传统 LRU 还有什么问题? 如图,假设 A 在 10 秒内被访问了 5 次,而 B 在 10 秒内被访问了 3 次。因为 B 最后一次被访问的时间比 A 要晚,在同等的情况下,A 反而先被回收。 问题:要实现基于访问频率的淘汰机制,怎么做? 5.2.4 LFU server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; 当这 24 bits 用作 LFU 时,其被分为两部分: 高 16 位用来记录访问时间(单位为分钟,ldt,last decrement time) 低 8 位用来记录访问频率,简称 counter(logc,logistic counter) counter 是用基于概率的对数计数器实现的,8 位可以表示百万次的访问频率。 对象被读写的时候,lfu 的值会被更新。 db.c——lookupKey void updateLFU(robj val) {unsigned long counter = LFUDecrAndReturn(val); counter = LFULogIncr(counter);val->lru = (LFUGetTimeInMinutes()<<8) | counter;} 增长的速率由,lfu-log-factor 越大,counter 增长的越慢 redis.conf 配置文件。 lfu-log-factor 10 如果计数器只会递增不会递减,也不能体现对象的热度。没有被访问的时候,计数器怎么递减呢? 减少的值由衰减因子 lfu-decay-time(分钟)来控制,如果值是 1 的话,N 分钟没有访问就要减少 N。 redis.conf 配置文件 lfu-decay-time 1 6、持久化机制 https://redis.io/topics/persistence Redis 速度快,很大一部分原因是因为它所有的数据都存储在内存中。如果断电或者宕机,都会导致内存中的数据丢失。为了实现重启后数据不丢失,Redis 提供了两种持久化的方案,一种是 RDB 快照(Redis DataBase),一种是 AOF(Append Only File)。 6.1 RDB RDB 是 Redis 默认的持久化方案。当满足一定条件的时候,会把当前内存中的数据写入磁盘,生成一个快照文件 dump.rdb。Redis 重启会通过加载 dump.rdb 文件恢复数据。 什么时候写入 rdb 文件? 6.1.1 RDB 触发 1、自动触发 a)配置规则触发。 redis.conf, SNAPSHOTTING,其中定义了触发把数据保存到磁盘的触发频率。 如果不需要 RDB 方案,注释 save 或者配置成空字符串""。 save 900 1 900 秒内至少有一个 key 被修改(包括添加) save 300 10 400 秒内至少有 10 个 key 被修改save 60 10000 60 秒内至少有 10000 个 key 被修改 注意上面的配置是不冲突的,只要满足任意一个都会触发。 RDB 文件位置和目录: 文件路径,dir ./ 文件名称dbfilename dump.rdb 是否是LZF压缩rdb文件 rdbcompression yes 开启数据校验 rdbchecksum yes 问题:为什么停止 Redis 服务的时候没有 save,重启数据还在? RDB 还有两种触发方式: b)shutdown 触发,保证服务器正常关闭。 c)flushall,RDB 文件是空的,没什么意义(删掉 dump.rdb 演示一下)。 2、手动触发 如果我们需要重启服务或者迁移数据,这个时候就需要手动触 RDB 快照保存。Redis 提供了两条命令: a)save save 在生成快照的时候会阻塞当前 Redis 服务器, Redis 不能处理其他命令。如果内存中的数据比较多,会造成 Redis 长时间的阻塞。生产环境不建议使用这个命令。 为了解决这个问题,Redis 提供了第二种方式。 执行 bgsave 时,Redis 会在后台异步进行快照操作,快照同时还可以响应客户端请求。 具体操作是 Redis 进程执行 fork 操作创建子进程(copy-on-write),RDB 持久化过程由子进程负责,完成后自动结束。它不会记录 fork 之后后续的命令。阻塞只发生在 fork 阶段,一般时间很短。 用 lastsave 命令可以查看最近一次成功生成快照的时间。 6.1.2 RDB 数据的恢复(演示) 1、shutdown 持久化添加键值 添加键值 redis> set k1 1 redis> set k2 2 redis> set k3 3 redis> set k4 4 redis> set k5 5 停服务器,触发 save redis> shutdown 备份 dump.rdb 文件 cp dump.rdb dump.rdb.bak 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 啥都没有: redis> keys 3、通过备份文件恢复数据停服务器 redis> shutdown 重命名备份文件 mv dump.rdb.bak dump.rdb 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 查看数据 redis> keys 6.1.3 RDB 文件的优势和劣势 一、优势 1.RDB 是一个非常紧凑(compact)的文件,它保存了 redis 在某个时间点上的数据集。这种文件非常适合用于进行备份和灾难恢复。 2.生成 RDB 文件的时候,redis 主进程会 fork()一个子进程来处理所有保存工作,主进程不需要进行任何磁盘 IO 操作。 3.RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。 二、劣势 1、RDB 方式数据没办法做到实时持久化/秒级持久化。因为 bgsave 每次运行都要执行 fork 操作创建子进程,频繁执行成本过高。 2、在一定间隔时间做一次备份,所以如果 redis 意外 down 掉的话,就会丢失最后一次快照之后的所有修改(数据有丢失)。 如果数据相对来说比较重要,希望将损失降到最小,则可以使用 AOF 方式进行持久化。 6.2 AOF Append Only File AOF:Redis 默认不开启。AOF 采用日志的形式来记录每个写操作,并追加到文件中。开启后,执行更改 Redis 数据的命令时,就会把命令写入到 AOF 文件中。 Redis 重启时会根据日志文件的内容把写指令从前到后执行一次以完成数据的恢复工作。 6.2.1 AOF 配置 配置文件 redis.conf 开关appendonly no 文件名appendfilename "appendonly.aof" AOF 文件的内容(vim 查看): 问题:数据都是实时持久化到磁盘吗? 由于操作系统的缓存机制,AOF 数据并没有真正地写入硬盘,而是进入了系统的硬盘缓存。什么时候把缓冲区的内容写入到 AOF 文件? 问题:文件越来越大,怎么办? 由于 AOF 持久化是 Redis 不断将写命令记录到 AOF 文件中,随着 Redis 不断的进行,AOF 的文件会越来越大,文件越大,占用服务器内存越大以及 AOF 恢复要求时间越长。 例如 set xxx 666,执行 1000 次,结果都是 xxx=666。 为了解决这个问题,Redis 新增了重写机制,当 AOF 文件的大小超过所设定的阈值时,Redis 就会启动 AOF 文件的内容压缩,只保留可以恢复数据的最小指令集。 可以使用命令 bgrewriteaof 来重写。 AOF 文件重写并不是对原文件进行重新整理,而是直接读取服务器现有的键值对,然后用一条命令去代替之前记录这个键值对的多条命令,生成一个新的文件后去替换原来的 AOF 文件。 重写触发机制 auto-aof-rewrite-percentage 100 auto-aof-rewrite-min-size 64mb 问题:重写过程中,AOF 文件被更改了怎么办? 另外有两个与 AOF 相关的参数: 6.2.2 AOF 数据恢复 重启 Redis 之后就会进行 AOF 文件的恢复。 6.2.3 AOF 优势与劣势 优点: 1、AOF 持久化的方法提供了多种的同步频率,即使使用默认的同步频率每秒同步一次,Redis 最多也就丢失 1 秒的数据而已。 缺点: 1、对于具有相同数据的的 Redis,AOF 文件通常会比 RDB 文件体积更大(RDB 存的是数据快照)。 2、虽然 AOF 提供了多种同步的频率,默认情况下,每秒同步一次的频率也具有较高的性能。在高并发的情况下,RDB 比 AOF 具好更好的性能保证。 6.3 两种方案比较 那么对于 AOF 和 RDB 两种持久化方式,我们应该如何选择呢? 如果可以忍受一小段时间内数据的丢失,毫无疑问使用 RDB 是最好的,定时生成 RDB 快照(snapshot)非常便于进行数据库备份, 并且 RDB 恢复数据集的速度也要比 AOF 恢复的速度要快。 否则就使用 AOF 重写。但是一般情况下建议不要单独使用某一种持久化机制,而是应该两种一起用,在这种情况下,当 redis 重启的时候会优先载入 AOF 文件来恢复原始的数据,因为在通常情况下 AOF 文件保存的数据集要比 RDB 文件保存的数据集要完整。 本篇文章为转载内容。原文链接:https://blog.csdn.net/zhoutaochun/article/details/120075092。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2024-03-18 12:25:04
541
转载
转载文章
...,我们可以进一步探索数据库分页技术的最新发展和优化策略。近年来,随着大数据应用的普及,对于海量数据的高效分页展示需求日益凸显。例如,在2023年,MySQL 8.0版本对LIMIT的性能优化进行了重大改进,通过增强索引排序和查询优化器的智能分析,显著减少了大表分页查询时的延迟。 此外,针对分页查询可能导致的性能瓶颈问题,许多开发者和数据库专家提出了新的解决方案,如利用覆盖索引避免回表操作、使用内存表或临时表存储中间结果以提升效率、结合缓存机制减少数据库访问压力等。 同时,现代Web应用中的无限滚动加载(Infinite Scroll)模式也对分页查询提出了新的挑战。为了实现无缝的数据加载体验,一些前沿的技术方案采用了“分段查询”配合前端动态渲染的方式,替代传统的静态分页,有效减轻了数据库的压力,并提升了用户体验。 综上所述,MySQL的LIMIT关键字是实现分页查询的基础工具,但面对大规模数据处理和复杂的用户交互场景,我们需要不断跟进最新的数据库优化技术和设计理念,才能确保系统的稳定性和响应速度。而随着数据库技术的持续演进,诸如OFFSET关键字的替代方案以及云原生环境下的分布式数据库分页策略等前沿话题,都值得我们关注并深入研究。
2023-10-29 14:04:02
647
转载
MySQL
...况后,进一步深入探讨数据库性能优化和内存管理的重要性显得尤为关键。近期,随着数据量的爆炸性增长,许多企业级应用开始面临数据库响应速度下降的问题,其中内存管理和有效利用虚拟内存成为解决这一问题的核心策略之一。 2022年,Oracle官方发布的MySQL 8.0版本中,对内存管理机制进行了大幅优化升级,引入了一系列新特性,如改进的查询缓存策略、更精细的内存分配控制以及智能内存压缩技术等,使得MySQL能够更高效地在物理内存与虚拟内存之间进行切换,极大提升了大容量数据处理时的性能表现。 同时,业界专家建议,在系统层面合理配置交换空间大小以支持MySQL虚拟内存需求,并结合监控工具实时分析MySQL及其所在服务器的内存使用状况,以便及时发现并调整潜在的内存瓶颈。例如,通过定期审查query_cache_size等关键参数,根据实际业务负载动态调整其值,避免无谓的内存浪费或过度依赖虚拟内存导致性能下滑。 此外,对于大型分布式数据库系统而言,采用内存计算、混合存储架构以及先进的内存池技术也是提升数据库整体性能的有效手段。比如,阿里云自主研发的PolarDB-X数据库产品,就借助了智能内存管理和分布式缓存技术,实现了对大规模数据访问场景下虚拟内存使用的深度优化,从而确保了服务端的稳定高效运行。 综上所述,掌握MySQL虚拟内存查看方法仅仅是性能调优的第一步,了解并运用最新的内存管理技术、紧跟数据库发展趋势,才能更好地应对大数据时代带来的挑战,确保数据库系统的高性能、高可用与可扩展性。
2023-03-15 10:31:00
95
程序媛
PostgreSQL
在当今的大数据时代,SQL 查询优化不仅是数据库管理的基础技能,也是提升系统性能的关键环节。最近,一家知名电商公司通过优化 SQL 查询大幅提升了系统响应速度,节省了大量服务器资源。该公司原先的查询语句在处理大规模数据时,由于多次连接操作,导致查询效率低下。经过团队的技术攻关,他们采用了一种更为高效的连接策略,将原本需要两次查询的操作合并为一次,显著减少了数据库的负载。此外,他们还引入了缓存机制,对频繁访问的数据进行预加载,进一步提升了系统的整体性能。 这一案例不仅展示了SQL优化的实际效果,也为其他企业在面对类似问题时提供了宝贵的经验。除了技术手段之外,企业还需要培养一支具备深厚SQL知识和技术背景的专业团队,以便在遇到复杂问题时能够迅速找到解决方案。随着云计算和大数据技术的不断发展,SQL查询优化的重要性将会日益凸显。未来,企业和开发者们需要不断学习和探索新的优化方法,以适应日新月异的技术环境。 此外,许多数据库专家和学者也在不断研究新的SQL优化技术,比如使用机器学习算法自动优化查询计划,以及利用分布式计算框架来加速数据处理。这些新技术有望在未来几年内广泛应用于各大企业和组织,帮助它们更好地应对海量数据带来的挑战。通过持续的技术创新和实践,我们可以期待数据库查询优化领域将迎来更多的突破和发展。
2025-03-06 16:20:34
54
林中小径_
Kibana
...scover页面加载数据性能问题的同时,实时掌握Elasticsearch和Kibana的最新进展和技术动态也至关重要。近期,Elastic公司发布了Elasticsearch 7.16版本,其中包含一系列对查询性能优化的关键改进,如更高效的索引排序算法、增强的缓存机制以及对分布式执行计划的精细控制,这些都将有助于改善Discover页面的数据加载速度。 同时,Kibana也在其最新的8.x系列中引入了智能采样功能,该功能可以在不影响分析结果的前提下,大幅度减少需要从Elasticsearch检索的数据量,对于处理大规模数据时显著提升Discover页面的响应速度。此外,官方文档提供了详尽的调优指南和最佳实践,建议用户结合实际场景进行深入学习和应用。 值得一提的是,在实际运维过程中,除了软件层面的优化,硬件配置和网络环境同样对Elasticsearch集群性能有直接影响。例如,采用SSD存储而非HDD可以有效缩短I/O延迟,而部署在低延迟、高带宽的网络环境下,则能够降低网络传输对查询响应时间的影响。 综上所述,持续关注技术发展动态并结合实际情况采取多维度优化策略,是确保Kibana Discover页面高效加载数据、提升大数据分析体验的重要手段。而对于企业级用户而言,借助专业服务团队进行深度调优与架构设计,将更好地应对复杂业务场景下的性能挑战。
2023-08-21 15:24:10
298
醉卧沙场
Kibana
...na里常见的问题——数据表中某些单元格内的排序功能失效了。这事儿真让我伤脑筋,因为Kibana可是我日常工作里分析和展示数据的好帮手呢。每次我瞅着仪表板,发现那些数据表里的字段乱糟糟的,没法好好排个序,心里就特不是滋味。尤其是当我需要快速找出特定模式的数据时,这简直是雪上加霜。 那么,为什么会出现这种问题呢?首先,让我们来梳理一下可能的原因。通常来说,排序功能失效可能是由于以下几个原因造成的: - 数据类型不匹配:Kibana默认会对字段进行类型推断,但有时可能会出现误判。例如,如果一个数值字段被错误地识别为字符串,那么它的排序功能自然就会失效。 - 索引配置问题:有时候,数据索引的设置不当也会影响排序功能。要是索引模板没配好,或者字段映射出了问题,Kibana 可能就会搞不定那些数据了。 - 缓存问题:Kibana的缓存机制有时候也会导致一些问题。要是你最近调整了索引或者字段设置,但缓存没来得及刷新,那排序功能可能就会出问题了。 - 版本兼容性问题:不同版本的Elasticsearch和Kibana之间可能存在兼容性问题。要是这些组件的版本不搭调,可能会冒出些意外的小状况,比如说排序功能可能就不好使了。 接下来,我们就要开始动手解决这个问题了。让我们一步步来排查吧! 2. 检查数据类型 首先,我们需要检查数据表中的字段是否都是正确的数据类型。打开Kibana的Dev Tools界面,输入以下代码,查看某个字段的数据类型: json GET /your_index_name/_mapping/field/your_field_name 假设你的索引名为logs,而你想检查的字段名为timestamp,你可以这样写: json GET /logs/_mapping/field/timestamp 这段代码会返回字段的详细信息,包括其数据类型。要是字段的数据类型不匹配,你可能得重新搞一遍索引,或者自己动手调整字段映射了。 3. 调整索引配置 如果数据类型没问题,那我们就得看看索引配置是否有问题。进入Kibana的Management页面,找到Index Management选项,选择对应的索引,然后点击Settings标签。在这儿,你可以看看索引的设置,确认所有的字段都按计划映射好了。 如果发现问题,可以尝试重新创建索引并重新加载数据。当然,这一步骤比较繁琐,最好在测试环境中先验证一下。 4. 清除缓存 清除缓存也是个好办法。回到Kibana的Management页面,找到Advanced Settings选项。在这里,你可以清除Kibana的缓存。虽然这不一定能立马搞定问题,但有时候缓存出状况了,真会让你摸不着头脑。所以,不妨抱有希望地试着清理一下缓存? 5. 版本兼容性检查 最后,我们还需要确认使用的Elasticsearch和Kibana版本是否兼容。你可以访问Elastic的官方文档,查找当前版本的兼容性矩阵。如果发现版本不匹配,建议升级到最新的稳定版本。 6. 总结与反思 通过这一系列的操作,我们应该能够找出并解决数据表中某些单元格内排序功能失效的问题。在这个过程中,我也深刻体会到,任何一个小细节都可能导致大问题。因此,在使用Kibana进行数据分析时,一定要注意每一个环节的配置和设置。 如果你遇到类似的问题,不要灰心,多尝试,多排查,相信总能找到解决办法。希望我的分享能对你有所帮助!
2025-01-08 16:26:06
82
时光倒流
Apache Solr
...进 1. 引言 在大数据时代,信息检索的效率和准确性显得至关重要。Apache Solr,这可是个基于Lucene的大咖级全文搜索引擎工具,在业界那可是响当当的。它凭借着超级给力的性能、无比灵活的扩展性和让人拍案叫绝的实时搜索功能,赢得了大家伙儿的一致点赞和热烈追捧。这篇文咱们要接地气地聊聊Solr的实时搜索功能,我打算手把手地带你通过一些实际的代码案例,揭秘它是怎么一步步实现的。而且,咱还会一起脑暴一下,探讨如何把它磨得更锋利,也就是提升其性能的各种优化小窍门,敬请期待! 2. Apache Solr实时搜索功能初体验 实时搜索是Solr的一大亮点,它允许用户在数据更新后几乎立即进行查询,无需等待索引刷新。这一特性在新闻资讯、电商产品搜索等场景下尤为实用。比如,当一篇崭新的博客文章刚刚出炉,或者一个新产品热乎乎地上架时,用户就能在短短几秒钟内,通过输入关键词,像变魔术一样找到它们。 java // 假设我们有一个Solr客户端实例solrClient SolrInputDocument doc = new SolrInputDocument(); doc.addField("id", "unique_id"); doc.addField("title", "Real-Time Search with Apache Solr"); doc.addField("content", "This article explores the real-time search capabilities..."); UpdateResponse response = solrClient.add(doc); solrClient.commit(); // 提交更改,实现实时搜索 上述代码展示了如何向Solr添加一个新的文档并立即生效,实现了实时搜索的基本流程。 3. Solr实时搜索背后的原理 Solr的实时搜索主要依赖于Near Real-Time (NRT)搜索机制,即在文档被索引后,虽然不会立即写入硬盘,但会立刻更新内存中的索引结构,使得新数据可以迅速被搜索到。这个过程中,Solr巧妙地平衡了索引速度和搜索响应时间。 4. 实时搜索功能的优化与改进 尽管Solr的实时搜索功能强大,但在大规模数据处理中,仍需关注性能调优问题。以下是一些可能的改进措施: (1)合理配置UpdateLog Solr的NRT搜索使用UpdateLog来跟踪未提交的更新。你晓得不,咱们可以通过在solrconfig.xml这个配置文件里头动动手脚,调整一下那个updateLog参数,这样一来,就能灵活把控日志的大小和滚动规则了。这样做主要是为了应对各种不同的实时性需求,同时也能考虑到系统资源的实际限制,让整个系统运作起来更顺畅、更接地气儿。 xml ${solr.ulog.dir:} 5000 ... (2)利用软硬件优化 使用更快的存储设备(如SSD),增加内存容量,或者采用分布式部署方式,都可以显著提升Solr的实时搜索性能。 (3)智能缓存策略 Solr提供了丰富的查询缓存机制,如过滤器缓存、文档值缓存等,合理设置这些缓存策略,能有效减少对底层索引的访问频率,提高实时搜索性能。 (4)并发控制与批量提交 对于大量频繁的小规模更新,可以考虑适当合并更新请求,进行批量提交,既能减轻服务器压力,又能降低因频繁提交导致的I/O开销。 结语:Apache Solr的实时搜索功能为用户提供了一种高效、便捷的数据检索手段。然而,要想最大化发挥其效能,还需根据实际业务场景灵活运用各项优化策略。在这个过程中,技术人的思考、探索与实践,如同绘制一幅精准而生动的信息地图,让海量数据的价值得以快速呈现。
2023-07-27 17:26:06
451
雪落无痕
Kylin
... , 列式存储是一种数据存储方式,特别适用于大数据分析场景。不同于传统的关系型数据库按行存储数据(即一行内的所有字段数据连续存放),列式存储将数据按照列进行组织和存储,同一列的数据会被聚集在一起。在Kylin中采用列式存储有助于提高查询效率,特别是对于只涉及部分列的分析操作,只需要读取相关列的数据,大幅减少I/O开销,并能高效利用CPU缓存。 Cube构建 , 在Apache Kylin中,Cube是预计算模型的核心概念,它通过对原始数据集进行预聚合,将多维度组合下的复杂查询转化为对预计算结果的快速检索。Cube构建过程是指根据用户定义的维度、度量以及层级关系,对源数据进行ETL处理后,生成并持久化这些预计算结果的过程,旨在提升大规模数据分析时的查询响应速度。 多维数据建模 , 多维数据建模是OLAP(在线分析处理)系统中的核心方法,用于描述和组织业务数据以支持复杂的分析查询。在Kylin中,多维数据建模通常包括定义维度(如时间、地区、产品等)、度量(如销售额、访问量等)及它们之间的层次关系,形成一个多维立方体结构(即Cube)。这种模型便于用户从不同角度、不同粒度对数据进行深入分析与挖掘,实现灵活且高效的商业智能应用。
2023-02-19 17:47:55
129
海阔天空-t
Golang
...的加速,企业对高性能数据库的需求日益增长。特别是在云计算和大数据背景下,数据库的性能和稳定性成为了企业关注的重点。最近,一项由知名科技研究机构发布的报告显示,越来越多的企业开始采用基于Go语言的解决方案来优化数据库访问性能。这项研究指出,Go语言凭借其轻量级线程(goroutines)、高效的并发处理能力和较低的内存占用,成为构建高性能数据库应用的理想选择。 例如,某大型电商平台在迁移到Go语言后,其数据库查询速度提升了近30%,整体系统响应时间缩短了20%。这一改进不仅提高了用户体验,也显著降低了服务器成本。此外,该平台还采用了先进的缓存策略和索引优化技术,进一步提升了系统的吞吐量和稳定性。 另一家金融公司则通过引入Go语言和Gorm ORM框架,成功实现了复杂交易系统的重构。该公司报告称,在引入Go语言后,其交易处理速度提升了40%,同时由于Go语言的垃圾回收机制,系统内存使用率降低了约15%。这些改进不仅提升了公司的市场竞争力,也为其未来的业务扩展打下了坚实的基础。 由此可见,无论是电商还是金融行业,Go语言及其相关技术在提升数据库性能和系统稳定性方面展现出了巨大的潜力。未来,随着更多企业的加入,我们有望看到更多基于Go语言的创新解决方案涌现出来,共同推动整个行业的进步和发展。
2024-10-21 15:42:48
78
百转千回
MemCache
...性能、分布式内存对象缓存系统,用于缓解数据库负载,提升动态Web应用的性能。它通过暂时存储经常访问的数据(如数据库查询结果)在内存中,使得后续请求可以直接从内存读取数据,极大地减少了对持久化存储层(如硬盘上的数据库)的访问次数,从而提高了系统的响应速度。 Chunk , 在MemCache内部存储机制中,chunk是指预先分配的一块固定大小的内存空间,默认大小为1MB。当需要存储的数据项(value)大于一个chunk的容量时,MemCache会尝试将其分割成多个chunks进行存储。如果value过大无法放入单个chunk,则会抛出“Value too large to be stored in a single chunk”的错误。 数据压缩 , 数据压缩是在计算机科学中一种减少数据量以节省存储空间或提高传输效率的技术。在本文上下文中,针对MemCache存储值过大的问题,通过使用Gzip等压缩算法,可以将原始数据转换成更紧凑的形式,在不改变其内容的情况下减小其体积,使其能适应MemCache的chunk大小限制,成功存储到缓存中。
2023-06-12 16:06:00
50
清风徐来
Impala
...以轻松地处理大规模的数据集。不过,你可能心里正嘀咕呢:“这玩意儿查询速度到底快不快啊?”别急,本文这就给你揭开Impala查询性能的神秘面纱,而且还会附赠一些超实用的优化小窍门,包你看了以后豁然开朗! 什么是Impala? Impala是由Cloudera公司开发的一种开源分布式SQL查询引擎。它的目标是既能展现出媲美商业数据库的强大性能,又能紧紧握住开放源代码带来的灵活与可扩展性优势。就像是想要一个既有大牌实力,又具备DIY自由度的“数据库神器”一样。Impala可以运行在Hadoop集群上,利用MapReduce进行数据分析和查询操作。 Impala的查询性能特点 Impala的设计目标是在大规模数据集上提供高性能的查询。为了达到这个目标,Impala采用了许多独特的技术和优化策略。以下是其中的一些特点: 基于内存的计算:Impala的所有计算都在内存中完成,这大大提高了查询速度。跟那些老式批处理系统可不一样,Impala能在几秒钟内就把查询给搞定了,哪还需要等个几分钟甚至更久的时间! 多线程执行:Impala采用多线程执行查询,可以充分利用多核CPU的优势。每个线程都会独立地处理一部分数据,然后将结果合并在一起。 列式存储:Impala使用列式存储方式,可以显著减少I/O操作,提高查询性能。在列式存储中,每行数据都是一个列块,而不是一个完整的记录。这就意味着,当你在查询时只挑了部分列,Impala这个小机灵鬼就会聪明地只去读取那些被你点名的列所在的区块,压根儿不用浪费时间去翻看整条记录。 高速缓存:Impala有一个内置的查询缓存机制,可以将经常使用的查询结果缓存起来,减少不必要的计算。此外,Impala还可以利用Hadoop的内存管理机制,将结果缓存在HDFS上。 这些特点使Impala能够在大数据环境中提供卓越的查询性能。其实吧,实际情况是这样的,性能到底怎么样,得看多个因素的脸色。就好比硬件配置啦,查询的复杂程度啦,还有数据分布什么的,这些家伙都对最终的表现有着举足轻重的影响呢! 如何优化Impala查询性能? 虽然Impala已经非常强大,但是仍然有一些方法可以进一步提高其查询性能。以下是一些常见的优化技巧: 合理设计查询语句:首先,你需要确保你的查询语句是最优的。这通常就是说,咱得尽量避开那个费时费力的全表扫一遍的大动作,学会巧妙地利用索引这个神器,还有啊,JOIN操作也得玩得溜,用得恰到好处才行。如果你不确定如何编写最优的查询语句,可以尝试使用Impala自带的优化器。 调整资源设置:Impala的性能受到许多资源因素的影响,如内存、CPU、磁盘等。你可以通过调整这些参数来优化查询性能。比如说,你完全可以尝试给Impala喂饱更多的内存,或者把更重的计算任务分配给那些运算速度飞快的核心CPU,就像让短跑健将去跑更重要的赛段一样。 使用分区:分区是一种有效的方法,可以将大型表分割成较小的部分,从而提高查询性能。你知道吗,通过给数据分区这么一个操作,你就能把它们分散存到多个不同的硬件设备上。这样一来,当你需要查找信息的时候,效率嗖嗖地提升,就像在图书馆分门别类放书一样,找起来又快又准! 缓存查询结果:Impala有一个内置的查询缓存机制,可以将经常使用的查询结果缓存起来,减少不必要的计算。此外,Impala还可以利用Hadoop的内存管理机制,将结果缓存在HDFS上。 以上只是优化Impala查询性能的一小部分方法。实际上,还有很多其他的技术和工具可以帮助你提高查询性能。关键在于,你得像了解自家后院一样熟悉你的数据和工作负载,这样才能做出最棒、最合适的决策。 总结 Impala是一种强大的查询工具,能够在大数据环境中提供卓越的查询性能。如果你想让你的Impala查询速度嗖嗖提升,这里有几个小妙招可以试试:首先,设计查询时要够精明合理,别让它成为拖慢速度的小尾巴;其次,灵活调整资源分配,确保每一份计算力都用在刀刃上;最后,巧妙运用分区功能,让数据查找和处理变得更加高效。这样一来,你的Impala就能跑得飞快啦!最后,千万记住这事儿啊,你得像了解自家的后花园一样深入了解你的数据和工作负载,这样才能够做出最棒、最合适的决策,一点儿都不含糊。
2023-03-25 22:18:41
486
凌波微步-t
MemCache
...mCache服务器的数据持久化问题探讨:数据丢失的挑战与解决方案 1. 引言 Memcached,这个我们熟悉的高性能、分布式内存对象缓存系统,在Web应用程序中扮演着关键角色,它能极大地提升动态Web应用的性能和可扩展性。不过,你知道吗?Memcached这家伙可纯粹是个临时记忆库,它并不支持数据长期存储这功能。也就是说,一旦服务器打了个盹(重启)或者撂挑子不干了(崩溃),那存放在它脑瓜子里的所有数据,就会瞬间蒸发得无影无踪。这就是咱们今天要重点唠一唠的话题——聊聊Memcached的数据丢失那些事儿。 2. Memcached的数据特性与潜在风险 (1)内存缓存与数据丢失 Memcached的设计初衷是提供临时性的高速数据访问服务,所有的数据都存储在内存中,而非硬盘上。这就意味着,如果突然出现个意外状况,比如系统崩溃啦,或者我们有意为之的重启操作,那内存里暂存的数据就无法原地待命了,会直接消失不见,这样一来,就难免会遇到数据丢失的麻烦喽。 python import memcache mc = memcache.Client(['localhost:11211'], debug=0) mc.set('key', 'value') 将数据存入Memcached 假设此时服务器突然宕机,'key'对应的'value'在重启后将不复存在 (2)业务场景下的影响 对于一些对数据实时性要求较高但又允许一定时间内数据短暂缺失的场景,如用户会话信息、热点新闻等,Memcached的数据丢失可能带来的影响相对有限。不过,在有些场景下,我们需要长期确保数据的一致性,比如你网购时的购物车信息、积分累计记录这些情况。万一这种数据丢失了,那可能就会影响你的使用体验,严重的话,甚至会引发一些让人头疼的业务逻辑问题。 3. 面对数据丢失的应对策略 (1)备份与恢复方案 虽然Memcached本身不具备数据持久化的功能,但我们可以通过其他方式间接实现数据的持久化。例如,可以定期将Memcached中的数据备份到数据库或其他持久化存储中: python 假设有一个从Memcached获取并持久化数据到MySQL的过程 def backup_to_mysql(): all_items = mc.get_multi(mc.keys()) for key, value in all_items.items(): save_to_mysql(key, value) 自定义保存到MySQL的函数 (2)组合使用Redis等具备持久化的缓存系统 另一个可行的方案是结合使用Redis等既具有高速缓存特性和又能持久化数据的系统。Redis不仅可以提供类似Memcached的内存缓存服务,还支持RDB和AOF两种持久化机制,能在一定程度上解决数据丢失的问题。 python import redis r = redis.Redis(host='localhost', port=6379, db=0) r.set('key', 'value') 在Redis中设置键值对,即使服务器重启,数据也能通过持久化机制得以恢复 (3)架构层面优化 在大型分布式系统中,可以通过设计冗余和分布式存储策略来降低单点故障带来的影响。比如,我们可以像搭积木那样部署多个Memcached实例,然后用一致性哈希这类聪明的算法给它们分配工作量和切分数据块。这样不仅能确保整体负载均衡,还能保证每一份数据都有好几个备份,分别存放在不同的节点上,就像把鸡蛋放在不同的篮子里一样,安全又可靠。 4. 结语 人类视角的理解与思考 面对Memcached数据丢失的问题,开发者们不能止步于理解其原理,更应积极寻求有效的应对策略。这就像生活中我们对待易逝的事物,尽管明白“天下无不散之筵席”,但我们依然会拍照留念、撰写日记,以期留住美好瞬间。同样,在我们使用Memcached这玩意儿的时候,也得充分了解它的脾性,借助一些巧妙的技术手段和设计架构,让数据既能痛快地享受高速缓存带来的速度福利,又能机智地避开数据丢失的坑。只有这样,我们的系统才能在效率与可靠性之间取得最佳平衡,更好地服务于业务需求。
2023-05-22 18:41:39
83
月影清风
Dubbo
...的API、丰富的插件机制以及强大的性能表现而备受青睐。本文将围绕Dubbo的性能优化展开讨论,分享实际应用中的经验和技巧,旨在帮助开发者在构建分布式服务时,能够更高效地利用Dubbo,提升系统整体性能。 二、Dubbo基础概览 Dubbo的核心功能包括远程调用、服务注册与发现、负载均衡等,它支持多种通信协议,并且提供了一套完整的开发框架。哎呀,用Dubbo开发啊?那可得好好琢磨琢磨!首先,得想想怎么合理地给服务器和客户端搭桥铺路,就像给好朋友之间搭建方便沟通的桥梁一样。别让信息传得慢吞吞的,还得考虑怎么优化服务,就像给跑车换上更轻便、更给力的引擎,让性能飙起来!毕竟,谁都不想自己的程序像蜗牛一样爬行吧?所以,得花点心思在这上面,让用户体验嗖的一下就上去了! 三、性能优化策略 1. 网络层优化 - 减少网络延迟:通过减少数据包大小、优化编码方式、使用缓存机制等方式降低网络传输的开销。 - 选择合适的网络协议:根据实际应用场景选择HTTP、TCP或其他协议,HTTP可能在某些场景下提供更好的性能和稳定性。 2. 缓存机制 - 服务缓存:利用Dubbo的本地缓存或第三方缓存如Redis,减少对远程服务的访问频率,提高响应速度。 - 结果缓存:对于经常重复计算的结果,可以考虑将其缓存起来,避免重复计算带来的性能损耗。 3. 负载均衡策略 - 动态调整:根据服务的负载情况,动态调整路由规则,优先将请求分发给负载较低的服务实例。 - 健康检查:定期检查服务实例的健康状态,剔除不可用的服务,确保请求始终被转发到健康的服务上。 4. 参数优化 - 调优配置:合理设置Dubbo的相关参数,如超时时间、重试次数、序列化方式等,以适应不同的业务需求。 - 并发控制:通过合理的线程池配置和异步调用机制,有效管理并发请求,避免资源瓶颈。 四、实战案例 案例一:服务缓存实现 java // 配置本地缓存 @Reference private MyService myService; public void doSomething() { // 获取缓存,若无则从远程调用获取并缓存 String result = cache.get("myKey", () -> myService.doSomething()); System.out.println("Cache hit/miss: " + (result != null ? "hit" : "miss")); } 案例二:动态负载均衡 java // 创建负载均衡器实例 LoadBalance loadBalance = new RoundRobinLoadBalance(); // 配置服务列表 List serviceUrls = Arrays.asList("service1://localhost:8080", "service2://localhost:8081"); // 动态选择服务实例 String targetUrl = loadBalance.choose(serviceUrls); MyService myService = new RpcReference(targetUrl); 五、总结与展望 通过上述的实践分享,我们可以看到,Dubbo的性能优化并非一蹴而就,而是需要在实际项目中不断探索和调整。哎呀,兄弟,这事儿啊,关键就是得会玩转Dubbo的各种酷炫功能,然后结合你手头的业务场景,好好打磨打磨那些参数,让它发挥出最佳状态。就像是调酒师调鸡尾酒,得看人下菜,看场景定参数,这样才能让产品既符合大众口味,又能彰显个性特色。哎呀,你猜怎么着?Dubbo这个大宝贝儿,它一直在努力学习新技能,提升自己呢!就像咱们人一样,技术更新换代快,它得跟上节奏,对吧?所以,未来的它呀,肯定能给咱们带来更多简单好用,性能超棒的功能!这不就是咱们开发小能手的梦想嘛——搭建一个既稳当又高效的分布式系统?想想都让人激动呢! 结语 在分布式系统构建的过程中,性能优化是一个持续的过程,需要开发者具备深入的理解和技术敏感度。嘿!小伙伴们,如果你是Dubbo的忠实用户或者是打算加入Dubbo大家庭的新手,这篇文章可是为你量身打造的!我们在这里分享了一些实用的技巧和深刻的理解,希望能激发你的灵感,让你在使用Dubbo的过程中更得心应手,共同创造分布式系统那片美丽的天空。快来一起探索,一起成长吧!
2024-07-25 00:34:28
410
百转千回
Impala
Impala与大数据量处理挑战:深度解析与实例探讨 1. 引言 在当今的大数据世界里,Impala作为一款基于Hadoop的开源MPP(大规模并行处理)SQL查询引擎,因其对HDFS和HBase的支持以及高效的交互式查询能力而广受青睐。然而,在面对大数据量的处理场景时,Impala的表现并不总是尽如人意。在这篇文章里,我们要好好掰扯一下Impala在对付海量数据时可能遇到的那些头疼问题。咱不仅会通过实际的代码实例,抽丝剥茧地找出问题背后的秘密,还会带着咱们作为探索者的人性化视角和情感化的思考过程,一起走进这场大数据的冒险之旅。 2. Impala的基本原理与优势 首先,让我们回顾一下Impala的设计理念。你知道Impala吗?这家伙可厉害了,它采用了超级酷炫的分布式架构设计,可以直接从HDFS或者HBase这些大数据仓库里拽出数据来用,完全不需要像传统那样繁琐地进行ETL数据清洗和转化过程。这样一来,你就能享受到飞一般的速度和超低的查询延迟,轻轻松松实现SQL查询啦!这全靠它那个聪明绝顶的查询优化器和咱们亲手用C++编写的执行引擎,让你能够瞬间对海量数据进行各种复杂的分析操作,就像在现实生活中实时互动一样流畅。 sql -- 示例:使用Impala查询HDFS上的表数据 USE my_database; SELECT FROM large_table WHERE column_a = 'value'; 3. Impala在大数据量下的性能瓶颈 然而,尽管Impala具有诸多优点,但在处理超大数据集时,它却可能面临以下挑战: - 内存资源限制:Impala在处理大量数据时严重依赖内存。当Impala Daemon的内存不够用,无法承载更多的工作负载时,就可能会引发频繁的磁盘数据交换(I/O操作),这样一来,查询速度可就要大打折扣啦,明显慢下来不少。例如,如果一个大型JOIN操作无法完全装入内存,就可能引发此类问题。 sql -- 示例:假设两个大表join操作超出内存限制 SELECT a., b. FROM large_table_a AS a JOIN large_table_b AS b ON a.key = b.key; - 分区策略与数据分布:Impala的性能也受到表分区策略的影响。假如数据分布得不够均匀,或者咱们分区的方法没整对,就很可能让部分节点“压力山大”,这样一来,整体查询速度也跟着“掉链子”啦。 - 并发查询管理:在高并发查询环境下,Impala的资源调度机制也可能成为制约因素。特别是在处理海量数据的时候,大量的同时请求可能会把集群资源挤得够呛,这样一来,查询响应的速度就难免会受到拖累了。 4. 针对性优化措施与思考 面对以上挑战,我们可以采取如下策略来改善Impala处理大数据的能力: - 合理配置硬件资源:根据实际业务需求,为Impala集群增加更多的内存资源,确保其能够有效应对大数据量的查询任务。 - 优化分区策略:对于大数据表,采用合适的分区策略(如范围分区、哈希分区等),保证数据在集群中的均衡分布,减少热点问题。 - 调整并发控制参数:根据集群规模和业务特性,合理设置Impala的并发查询参数(如impalad.memory.limit、query.max-runtime等),以平衡系统资源分配。 - 数据预处理与缓存:对于经常访问的热数据,可以考虑进行适当的预处理和缓存,减轻Impala的在线处理压力。 综上所述,虽然Impala在处理大数据量时存在一定的局限性,但通过深入了解其内在工作机制,结合实际业务需求进行有针对性的优化,我们完全可以将其打造成高效的数据查询利器。在这个过程中,我们实实在在地感受到了人类智慧在挑战技术极限时的那股冲劲儿,同时,也亲眼目睹了科技与挑战之间一场永不停歇、像打乒乓球一样的精彩博弈。 结语 技术的发展总是在不断解决问题的过程中前行,Impala在大数据处理领域的挑战同样推动着我们在实践中去挖掘其潜力,寻求更优解。今后,随着软硬件技术的不断升级和突破,我们完全可以满怀信心地期待,Impala会在处理大数据这个大难题上更上一层楼,为大家带来更加惊艳、无可挑剔的服务体验。
2023-11-16 09:10:53
783
雪落无痕
MemCache
...于Web应用程序中的缓存处理,以提高网站性能。然而,在实际应用过程中,我们可能会遇到Memcached进程占用CPU过高的问题。这不仅会影响系统的运行效率,还可能引发一系列问题。这篇文章会手把手教你一步步弄明白,为啥Memcached这个小家伙有时候会使劲霸占CPU资源,然后咱再一起商量商量怎么把它给“治”好,让它恢复正常运作。 二、Memcached进程占用CPU高的原因分析 1. Memcached配置不当 当Memcached配置不当时,会导致其频繁进行数据操作,从而增加CPU负担。比如说,要是你给数据设置的过期时间太长了,让Memcached这个家伙没法及时把没用的数据清理掉,那可能会造成CPU这老兄压力山大,消耗过多的资源。 示例代码如下: python import memcache mc = memcache.Client(['localhost:11211']) mc.set('key', 'value', 120) 上述代码中,设置的数据过期时间为120秒,即两分钟。这就意味着,即使数据已经没啥用了,Memcached这家伙还是会死拽着这些数据不放,在接下来的两分钟里持续占据着CPU资源不肯放手。 2. Memcached与大量客户端交互 当Memcached与大量客户端频繁交互时,会加重其CPU负担。这是因为每次交互都需要进行复杂的计算和数据处理操作。比如,想象一下你运营的Web应用火爆到不行,用户请求多得不得了,每个请求都得去Memcached那儿抓取数据。这时候,Memcached这个家伙可就压力山大了,CPU资源被消耗得嗷嗷叫啊! 示例代码如下: python import requests for i in range(1000): response = requests.get('http://localhost/memcached/data') print(response.text) 上述代码中,循环执行了1000次HTTP GET请求,每次请求都会从Memcached获取数据。这会导致Memcached的CPU资源消耗过大。 三、排查Memcached进程占用CPU高的方法 1. 使用top命令查看CPU使用情况 在排查Memcached进程占用CPU过高的问题时,我们可以首先使用top命令查看系统中哪些进程正在占用大量的CPU资源。例如,以下输出表示PID为31063的Memcached进程正在占用大量的CPU资源: javascript top - 13:34:47 up 1 day, 6:13, 2 users, load average: 0.24, 0.36, 0.41 Tasks: 174 total, 1 running, 173 sleeping, 0 stopped, 0 zombie %Cpu(s): 0.2 us, 0.3 sy, 0.0 ni, 99.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st KiB Mem : 16378080 total, 16163528 free, 182704 used, 122848 buff/cache KiB Swap: 0 total, 0 free, 0 used. 2120360 avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 3106 root 20 0 1058688 135484 4664 S 45.9 8.3 1:23.79 python memcached_client.py 我们可以看到,PID为31063的Python程序正在占用大量的CPU资源。接着,我们可以使用ps命令进一步了解这个进程的情况: bash ps -p 3106 2. 查看Memcached配置文件 在确认Memcached进程是否异常后,我们需要查看其配置文件,以确定是否存在配置错误导致的高CPU资源消耗。例如,以下是一个默认的Memcached配置文件(/etc/memcached.conf)的一部分: php-template Default MaxItems per key (65536). default_maxbytes 67108864 四、解决Memcached进程占用CPU高的方案 1. 调整Memcached配置 根据Memcached配置不当的原因,我们可以调整相关参数来降低CPU资源消耗。例如,可以减少过期时间、增大最大数据大小等。以下是修改过的配置文件的一部分: php-template Default MaxItems per key (131072). default_maxbytes 134217728 Increase expiration time to reduce CPU usage. default_time_to_live 14400 2. 控制与Memcached的交互频率 对于因大量客户端交互导致的高CPU资源消耗问题,我们可以采取一些措施来限制与Memcached的交互频率。例如,可以在服务器端添加限流机制,防止短时间内产生大量请求。或者,优化客户端代码,减少不必要的网络通信。 3. 提升硬件设备性能 最后,如果其他措施都无法解决问题,我们也可以考虑提升硬件设备性能,如增加CPU核心数量、扩大内存容量等。但这通常不是最佳解决方案,因为这可能会带来更高的成本。 五、结论 总的来说,Memcached进程占用CPU过高是一个常见的问题,其产生的原因是多种多样的。要真正把这个问题给揪出来,咱们得把系统工具和实际操作的经验都使上劲儿,得像钻井工人一样深入挖掘Memcached这家伙的工作内幕和使用门道。只有这样,才能真正找到问题的关键所在,并提出有效的解决方案。 感谢阅读这篇文章,希望对你有所帮助!
2024-01-19 18:02:16
95
醉卧沙场-t
Redis
...实践 随着云计算、大数据和物联网等技术的快速发展,现代Web应用面临着前所未有的挑战和机遇。在这样的背景下,Redis作为高性能、灵活的内存数据结构存储系统,其在Web应用中的应用趋势与最佳实践也日益受到关注。本文将探讨Redis在现代Web应用中的最新应用趋势,以及如何通过最佳实践提高应用性能和用户体验。 1. 低延迟与高并发场景优化 在高流量、高并发的Web应用中,低延迟和高吞吐量是至关重要的。Redis通过其内存优先的数据存储机制,显著降低了数据访问延迟,使得Web应用能够迅速响应用户请求。例如,在电商网站的秒杀活动期间,Redis可以用来存储临时的购物车信息,减少数据库的访问压力,从而确保交易的流畅性和稳定性。 2. 分布式系统中的协调与一致性 随着微服务架构的普及,分布式系统成为现代Web应用的主流形态。Redis通过其丰富的数据结构和事务支持,能够有效地在分布式环境中实现数据的一致性和协调。例如,使用Redis的发布/订阅模式实现服务间的异步通信,或者通过Redis的原子操作保证多节点之间的数据一致性,这些都是分布式系统设计中常见的最佳实践。 3. 缓存与数据加速 Redis的强大缓存能力在提升Web应用性能方面发挥着重要作用。通过将热点数据存储在内存中,Redis能够显著减少数据库查询次数,加快页面加载速度,提升用户体验。此外,Redis的持久化机制(如RDB和AOF)确保了缓存数据的安全性,即使在服务器崩溃后也能快速恢复。 4. 机器学习与数据分析 随着人工智能技术的发展,Redis在支持机器学习模型的训练和部署上展现出潜力。通过Redis的高效数据结构,可以快速存储和检索大量的特征向量,加速模型的训练过程。同时,Redis的实时分析能力使其成为实时数据分析场景的理想选择,如在线广告投放、个性化推荐等。 5. 安全与合规性考虑 在应用Redis的过程中,还需要注意安全性和合规性的问题。例如,确保敏感数据的加密存储、限制对Redis实例的访问权限、定期备份数据以防止数据丢失等。遵循行业标准和法律法规,如GDPR或CCPA,对于保护用户隐私至关重要。 总之,Redis凭借其高效、灵活的特点,在现代Web应用中扮演着越来越重要的角色。通过深入理解其在不同场景下的应用趋势和最佳实践,开发者可以更好地利用Redis提升应用性能、优化用户体验,并满足业务需求的多样化挑战。随着技术的不断演进,Redis的应用领域和最佳实践也将持续扩展,成为推动Web应用创新和发展的重要力量。
2024-08-20 16:11:43
98
百转千回
转载文章
...与宗教的哲学思考以及数据库操作优化有了更深刻的理解。实际上,《金刚经》中蕴含的无我智慧与现代软件工程强调的模块化、解耦设计原则不谋而合。当我们面对繁复的代码逻辑和资源管理时,借鉴《金刚经》的理念,可以让我们更加关注事物的本质和联系,从而做出更为简洁高效的设计。 近期,微软.NET 5框架发布了一系列针对数据库访问性能提升的新特性。例如,引入了新的数据访问库“EF Core”,它提供了一种更为高级的ORM(对象关系映射)解决方案,使得开发者能够以声明式方式操作数据库,同时利用延迟加载等技术优化查询性能。此外,.NET 5还增强了对于异步编程的支持,通过async/await关键字,使得数据库操作在高并发场景下能够更好地释放系统资源,提高应用的响应速度和吞吐量。 另一方面,科学与技术伦理的话题也日益受到关注。如同爱因斯坦所言,科学与宗教并非对立,而是相辅相成。在当今AI技术、大数据等前沿领域,科学家们不仅需要严谨的实证精神,也需要从人文关怀角度出发,审视科技发展对社会、道德乃至人类心灵可能带来的影响。比如,在处理用户隐私数据时,遵循GDPR等法规的同时,也要体现出对个体尊严和自由意志的尊重,这正体现了科学与宗教信仰共同作用于现代社会的一面。 因此,对于软件开发者而言,不仅要掌握先进的编程技术和工具,理解并运用如《金刚经》般深邃的哲学理念来指导实践;同时紧跟时代步伐,关注行业动态和技术伦理问题,才能使自己的作品更具前瞻性和社会责任感。
2023-03-18 20:09:36
89
转载
DorisDB
DorisDB:大数据时代的高效数据处理利器与挑战 在数字化转型的大潮中,数据已成为企业核心资产,数据驱动的决策正在重塑商业世界。在此背景下,高效、稳定、可扩展的数据处理技术显得尤为重要。DorisDB,作为一款开源的列式存储分析型数据库,因其强大的性能和灵活性,在大数据分析领域崭露头角。然而,随着数据规模的持续增长和复杂度的不断提升,DorisDB也面临着一系列挑战,尤其是写入失败问题,这不仅影响了数据处理的效率,也对业务连续性构成了威胁。 挑战一:并发写入与事务冲突 在高并发场景下,多个用户或任务同时尝试向DorisDB表中写入数据,极易引发事务冲突。这种情况下,DorisDB需要在保证数据一致性和完整性的前提下,合理分配并发资源,优化锁机制,以最小化对性能的影响。有效的解决策略包括引入行级锁或表级锁,以及通过合理的锁等待策略,减少死锁发生的可能性。此外,优化应用层的并发控制逻辑,避免不必要的并发操作,也能显著提升系统的稳定性。 挑战二:资源管理和优化 资源限制是另一个不容忽视的挑战。随着数据量的激增,磁盘空间不足、内存溢出等问题愈发突出。合理规划硬件资源,采用分层存储策略,以及利用DorisDB的分布式架构,将数据高效地存储和分布于多个节点,是缓解资源压力的有效途径。同时,定期进行数据清理和优化,使用更高效的压缩算法,也是提高资源利用效率的关键。 挑战三:网络延迟与故障恢复 网络问题是DorisDB面临的一大挑战。在网络不稳定或存在高延迟的情况下,数据传输效率会大幅降低,进而影响写入速度和整体性能。增强网络基础设施,优化数据传输协议,以及构建高效的容错和故障恢复机制,是提升系统鲁棒性的关键。同时,实施数据复制和备份策略,确保数据安全性和业务连续性。 结论:持续优化与创新 面对大数据时代的挑战,DorisDB的发展离不开持续的优化与创新。通过深入研究和实践,不断改进并发控制机制、资源管理策略、网络优化方案和技术架构设计,可以有效提升DorisDB的性能和可靠性,满足日益增长的数据处理需求。未来,随着技术的不断演进,DorisDB有望在大数据分析领域发挥更大的作用,为企业提供更为强大、灵活的数据处理能力,助力商业洞察和决策制定。 通过以上内容,我们可以看到,虽然DorisDB在大数据分析领域展现出强大的潜力,但在实际应用中,仍需面对各种挑战。持续的技术创新与优化,将是推动DorisDB不断前进的关键。
2024-10-07 15:51:26
122
醉卧沙场
Hadoop
HDFS读取速度慢?别急,我们一起来找原因! 最近我在使用Hadoop的过程中,发现了一个让我非常头疼的问题——HDFS的读取速度慢得让人抓狂!作为一个对大数据技术充满热情的技术宅男(或者宅女),这种问题简直就像一道数学题里的“未知数”一样困扰着我。今天,我就想跟大家聊聊这个话题,希望能找到一些解决办法。 一、背景介绍 HDFS为什么重要? 首先,让我们简单回顾一下HDFS是什么。HDFS(Hadoop分布式文件系统)就像是Hadoop这个大家族里的“顶梁柱”之一,它专门用来管理海量的数据,就像一个超级大的仓库,能把成千上万的数据文件整整齐齐地存放在不同的电脑上,还能保证它们既安全又容易取用。简单来说,就是把一个大文件分成很多小块,然后把这些小块分散存储在不同的服务器上。这么做的好处嘛,简直太明显了!就算哪台机器突然“罢工”了,数据也能稳稳地保住,完全不会丢。而且呢,还能同时对这些数据进行处理,效率杠杠的! 但是,任何技术都有它的局限性。HDFS虽然功能强大,但在实际应用中也可能会遇到各种问题,比如读取速度慢。这可能是由于网络延迟、磁盘I/O瓶颈或者其他因素造成的。那么,具体有哪些原因会导致HDFS读取速度变慢呢?接下来,我们就来一一分析。 二、可能的原因及初步排查 1. 网络延迟过高 想象一下,你正在家里看电影,突然发现画面卡顿了,这是因为你的网络连接出了问题。同样地,在HDFS中,如果网络延迟过高,也会导致读取速度变慢。比如说,假如你的数据节点散落在天南海北的各种数据中心里,那数据跑来跑去就得花更多时间,就像你在城市两端都有家一样,来回折腾肯定比在同一个小区里串门费劲得多。 示例代码: java Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path filePath = new Path("/user/hadoop/input/file.txt"); FSDataInputStream in = null; try { in = fs.open(filePath); byte[] buffer = new byte[1024]; int bytesRead = in.read(buffer); while (bytesRead != -1) { bytesRead = in.read(buffer); } } catch (IOException e) { e.printStackTrace(); } finally { if (in != null) { try { in.close(); } catch (IOException e) { e.printStackTrace(); } } } 这段代码展示了如何从HDFS中读取文件。如果你发现每次执行这段代码时都需要花费很长时间,那么很可能是网络延迟的问题。 2. 数据本地性不足 还记得小时候玩过的接力赛吗?如果接力棒总是从一个人传到另一个人再传回来,效率肯定不高。这就跟生活中的事儿一样啊,在HDFS里头,要是数据没分配到离客户端最近的那个数据节点上,那不是干等着嘛,多浪费时间呀! 解决方案: 可以通过调整副本策略来改善数据本地性。比如说,默认设置下,HDFS会把文件的备份分散存到集群里的不同机器上。不过呢,如果你想让这个过程变得更高效或者更适合自己的需求,完全可以去调整那个叫dfs.replication的参数! xml dfs.replication 3 3. 磁盘I/O瓶颈 磁盘读写速度是影响HDFS性能的一个重要因素。要是你的服务器用的是那些老掉牙的机械硬盘,那读文件的速度肯定就慢得像乌龟爬了。 实验验证: 为了测试磁盘I/O的影响,可以尝试将一部分数据迁移到SSD上进行对比实验。好啦,想象一下,你手头有一堆日志文件要对付。先把它们丢到普通的老硬盘(HDD)里待着,然后又挪到固态硬盘(SSD)上,看看读取速度变了多少。是不是感觉像在玩拼图游戏,只不过这次是在折腾文件呢? 三、进阶优化技巧 经过前面的分析,我们可以得出结论:要提高HDFS的读取速度,不仅仅需要关注硬件层面的问题,还需要从软件配置上下功夫。以下是一些更高级别的优化建议: 1. 增加带宽 带宽就像是高速公路的车道数量,车道越多,车辆通行就越顺畅。对于HDFS来说,增加带宽意味着可以同时传输更多的数据块。 实际操作: 联系你的网络管理员,询问是否有可能升级现有的网络基础设施,比如更换更快的交换机或者部署新的光纤线路。 2. 调整副本策略 默认情况下,HDFS会将每个文件的三个副本均匀分布在整个集群中。然而,在某些特殊场景下,这种做法并不一定是最优解。比如说,你家APP平时就爱扎堆在那几个服务器节点上干活儿,那就可以把副本都放一块儿,这样它们串门聊天、传文件啥的就方便多了,也不用跑太远浪费时间啦! 配置修改: xml dfs.block.local-path-access.enabled true 3. 使用缓存机制 缓存就像冰箱里的剩饭,拿出来就能直接吃,不用重新加热。HDFS也有类似的机制,叫做“DataNode Cache”。打开这个功能之后啊,那些经常用到的数据就会被暂时存到内存里,这样下次再用的时候就嗖的一下快多了! 启用步骤: bash hadoop dfsadmin -setSpaceQuota 100g /cachedir hadoop dfs -cache /inputfile /cachedir 四、总结与展望 通过今天的讨论,我相信大家都对HDFS读取速度慢的原因有了更深的理解。其实,无论是网络延迟、数据本地性还是磁盘I/O瓶颈,都不是不可克服的障碍。其实吧,只要咱们肯花点心思去琢磨、去试试,肯定能找出个适合自己情况的办法。 最后,我想说的是,作为一名技术人员,我们应该始终保持好奇心和探索精神。不要害怕失败,也不要急于求成,因为每一次挫折都是一次成长的机会。希望这篇文章能给大家带来启发,让我们一起努力,让Hadoop变得更加高效可靠吧! --- 以上就是我对“HDFS读取速度慢”的全部看法和建议。如果你还有其他想法或者遇到类似的问题,请随时留言交流。咱们共同进步,一起探索大数据世界的奥秘!
2025-05-04 16:24:39
103
月影清风
转载文章
... lrucache 缓存 bitmap 对象,这里大家一定要把图片的三级缓存 自己了解清楚,基本面试会问到。) 其实 当面试问你如何避免oom,内存泄露导致的原因,以及如何处理大图片等等,其实都是 如何优化内存。 可以按照我自己总结的回答,你可以说,这个问题 ,跟 oom以及 内存泄露,其实是一样的,关键 就是 如何 优化内存,避免不必要的 内存泄露, 而 内存泄露 的原因 ,我总结了 4点, 1. 匿名内部类,和非静态内部类, 举个栗子:我们用handler 进行线程间 假如 我们在activity中这样定义 handler : [java] view plain copy print ? Handler mHandler = new Handler() { @Override public void handleMessage(Message msg) { mImageView.setImageBitmap(mBitmap); } } 然后,我们用 右键 选中工程 运行 lint工具 , android tools---run lint ,就会提示我们这样一个warning: In Android, Handler classes should be static or leaks might occur.。 就是 ,推荐我们 把handler 定义成static,具体 看这里解释的很详细:http://www.linuxidc.com/Linux/2013-12/94065.htm 类似的还有 匿名子线程。 2.还是 拿网上的 栗子来说, [java] view plain copy print ? Vector v = new Vector( 10 ); for ( int i = 1 ;i < 100 ; i ++ ){ Object o = new Object(); v.add(o); o = null ; } 即便是 我们把 o 对象 置为 null,但是 vector 集合中还有有o的引用,所以 集合 没有被清空,这一部分内存 还是不能被释放,这就导致了内存泄露。 3, 当我们操作数据库的时候,我们在执行完 相应的crud 方法后,我们没有关闭 cursor .close()或者 db.close(),也同样会占用内存、因为只有关闭连接后,才会被GC 回收。 4.继续举个栗子 [java] view plain copy print ? Set<Person> set = new HashSet<Person>(); Person p1 = new Person("唐僧","pwd1",25); Person p2 = new Person("孙悟空","pwd2",26); Person p3 = new Person("猪八戒","pwd3",27); set.add(p1); set.add(p2); set.add(p3); System.out.println("总共有:"+set.size()+" 个元素!"); //结果:总共有:3 个元素! p3.setAge(2); //修改p3的年龄,此时p3元素对应的hashcode值发生改变 set.remove(p3); //此时remove不掉,造成内存泄漏 set.add(p3); //重新添加,居然添加成功 System.out.println("总共有:"+set.size()+" 个元素!"); //结果:总共有:4 个元素! J哥 亲自 实践了下,发现问题了,这个网上的栗子 是错的。实际上是可以remove掉得、真是个悲伤地故事。这个栗子是不正确的。。网上好有一片这样的文章,都是这个栗子。。 这里 看下其他网站上的总结吧 :强烈推荐http://developer.51cto.com/art/201111/302465.htm。很详细。 OK。还有最后一点,就是关于图片的,bitmap对象的及时释放,这里 就不细说了,等在图片三级缓存一起去总结。 此时 感觉 对面的android 小哥 已经被我吸引了。好像很认真的在听我讲课一样。 然后, 他问我问题。我大体总结了一下。 面试官01问:有没有自定义过view。 J哥回答:这个很常见,我自己定义过很多,比如 下拉刷新,上拉加载更多数据的listview,类似github 上面的pulltorefreshlistview。 还有图片轮询播放的viewpager,也是 继承viewpager,然后自己开启一个线程,去控制 切换的。还比如,跑马灯效果的textview ,scrollview与 listview 相互嵌套 导致 listview 高度计算不正确,我也是 自定义listview,复写了 onmeaure方法,然后解决冲突的。在比如 一些开源的 可以放大缩小的图片,我也是做过,主要是对onmeasure 方法,onlayout方法,ondraw 方法的复写。以及复写一下 view 自己的 touch事件等等,奥 对了,我们公司当时有需求 做一个 锁屏软件,侧滑解锁的,我也是自己定义的,然后展示给他看了一下,当时 那篇文章在这里。传送门http://blog.csdn.net/u011733020/article/details/41863861。 面试官01问:listview的优化、 J哥回答:(PS:这种问题,基本上 都快被问烂了,但是没办法 还是要回答。)listview作为最常见的 用来显示数据的view ,一般 从四个方面 去优化。 1 ,复用convertview, 不然假如有1000条数据,那么我们滑动,就会 产生1000个convertview ,这对内存是很大的浪费,所以 我们一定要复用。 2. 减少 findviewbyid 的次数, 因为 每次 去 执行 findviewbyid 也是要消耗资源的,我们要尽可能的减少,通常 我们定义一个viewholder,去管理 这些id ,然后通过tag 去直接拿到 id。 3, 分页加载,延迟加载 预加载。 这个在我们以前项目,有一个榜单,数据量很大,一次请求过来的数据量很大,这样有两个问题,一个是请求网络 时间可能会很长,另一个展示数据 上面 体验对不是很好,所以 我们做了 第一次加载 20条,然后每次请求 再去 加载10条新数据。 4.就是 对 listview 中一些 类似头像, 图片的 优化。这里 类似 三级缓存,推荐大家看一下 开源 的universal-image-loader 的源码。或者 这篇文章http://www.jb51.net/article/38162.htm,J哥有时间 专门写一篇过于 图片缓存的。 面试官01问: 看你简历上面 做过 社交,通信这块是怎么做的。 J哥回答:我看 咱们公司 也用到了 聊天,咱们公司是 自己做的 还是 用的第三方的类似 环信的。结果被J哥猜中,他说 是集成的环信(但是 有丢包现象,所以打算自己做通信)。 OK,J哥说 ,我们 项目中聊天 是基于xmpp协议的做的,在没有android以前 ,java有个开源的 smack ,android 上 现在有一个asmack ,其实 就是移植到android 中来了, 服务端是基于 openfire的 ,我们就是做的 openfire+asmack 的 聊天,这个原理主要 就是 绑定 ip 拿到 connection 然后 connect ,然后进行通信,我说,这个 跟http请求 其实原理上一样,都是 绑定ip,然后 设置一些property,然后通过类似流进行通信的, asmack,其实底层 就是xml通信的。 面试官01问: touch 事件的传递机制,还特意画了,一个 就是 button LinearLayout 嵌套 。 J哥回答:就是这个, 这也难不倒我。因为J哥觉得 这个问题肯定会问到 所以 早有准备,这里 我就大体说下结论,详细原理 给你传送门。 我回答,这个很简单,只要你继承一下 button 和 linearlayout 复写一下 三个方法 dispatchtouchEvent onInterceptTouchEvent 和onTouchEvent .就能很清楚的明白 传递的过程,我给你总的说下结论的,点击这个button,一般是 外面的父控件 先响应这个down 事件,然后 往子类里面传递,让子类 在往子类的下一级子类去传递,让最终的孩子去决定是不要要消费掉这个点击事件,如果消费掉,那么父类将不会响应,如果子类不消费,那么会退回到次级子类,然后看是否要消费,这样,一句话 就是父传子, 子决定要不要,不要 然后传回去。 这里有很详细 很详细的介绍, 包裹事件的分发。所以我就不罗嗦,http://blog.csdn.net/yanbober/article/details/45887547?ref=myread 面试官01问: 项目中图片的优化。 J哥回答:我给他展示的项目 其中有一款app 是有很多图片 ,但是 很流畅,也没有oom。关于图片 优化,一般我们采用三级缓存,1 。内存加载 2.本地加载 3 网络加载。 首先 我们看 内存中有没有,有直接拿来用,这里 我项目里是这样做的,我先获取一下 分配给我们应用的可用内存是多少,然后 拿1/4 或者 1/8做一个 lrucache. 把我们的bitmap对象添加进去。有些比较常用的图片,我会保存到本地,避免每次重复联网下载。结合 开源的 afinal universalimageloader 以及 13年谷歌官方推荐的volley(号称是 asynchttpclient 和universalimageloader)的结合、 所以 在我的项目中基本没有遇到过图片导致的oom 问题,对于单张的 大图片,我也会利用bitmapFactory,进行计算大小,然后 计算手机分辨率,进行定量的 压缩 处理。 面试官问: GC的回收 J哥回答:我说。GC 回收 应该不只是按照一种方式,应该有多种不同的算法,我看过谷歌 官网介绍的一点,有这样一块区域,他分为 latest(最近) middle(中等)permanent(永久的),这样三块子区域。里面分别存放,刚刚被创建的,以及 时间 靠后的,很久的,对象,不断地新对象 往latest里面添加,当达到相应对象区域的阀值的时候,就会触发GC,GC 进行回收的时候,对于latest 中回收的速度是最快的,而permanent 相对是最久的,而时间 也跟 每块区域中对象的个数有关系, 还有一种算法,是根据最近被引用的时间,或者 被引用的次数 去进行 GC的、、这里随便扯就是了。GC 回收并不是立即执行的。是不定时的。GC回收的时候 会阻塞线程,所以代码中要避免创建不必要的对象,例如for循环中 创建大量对象 就会容易引起GC。 当我们也可以主动 在方法中执行system.gc() 去手动释放一些资源。 面试官01问: 怎么避免 viewpager 预加载 fragment的、 J哥回答:这个问题 我也碰到过,我们都知道,viewpager 它本身会预加载 左右两个 和当前一个对象、而 我们viewpager setOffscreenPageLimit(0) 不生效因为看源码知道,这个方法默认最少也要加载一个。所以 这个fragment 还没有被当前页面显示出来,已经夹在好了,有可能数据不是最新的,我是在 setuservisibilityhint() 这个方法中跟参数 动态去判断 要不要刷新的。 问了一圈,这个哥们大概没什么问的了,然后 就让我等一下,说让他们技术总监过来 。 我就等。。。 然后等了几分钟,进来一小姑娘,坐下,看了我简历,我以为是人事,来跟我谈人生理想。结果,没说几句话,让我讲一下我的项目。我qu,惊呆我了。我问,你也是做android的,我去,是这样的、、把J哥吓到, 然后问了J哥几个问题。 Android 小姑娘问: 看你项目中的listview 中item类型 是统一的,而加入 item 差别挺大的 你怎么复用。 J哥回答:J哥装作很牛的样子说,我暂时想到两种方法,1.给这个对象 加一个type 然后 根据 type 去复用,或者 把这几种类型 一起加载,然后控制显示隐藏。然后 我反问小姑娘,假如 我这里 有一百条数据,这一百条是无序的,包含了 10种 item类型,你有没有什么好方法 去处理这个问题, 小姑娘说,你不是定义了类型吗,我们就是 通过type 去判断的。 Android 小姑娘问: onAttch onDetach还是onAttachedToWindow,onDetachedFromWindow J哥回答:其实 那个小姑娘忘记这两个方法了。我说什么方法,她说onAttachIntent() 和 onDetachIntent(). 反正 J哥是没听说过, 我只见过 onAttach ,但是 这个方法 我也没用过。我就问她,这两个方法是做什么的,小姑娘跟我说 是 把子view绑定到界面上的,那么的话 应该是onAttachedToWindow,onDetachedFromWindow方法了,小姑娘说: 在这个方法 可以计算子 view的高度宽度,在 oncreate 里面不能计算,其实虽然刚开始 在oncreate里面是不能计算,但是还是有方法计算的,(本人觉得面试 问你 API 是 最2的了,忍不住吐槽下,我遇到过,Camera 拍照,问我获取 一个图片,还是 视频的 方法,我去百度 一下,随便就知道,真是不懂 为什么会问方法。随便一个程序员 都会百度。。) 跟小姑娘聊得其他问题 不太记得了,感觉这个女程序员啊。。就问方法 给我的印象不太好,不管方法用没用到,我觉得面试 直接问你方法 好2 好2... 然后技术总监 有进来跟我聊了,后技术总监 有进来跟我聊了、技术总监 年龄30出头吧,到是没有问我什么技术问题, 总监: 问我 做没做过通信这块,能不能做这一块。 J哥回答:,我说做过,通信有几种协议的,我们用的 是xmpp协议的 ,服务器 是 基于apache的 openfire 搭建的,客户端 是用的asmack。还有一些 其他协议的 ,比如我知道有些项目中用的 soap协议的,还有ip 协议的。PS:反正就是扯 我说 通信 客户端这一块 我没问题,但是 服务端 我 从工作以来 一直偏向 android 移动端开发,后台这一块,如果数据量大了,还要考虑并发之类的,我是做不了,让我做个tomcat搭建的demo 我可能可以。 其他也是随便聊了下,然后 就说,让人事来跟我谈理想了。 总监: 问我 什么时候能上班 J哥回答:我说 这个看公司需求啦。 其他也是随便聊了下,然后 就说,让人事来跟我谈理想了。 这里 感觉应该没问题了。差不多能拿下了。 人事1:一进来,就问东问西。问加班看法啊,他们公司技术 一般都八九点走啊。说七点基本没有走的啊、、、 J哥回答:我说,一般遇到项目加功能 ,版本升级,等等 这些加班都没什么,只要不是一直在加班。。。。这里每个人自己看法就好了、、 反正人事 是一直跟我强调这个,她不停强调 我就暗暗下决心,薪资 我是不会要低了。 人事1:看你还年轻啊,还能拼一拼啊、、、、 J哥回答:我说现在 这几年对我人生规划也算比较重要的时期,也是过一年少一年了,其实她的意思 还是侧面强调加班。。。。日了UZI了。 中间一堆废话,然后我问了她 公司一般上下班时间啊。。之类的有没有技术交流啊,之类的。。。 最后到关键问题上啦,最关心的,薪资问题。 人事1:期望薪资 J哥回答:我说16K左右吧。她问 你以前公司多少 握手 15K。她说她们公司 是 14薪。反正 我还是说16K。她说 那好,你等下,然后就出去了。 不知道 跟什么人 讨论了许久,然后又来一个 可能是人事吧。又进来,问了一遍,也问了薪资。。哥还是说16K 。 。。估计是她们公司想要我,但是又觉得有点超出她们薪资期望吧,当场被没有给什么offer。然后就有点婉拒的说,两天给我答复,心里很气愤,饿着肚子 面试到三点,竟然婉拒、、、 反正我是很生气,我说,好,然后我就走。结果,没过一个小时,人事又打电话来,非要约我 见一下她们CEO。这是什么鬼,难道她们CEO要给我煲汤 了?我说可以,然后时间定在后天了,,反正心灵鸡汤对我是没用了、 OK ,这家面试 先写到这里,下面下午还有一家,等下在写。准备睡觉。今天面试回来,累的就睡着了,晚上十点多才醒过来,想了想还是 把今天面试的过程总结一下。 ------------------------------待续------------------------- 第二弹http://blog.csdn.net/u011733020/article/details/46058273 本篇文章为转载内容。原文链接:https://blog.csdn.net/haluoluo211/article/details/51010955。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-06-19 17:42:52
336
转载
转载文章
...视化操作,二是后台的数据库管理。网管对前台的管理和维护工作包括保障网络链路通畅、处理MIS终端的突发事件以及对操作员的管理、培训等,这是网管们日常做得最多、最辛苦的功课;然而MIS系统架构中同等重要的针对数据库的管理、维护和优化工作,现实中似乎并没有得到网管朋友的足够重视,看起来这都是程序员的事,事实上,一个网管如果能在MIS设计期间就数据表的规范化、表索引优化、容量设计、事务处理等诸多方面与程序员进行卓有成效的沟通和协作,那么日常的前台管理工作将会变得大为轻松,因为在某种意义上,数据库管理系统就相当于操作系统,在系统中占有同样重要的位置。 这正是SQL SERVER等数据库管理系统和dBASEX、ACCESS等数据库文件系统的本质区别,所以,对数据库管理系统操作能力的强弱在某种程度上也折射出了网管的水平——个人认为,称得上优秀的Admin,至少应该是一个称职的DBA(数据库管理员)。 下面以SQL SERVER(下称 SQLS)为例,将数据库管理中难于理解的“索引原理”问题给各位朋友作一个深入浅出的介绍。其他的数据库管理系统如Oracle、Sybase等,朋友们可以融会贯通,举一反三。 一、数据表的基本结构 建立数据库的目的是管理大量数据,而建立索引的目的就是提高数据检索效率,改善数据库工作性能,提高数据访问速度。对于索引,我们要知其然,更要知其所以然,关键在于认识索引的工作原理,才能更好的管理索引。 为认识索引工作原理,首先有必要对数据表的基本结构作一次全面的复习。 SQLS当一个新表被创建之时,系统将在磁盘中分配一段以8K为单位的连续空间,当字段的值从内存写入磁盘时,就在这一既定空间随机保存,当一个8K用完的时候,SQLS指针会自动分配一个8K的空间。这里,每个8K空间被称为一个数据页(Page),又名页面或数据页面,并分配从0-7的页号,每个文件的第0页记录引导信息,叫文件头(File header);每8个数据页(64K)的组合形成扩展区(Extent),称为扩展。全部数据页的组合形成堆(Heap)。 SQLS规定行不能跨越数据页,所以,每行记录的最大数据量只能为8K。这就是char和varchar这两种字符串类型容量要限制在8K以内的原因,存储超过8K的数据应使用text类型,实际上,text类型的字段值不能直接录入和保存,它只是存储一个指针,指向由若干8K的文本数据页所组成的扩展区,真正的数据正是放在这些数据页中。 页面有空间页面和数据页面之分。 当一个扩展区的8个数据页中既包含了空间页面又包括了数据或索引页面时,称为混合扩展(Mixed Extent),每张表都以混合扩展开始;反之,称为一致扩展(Uniform Extent),专门保存数据及索引信息。 表被创建之时,SQLS在混合扩展中为其分配至少一个数据页面,随着数据量的增长,SQLS可即时在混合扩展中分配出7个页面,当数据超过8个页面时,则从一致扩展中分配数据页面。 空间页面专门负责数据空间的分配和管理,包括:PFS页面(Page free space):记录一个页面是否已分配、位于混合扩展还是一致扩展以及页面上还有多少可用空间等信息;GAM页面(Global allocation map)和SGAM页面(Secodary global allocation map):用来记录空闲的扩展或含有空闲页面的混合扩展的位置。SQLS综合利用这三种类型的页面文件在必要时为数据表创建新空间; 数据页或索引页则专门保存数据及索引信息,SQLS使用4种类型的数据页面来管理表或索引:它们是IAM页、数据页、文本/图像页和索引页。 在WINDOWS中,我们对文件执行的每一步操作,在磁盘上的物理位置只有系统(system)才知道;SQL SERVER沿袭了这种工作方式,在插入数据的过程中,不但每个字段值在数据页面中的保存位置是随机的,而且每个数据页面在“堆”中的排列位置也只有系统(system)才知道。 这是为什么呢?众所周知,OS之所以能管理DISK,是因为在系统启动时首先加载了文件分配表:FAT(File Allocation Table),正是由它管理文件系统并记录对文件的一切操作,系统才得以正常运行;同理,作为管理系统级的SQL SERVER,也有这样一张类似FAT的表存在,它就是索引分布映像页:IAM(Index Allocation Map)。 IAM的存在,使SQLS对数据表的物理管理有了可能。 IAM页从混合扩展中分配,记录了8个初始页面的位置和该扩展区的位置,每个IAM页面能管理512,000个数据页面,如果数据量太大,SQLS也可以增加更多的IAM页,可以位于文件的任何位置。第一个IAM页被称为FirstIAM,其中记录了以后的IAM页的位置。 数据页和文本/图像页互反,前者保存非文本/图像类型的数据,因为它们都不超过8K的容量,后者则只保存超过8K容量的文本或图像类型数据。而索引页顾名思义,保存的是与索引结构相关的数据信息。了解页面的问题有助我们下一步准确理解SQLS维护索引的方式,如页拆分、填充因子等。 二、索引的基本概念 索引是一种特殊类型的数据库对象,它与表有着密切的联系。 索引是为检索而存在的。如一些书籍的末尾就专门附有索引,指明了某个关键字在正文中的出现的页码位置,方便我们查找,但大多数的书籍只有目录,目录不是索引,只是书中内容的排序,并不提供真正的检索功能。可见建立索引要单独占用空间;索引也并不是必须要建立的,它们只是为更好、更快的检索和定位关键字而存在。 再进一步说,我们要在图书馆中查阅图书,该怎么办呢?图书馆的前台有很多叫做索引卡片柜的小柜子,里面分了若干的类别供我们检索图书,比如你可以用书名的笔画顺序或者拼音顺序作为查找的依据,你还可以从作者名的笔画顺序或拼音顺序去查询想要的图书,反正有许多检索方式,但有一点很明白,书库中的书并没有按照这些卡片柜中的顺序排列——虽然理论上可以这样做,事实上,所有图书的脊背上都人工的粘贴了一个特定的编号①,它们是以这个顺序在排列。索引卡片中并没有指明这本书摆放在书库中的第几个书架的第几本,仅仅指明了这个特定的编号。管理员则根据这一编号将请求的图书返回到读者手中。这是很形象的例子,以下的讲解将会反复用到它。 SQLS在安装完成之后,安装程序会自动创建master、model、tempdb等几个特殊的系统数据库,其中master是SQLS的主数据库,用于保存和管理其它系统数据库、用户数据库以及SQLS的系统信息,它在SQLS中的地位与WINDOWS下的注册表相当。 master中有一个名为sysindexes的系统表,专门管理索引。SQLS查询数据表的操作都必须用到它,毫无疑义,它是本文主角之一。 查看一张表的索引属性,可以在查询分析器中使用以下命令:select from sysindexes where id=object_id(‘tablename’) ;而要查看表的索引所占空间的大小,可以使用系统存储过程命令:sp_spaceused tablename,其中参数tablename为被索引的表名。 三、平衡树 如果你通过书后的索引知道了一个关键字所在的页码,你有可能通过随机的翻寻,最终到达正确的页码。但更科学更快捷的方法是:首先把书翻到大概二分之一的位置,如果要找的页码比该页的页码小,就把书向前翻到四分之一处,否则,就把书向后翻到四分之三的地方,依此类推,把书页续分成更小的部分,直至正确的页码。这叫“两分法”,微软在官方教程MOC里另有一种说法:叫B树(B-Tree,Balance Tree),即平衡树。 一个表索引由若干页面组成,这些页面构成了一个树形结构。B树由“根”(root)开始,称为根级节点,它通过指向另外两个页,把一个表的记录从逻辑上分成两个部分:“枝”—--非叶级节点(Non-Leaf Level);而非叶级节点又分别指向更小的部分:“叶”——叶级节点(Leaf Level)。根节点、非叶级节点和叶级节点都位于索引页中,统称为索引节点,属于索引页的范筹。这些“枝”、“叶”最终指向了具体的数据页(Page)。在根级节点和叶级节点之间的叶又叫数据中间页。 “根”(root)对应了sysindexes表的Root字段,其中记载了非叶级节点的物理位置(即指针);非叶级节点位于根节点和叶节点之间,记载了指向叶级节点的指针;而叶级节点则最终指向数据页。这就是“平衡树”。 四、聚集索引和非聚集索引 从形式上而言,索引分为聚集索引(Clustered Indexes)和非聚集索引(NonClustered Indexes)。 聚集索引相当于书籍脊背上那个特定的编号。如果对一张表建立了聚集索引,其索引页中就包含着建立索引的列的值(下称索引键值),那么表中的记录将按照该索引键值进行排序。比如,我们如果在“姓名”这一字段上建立了聚集索引,则表中的记录将按照姓名进行排列;如果建立了聚集索引的列是数值类型的,那么记录将按照该键值的数值大小来进行排列。 非聚集索引用于指定数据的逻辑顺序,也就是说,表中的数据并没有按照索引键值指定的顺序排列,而仍然按照插入记录时的顺序存放。其索引页中包含着索引键值和它所指向该行记录在数据页中的物理位置,叫做行定位符(RID:Row ID)。好似书后面的的索引表,索引表中的顺序与实际的页码顺序也是不一致的。而且一本书也许有多个索引。比如主题索引和作者索引。 SQL Server在默认的情况下建立的索引是非聚集索引,由于非聚集索引不对表中的数据进行重组,而只是存储索引键值并用一个指针指向数据所在的页面。一个表如果没有聚集索引时,理论上可以建立249个非聚集索引。每个非聚集索引提供访问数据的不同排序顺序。 五、数据是怎样被访问的 若能真正理解了以上索引的基础知识,那么再回头来看索引的工作原理就简单和轻松多了。 (一)SQLS怎样访问没有建立任何索引数据表: Heap译成汉语叫做“堆”,其本义暗含杂乱无章、无序的意思,前面提到数据值被写进数据页时,由于每一行记录之间并没地有特定的排列顺序,所以行与行的顺序就是随机无序的,当然表中的数据页也就是无序的了,而表中所有数据页就形成了“堆”,可以说,一张没有索引的数据表,就像一个只有书柜而没有索引卡片柜的图书馆,书库里面塞满了一堆乱七八糟的图书。当读者对管理员提交查询请求后,管理员就一头钻进书库,对照查找内容从头开始一架一柜的逐本查找,运气好的话,在第一个书架的第一本书就找到了,运气不好的话,要到最后一个书架的最后一本书才找到。 SQLS在接到查询请求的时候,首先会分析sysindexes表中一个叫做索引标志符(INDID: Index ID)的字段的值,如果该值为0,表示这是一张数据表而不是索引表,SQLS就会使用sysindexes表的另一个字段——也就是在前面提到过的FirstIAM值中找到该表的IAM页链——也就是所有数据页集合。 这就是对一个没有建立索引的数据表进行数据查找的方式,是不是很没效率?对于没有索引的表,对于一“堆”这样的记录,SQLS也只能这样做,而且更没劲的是,即使在第一行就找到了被查询的记录,SQLS仍然要从头到尾的将表扫描一次。这种查询称为“遍历”,又叫“表扫描”。 可见没有建立索引的数据表照样可以运行,不过这种方法对于小规模的表来说没有什么太大的问题,但要查询海量的数据效率就太低了。 (二)SQLS怎样访问建立了非聚集索引的数据表: 如前所述,非聚集索引可以建多个,具有B树结构,其叶级节点不包含数据页,只包含索引行。假定一个表中只有非聚集索引,则每个索引行包含了非聚集索引键值以及行定位符(ROW ID,RID),他们指向具有该键值的数据行。每一个RID由文件ID、页编号和在页中行的编号组成。 当INDID的值在2-250之间时,意味着表中存在非聚集索引页。此时,SQLS调用ROOT字段的值指向非聚集索引B树的ROOT,在其中查找与被查询最相近的值,根据这个值找到在非叶级节点中的页号,然后顺藤摸瓜,在叶级节点相应的页面中找到该值的RID,最后根据这个RID在Heap中定位所在的页和行并返回到查询端。 例如:假定在Lastname上建立了非聚集索引,则执行Select From Member Where Lastname=’Ota’时,查询过程是:①SQLS查询INDID值为2;②立即从根出发,在非叶级节点中定位最接近Ota的值“Martin”,并查到其位于叶级页面的第61页;③仅在叶级页面的第61页的Martin下搜寻Ota的RID,其RID显示为N∶706∶4,表示Lastname字段中名为Ota的记录位于堆的第707页的第4行,N表示文件的ID值,与数据无关;④根据上述信息,SQLS立马在堆的第 707页第4行将该记录“揪”出来并显示于前台(客户端)。视表的数据量大小,整个查询过程费时从百分之几毫秒到数毫秒不等。 在谈到索引基本概念的时候,我们就提到了这种方式: 图书馆的前台有很多索引卡片柜,里面分了若干的类别,诸如按照书名笔画或拼音顺序、作者笔画或拼音顺序等等,但不同之处有二:① 索引卡片上记录了每本书摆放的具体位置——位于某柜某架的第几本——而不是“特殊编号”;② 书脊上并没有那个“特殊编号”。管理员在索引柜中查到所需图书的具体位置(RID)后,根据RID直接在书库中的具体位置将书提出来。 显然,这种查询方式效率很高,但资源占用极大,因为书库中书的位置随时在发生变化,必然要求管理员花费额外的精力和时间随时做好索引更新。 (三)SQLS怎样访问建立了聚集索引的数据表: 在聚集索引中,数据所在的数据页是叶级,索引数据所在的索引页是非叶级。 查询原理和上述对非聚集索引的查询相似,但由于记录是按照聚集索引中索引键值进行排序,换句话说,聚集索引的索引键值也就是具体的数据页。 这就好比书库中的书就是按照书名的拼音在排序,而且也只按照这一种排序方式建立相应的索引卡片,于是查询起来要比上述只建立非聚集索引的方式要简单得多。仍以上面的查询为例: 假定在Lastname字段上建立了聚集索引,则执行Select From Member Where Lastname=’Ota’时,查询过程是:①SQLS查询INDID值为1,这是在系统中只建立了聚集索引的标志;②立即从根出发,在非叶级节点中定位最接近Ota的值“Martin”,并查到其位于叶级页面的第120页;③在位于叶级页面第120页的Martin下搜寻到Ota条目,而这一条目已是数据记录本身;④将该记录返回客户端。 这一次的效率比第二种方法更高,以致于看起来更美,然而它最大的优点也恰好是它最大的缺点——由于同一张表中同时只能按照一种顺序排列,所以在任何一种数据表中的聚集索引只能建立一个;并且建立聚集索引需要至少相当于源表120%的附加空间,以存放源表的副本和索引中间页! 难道鱼和熊掌就不能兼顾了吗?办法是有的。 (四)SQLS怎样访问既有聚集索引、又有非聚集索引的数据表: 如果我们在建立非聚集索引之前先建立了聚集索引的话,那么非聚集索引就可以使用聚集索引的关键字进行检索,就像在图书馆中,前台卡片柜中的可以有不同类别的图书索引卡,然而每张卡片上都载明了那个特殊编号——并不是书籍存放的具体位置。这样在最大程度上既照顾了数据检索的快捷性,又使索引的日常维护变得更加可行,这是最为科学的检索方法。 也就是说,在只建立了非聚集索引的情况下,每个叶级节点指明了记录的行定位符(RID);而在既有聚集索引又有非聚集索引的情况下,每个叶级节点所指向的是该聚集索引的索引键值,即数据记录本身。 假设聚集索引建立在Lastname上,而非聚集索引建立在Firstname上,当执行Select From Member Where Firstname=’Mike’时,查询过程是:①SQLS查询INDID值为2;②立即从根出发,在Firstname的非聚集索引的非叶级节点中定位最接近Mike的值“Jose”条目;③从Jose条目下的叶级页面中查到Mike逻辑位置——不是RID而是聚集索引的指针;④根据这一指针所指示位置,直接进入位于Lastname的聚集索引中的叶级页面中到达Mike数据记录本身;⑤将该记录返回客户端。 这就完全和我们在“索引的基本概念”中讲到的现实场景完全一样了,当数据发生更新的时候,SQLS只负责对聚集索引的健值驾以维护,而不必考虑非聚集索引,只要我们在ID类的字段上建立聚集索引,而在其它经常需要查询的字段上建立非聚集索引,通过这种科学的、有针对性的在一张表上分别建立聚集索引和非聚集索引的方法,我们既享受了索引带来的灵活与快捷,又相对规避了维护索引所导致的大量的额外资源消耗。 六、索引的优点和不足 索引有一些先天不足:1:建立索引,系统要占用大约为表的1.2倍的硬盘和内存空间来保存索引。2:更新数据的时候,系统必须要有额外的时间来同时对索引进行更新,以维持数据和索引的一致性——这就如同图书馆要有专门的位置来摆放索引柜,并且每当库存图书发生变化时都需要有人将索引卡片重整以保持索引与库存的一致。 当然建立索引的优点也是显而易见的:在海量数据的情况下,如果合理的建立了索引,则会大大加强SQLS执行查询、对结果进行排序、分组的操作效率。 实践表明,不恰当的索引不但于事无补,反而会降低系统性能。因为大量的索引在进行插入、修改和删除操作时比没有索引花费更多的系统时间。比如在如下字段建立索引应该是不恰当的:1、很少或从不引用的字段;2、逻辑型的字段,如男或女(是或否)等。 综上所述,提高查询效率是以消耗一定的系统资源为代价的,索引不能盲目的建立,必须要有统筹的规划,一定要在“加快查询速度”与“降低修改速度”之间做好平衡,有得必有失,此消则彼长。这是考验一个DBA是否优秀的很重要的指标。 至此,我们一直在说SQLS在维护索引时要消耗系统资源,那么SQLS维护索引时究竟消耗了什么资源?会产生哪些问题?究竟应该才能优化字段的索引? 在上篇中,我们就索引的基本概念和数据查询原理作了详细阐述,知道了建立索引时一定要在“加快查询速度”与“降低修改速度”之间做好平衡,有得必有失,此消则彼长。那么,SQLS维护索引时究竟怎样消耗资源?应该从哪些方面对索引进行管理与优化?以下就从七个方面来回答这些问题。 一、页分裂 微软MOC教导我们:当一个数据页达到了8K容量,如果此时发生插入或更新数据的操作,将导致页的分裂(又名页拆分): 1、有聚集索引的情况下:聚集索引将被插入和更新的行指向特定的页,该页由聚集索引关键字决定; 2、只有堆的情况下:只要有空间就可以插入新的行,但是如果我们对行数据的更新需要更多的空间,以致大于了当前页的可用空间,行就被移到新的页中,并且在原位置留下一个转发指针,指向被移动的新行,如果具有转发指针的行又被移动了,那么原来的指针将重新指向新的位置; 3、如果堆中有非聚集索引,那么尽管插入和更新操作在堆中不会发生页分裂,但是在非聚集索引上仍然产生页分裂。 无论有无索引,大约一半的数据将保留在老页面,而另一半将放入新页面,并且新页面可能被分配到任何可用的页。所以,频繁页分裂,后果很严重,将使物理表产生大量数据碎片,导致直接造成I/O效率的急剧下降,最后,停止SQLS的运行并重建索引将是我们的唯一选择! 二、填充因子 然而在“混沌之初”,就可以在一定程度上避免不愉快出现:在创建索引时,可以为这个索引指定一个填充因子,以便在索引的每个叶级页面上保留一定百分比的空间,将来数据可以进行扩充和减少页分裂。填充因子是从0到100的百分比数值,设为100时表示将数据页填满。只有当不会对数据进行更改时(例如只读表中)才用此设置。值越小则数据页上的空闲空间越大,这样可以减少在索引增长过程中进行页分裂的需要,但这一操作需要占用更多的硬盘空间。 填充因子只在创建索引时执行,索引创建以后,当表中进行数据的添加、删除或更新时,是不会保持填充因子的,如果想在数据页上保持额外的空间,则有悖于使用填充因子的本意,因为随着数据的输入,SQLS必须在每个页上进行页拆分,以保持填充因子指定的空闲空间。因此,只有在表中的数据进行了较大的变动,才可以填充数据页的空闲空间。这时,可以从容的重建索引,重新指定填充因子,重新分布数据。 反之,填充因子指定不当,就会降低数据库的读取性能,其降低量与填充因子设置值成反比。例如,当填充因子的值为50时,数据库的读取性能会降低两倍!所以,只有在表中根据现有数据创建新索引,并且可以预见将来会对这些数据进行哪些更改时,设置填充因子才有意义。 三、两道数学题 假定数据库设计没有问题,那么是否象上篇中分析的那样,当你建立了众多的索引,在查询工作中SQLS就只能按照“最高指示”用索引处理每一个提交的查询呢?答案是否定的! 上篇“数据是怎样被访问的”章节中提到的四种索引方案只是一种静态的、标准的和理论上的分析比较,实际上,将在外,军令有所不从,SQLS几乎完全是“自主”的决定是否使用索引或使用哪一个索引! 这是怎么回事呢? 让我们先来算一道题:如果某表的一条记录在磁盘上占用1000字节(1K)的话,我们对其中10字节的一个字段建立索引,那么该记录对应的索引大小只有10字节(0.01K)。上篇说过,SQLS的最小空间分配单元是“页(Page)”,一个页面在磁盘上占用8K空间,所以一页只能存储8条“记录”,但可以存储800条“索引”。现在我们要从一个有8000条记录的表中检索符合某个条件的记录(有Where子句),如果没有索引的话,我们需要遍历8000条×1000字节/8K字节=1000个页面才能够找到结果。如果在检索字段上有上述索引的话,那么我们可以在8000条×10字节/8K字节=10个页面中就检索到满足条件的索引块,然后根据索引块上的指针逐一找到结果数据块,这样I/O访问量肯定要少得多。 然而有时用索引还不如不用索引快! 同上,如果要无条件检索全部记录(不用Where子句),不用索引的话,需要访问8000条×1000字节/8K字节=1000个页面;而使用索引的话,首先检索索引,访问8000条×10字节/8K字节=10个页面得到索引检索结果,再根据索引检索结果去对应数据页面,由于是检索全部数据,所以需要再访问8000条×1000字节/8K字节=1000个页面将全部数据读取出来,一共访问了1010个页面,这显然不如不用索引快。 SQLS内部有一套完整的数据索引优化技术,在上述情况下,SQLS会自动使用表扫描的方式检索数据而不会使用任何索引。那么SQLS是怎么知道什么时候用索引,什么时候不用索引的呢?因为SQLS除了维护数据信息外,还维护着数据统计信息! 四、统计信息 打开企业管理器,单击“Database”节点,右击Northwind数据库→单击“属性”→选择“Options”选项卡,观察“Settings”下的各项复选项,你发现了什么? 从Settings中我们可以看到,在数据库中,SQLS将默认的自动创建和更新统计信息,这些统计信息包括数据密度和分布信息,正是它们帮助SQLS确定最佳的查询策略:建立查询计划和是否使用索引以及使用什么样的索引。 在创建索引时,SQLS会创建分布数据页来存放有关索引的两种统计信息:分布表和密度表。查询优化器使用这些统计信息估算使用该索引进行查询的成本(Cost),并在此基础上判断该索引对某个特定查询是否有用。 随着表中的数据发生变化,SQLS自动定期更新这些统计信息。采样是在各个数据页上随机进行。从磁盘读取一个数据页后,该数据页上的所有行都被用来更新统计信息。统计信息更新的频率取决于字段或索引中的数据量以及数据更改量。比如,对于有一万条记录的表,当1000个索引键值发生改变时,该表的统计信息便可能需要更新,因为1000 个值在该表中占了10%,这是一个很大的比例。而对于有1千万条记录的表来说,1000个索引值发生更改的意义则可以忽略不计,因此统计信息就不会自动更新。 至于它们帮助SQLS建立查询计划的具体过程,限于篇幅,这里就省略了,请有兴趣的朋友们自己研究。 顺便多说一句,SQLS除了能自动记录统计信息之外,还可以记录服务器中所发生的其它活动的详细信息,包括I/O 统计信息、CPU 统计信息、锁定请求、T-SQL 和 RPC 统计信息、索引和表扫描、警告和引发的错误、数据库对象的创建/除去、连接/断开、存储过程操作、游标操作等等。这些信息的读取、设置请朋友们在SQLS联机帮助文档(SQL Server Books Online)中搜索字符串“Profiler”查找。 五、索引的人工维护 上面讲到,某些不合适的索引将影响到SQLS的性能,随着应用系统的运行,数据不断地发生变化,当数据变化达到某一个程度时将会影响到索引的使用。这时需要用户自己来维护索引。 随着数据行的插入、删除和数据页的分裂,有些索引页可能只包含几页数据,另外应用在执行大量I/O的时候,重建非聚聚集索引可以维护I/O的效率。重建索引实质上是重新组织B树。需要重建索引的情况有: 1) 数据和使用模式大幅度变化; 2)排序的顺序发生改变; 3)要进行大量插入操作或已经完成; 4)使用I/O查询的磁盘读次数比预料的要多; 5)由于大量数据修改,使得数据页和索引页没有充分使用而导致空间的使用超出估算; 6)dbcc检查出索引有问题。 六、索引的使用原则 接近尾声的时候,让我们再从另一个角度认识索引的两个重要属性----唯一性索引和复合性索引。 在设计表的时候,可以对字段值进行某些限制,比如可以对字段进行主键约束或唯一性约束。 主键约束是指定某个或多个字段不允许重复,用于防止表中出现两条完全相同的记录,这样的字段称为主键,每张表都可以建立并且只能建立一个主键,构成主键的字段不允许空值。例如职员表中“身份证号”字段或成绩表中“学号、课程编号”字段组合。 而唯一性约束与主键约束类似,区别只在于构成唯一性约束的字段允许出现空值。 建立在主键约束和唯一性约束上的索引,由于其字段值具有唯一性,于是我们将这种索引叫做“唯一性索引”,如果这个唯一性索引是由两个以上字段的组合建立的,那么它又叫“复合性索引”。 注意,唯一索引不是聚集索引,如果对一个字段建立了唯一索引,你仅仅不能向这个字段输入重复的值。并不妨碍你可以对其它类型的字段也建立一个唯一性索引,它们可以是聚集的,也可以是非聚集的。 唯一性索引保证在索引列中的全部数据是唯一的,不会包含冗余数据。如果表中已经有一个主键约束或者唯一性约束,那么当创建表或者修改表时,SQLS自动创建一个唯一性索引。但出于必须保证唯一性,那么应该创建主键约束或者唯一性键约束,而不是创建一个唯一性索引。当创建唯一性索引时,应该认真考虑这些规则:当在表中创建主键约束或者唯一性键约束时, SQLS钭自动创建一个唯一性索引;如果表中已经包含有数据,那么当创建索引时,SQLS检查表中已有数据的冗余性,如果发现冗余值,那么SQLS就取消该语句的执行,并且返回一个错误消息,确保表中的每一行数据都有一个唯一值。 复合索引就是一个索引创建在两个列或者多个列上。在搜索时,当两个或者多个列作为一个关键值时,最好在这些列上创建复合索引。当创建复合索引时,应该考虑这些规则:最多可以把16个列合并成一个单独的复合索引,构成复合索引的列的总长度不能超过900字节,也就是说复合列的长度不能太长;在复合索引中,所有的列必须来自同一个表中,不能跨表建立复合列;在复合索引中,列的排列顺序是非常重要的,原则上,应该首先定义最唯一的列,例如在(COL1,COL2)上的索引与在(COL2,COL1)上的索引是不相同的,因为两个索引的列的顺序不同;为了使查询优化器使用复合索引,查询语句中的WHERE子句必须参考复合索引中第一个列;当表中有多个关键列时,复合索引是非常有用的;使用复合索引可以提高查询性能,减少在一个表中所创建的索引数量。 综上所述,我们总结了如下索引使用原则: 1)逻辑主键使用唯一的成组索引,对系统键(作为存储过程)采用唯一的非成组索引,对任何外键列采用非成组索引。考虑数据库的空间有多大,表如何进行访问,还有这些访问是否主要用作读写。 2)不要索引memo/note 字段,不要索引大型字段(有很多字符),这样作会让索引占用太多的存储空间。 3)不要索引常用的小型表 4)一般不要为小型数据表设置过多的索引,假如它们经常有插入和删除操作就更别这样作了,SQLS对这些插入和删除操作提供的索引维护可能比扫描表空间消耗更多的时间。 七、大结局 查询是一个物理过程,表面上是SQLS在东跑西跑,其实真正大部分压马路的工作是由磁盘输入输出系统(I/O)完成,全表扫描需要从磁盘上读表的每一个数据页,如果有索引指向数据值,则I/O读几次磁盘就可以了。但是,在随时发生的增、删、改操作中,索引的存在会大大增加工作量,因此,合理的索引设计是建立在对各种查询的分析和预测上的,只有正确地使索引与程序结合起来,才能产生最佳的优化方案。 一般来说建立索引的思路是: (1)主键时常作为where子句的条件,应在表的主键列上建立聚聚集索引,尤其当经常用它作为连接的时候。 (2)有大量重复值且经常有范围查询和排序、分组发生的列,或者非常频繁地被访问的列,可考虑建立聚聚集索引。 (3)经常同时存取多列,且每列都含有重复值可考虑建立复合索引来覆盖一个或一组查询,并把查询引用最频繁的列作为前导列,如果可能尽量使关键查询形成覆盖查询。 (4)如果知道索引键的所有值都是唯一的,那么确保把索引定义成唯一索引。 (5)在一个经常做插入操作的表上建索引时,使用fillfactor(填充因子)来减少页分裂,同时提高并发度降低死锁的发生。如果在只读表上建索引,则可以把fillfactor置为100。 (6)在选择索引字段时,尽量选择那些小数据类型的字段作为索引键,以使每个索引页能够容纳尽可能多的索引键和指针,通过这种方式,可使一个查询必须遍历的索引页面降到最小。此外,尽可能地使用整数为键值,因为它能够提供比任何数据类型都快的访问速度。 SQLS是一个很复杂的系统,让索引以及查询背后的东西真相大白,可以帮助我们更为深刻的了解我们的系统。一句话,索引就象盐,少则无味多则咸。 本篇文章为转载内容。原文链接:https://blog.csdn.net/qq_28052907/article/details/75194926。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-04-30 23:10:07
97
转载
Docker
...入理解Docker的数据卷与数据卷容器的概念及其应用后,我们可以进一步探索如何在实际场景中优化和管理这些数据存储机制。最近,随着Kubernetes等容器编排系统的广泛应用,Docker数据卷的管理也变得更加复杂且重要。例如,在Kubernetes中,可以通过PersistentVolume(持久化卷)和PersistentVolumeClaim(持久化卷声明)对Docker数据卷进行更高级别的抽象和自动化管理,确保跨节点、跨Pod的数据持久性和可用性。 另外,考虑到数据安全性和备份恢复问题,近期有开发者提出了一种利用Docker数据卷容器实现定期自动备份的方法,并结合云存储服务(如AWS S3或阿里云OSS),将容器内的关键数据定期同步到云端,以防止因本地硬件故障导致的数据丢失。 此外,针对多用户环境下数据卷权限控制的问题,Docker在新版本中引入了改进的数据卷驱动程序支持,允许通过插件形式实现更灵活的数据访问控制策略,比如使用Rancher Local Path Provisioner或者开源项目Portworx提供动态、多租户的数据卷管理方案。 综上所述,随着技术的发展和企业级应用场景的拓展,对Docker数据卷及数据卷容器的理解和运用也需要与时俱进,关注最新实践案例和技术趋势,以便更好地服务于微服务架构、DevOps流程以及大数据分析等领域的数据管理需求。
2023-10-29 12:32:53
504
软件工程师
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
mv oldfile newfile
- 文件重命名或移动。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"