前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[机器学习预处理阶段处理异方差问题]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
...ist 中是否有等待处理的消息(比如写一个 while 循环)。 为了减少通信的消耗,可以 sleep()一段时间再消费,但是会有两个问题: 1、如果生产者生产消息的速度远大于消费者消费消息的速度,List 会占用大量的内存。 2、消息的实时性降低。 list 还提供了一个阻塞的命令:blpop,没有任何元素可以弹出的时候,连接会被阻塞。 基于 list 实现的消息队列,不支持一对多的消息分发。 1.2 发布订阅模式 除了通过 list 实现消息队列之外,Redis 还提供了一组命令实现发布/订阅模式。 这种方式,发送者和接收者没有直接关联(实现了解耦),接收者也不需要持续尝试获取消息。 1.2.1 订阅频道 首先,我们有很多的频道(channel),我们也可以把这个频道理解成 queue。订阅者可以订阅一个或者多个频道。消息的发布者(生产者)可以给指定的频道发布消息。只要有消息到达了频道,所有订阅了这个频道的订阅者都会收到这条消息。 需要注意的注意是,发出去的消息不会被持久化,因为它已经从队列里面移除了,所以消费者只能收到它开始订阅这个频道之后发布的消息。 下面我们来看一下发布订阅命令的使用方法。 订阅者订阅频道:可以一次订阅多个,比如这个客户端订阅了 3 个频道。 subscribe channel-1 channel-2 channel-3 发布者可以向指定频道发布消息(并不支持一次向多个频道发送消息): publish channel-1 2673 取消订阅(不能在订阅状态下使用): unsubscribe channel-1 1.2.2 按规则(Pattern)订阅频道 支持 ?和 占位符。? 代表一个字符, 代表 0 个或者多个字符。 消费端 1,关注运动信息: psubscribe sport 消费端 2,关注所有新闻: psubscribe news 消费端 3,关注天气新闻: psubscribe news-weather 生产者,发布 3 条信息 publish news-sport yaoming publish news-music jaychou publish news-weather rain 2、Redis 事务 2.1 为什么要用事务 我们知道 Redis 的单个命令是原子性的(比如 get set mget mset),如果涉及到多个命令的时候,需要把多个命令作为一个不可分割的处理序列,就需要用到事务。 例如我们之前说的用 setnx 实现分布式锁,我们先 set,然后设置对 key 设置 expire, 防止 del 发生异常的时候锁不会被释放,业务处理完了以后再 del,这三个动作我们就希望它们作为一组命令执行。 Redis 的事务有两个特点: 1、按进入队列的顺序执行。 2、不会受到其他客户端的请求的影响。 Redis 的事务涉及到四个命令:multi(开启事务),exec(执行事务),discard (取消事务),watch(监视) 2.2 事务的用法 案例场景:tom 和 mic 各有 1000 元,tom 需要向 mic 转账 100 元。tom 的账户余额减少 100 元,mic 的账户余额增加 100 元。 通过 multi 的命令开启事务。事务不能嵌套,多个 multi 命令效果一样。 multi 执行后,客户端可以继续向服务器发送任意多条命令,这些命令不会立即被执行,而是被放到一个队列中,当 exec 命令被调用时,所有队列中的命令才会被执行。 通过 exec 的命令执行事务。如果没有执行 exec,所有的命令都不会被执行。如果中途不想执行事务了,怎么办? 可以调用 discard 可以清空事务队列,放弃执行。 2.3 watch命令 在 Redis 中还提供了一个 watch 命令。 它可以为 Redis 事务提供 CAS 乐观锁行为(Check and Set / Compare and Swap),也就是多个线程更新变量的时候,会跟原值做比较,只有它没有被其他线程修改的情况下,才更新成新的值。 我们可以用 watch 监视一个或者多个 key,如果开启事务之后,至少有一个被监视 key 键在 exec 执行之前被修改了,那么整个事务都会被取消(key 提前过期除外)。可以用 unwatch 取消。 2.4 事务可能遇到的问题 我们把事务执行遇到的问题分成两种,一种是在执行 exec 之前发生错误,一种是在执行 exec 之后发生错误。 2.4.1 在执行 exec 之前发生错误 比如:入队的命令存在语法错误,包括参数数量,参数名等等(编译器错误)。 在这种情况下事务会被拒绝执行,也就是队列中所有的命令都不会得到执行。 2.4.2 在执行 exec 之后发生错误 比如,类型错误,比如对 String 使用了 Hash 的命令,这是一种运行时错误。 最后我们发现 set k1 1 的命令是成功的,也就是在这种发生了运行时异常的情况下, 只有错误的命令没有被执行,但是其他命令没有受到影响。 这个显然不符合我们对原子性的定义,也就是我们没办法用 Redis 的这种事务机制来实现原子性,保证数据的一致。 3、Lua脚本 Lua/ˈluə/是一种轻量级脚本语言,它是用 C 语言编写的,跟数据的存储过程有点类似。 使用 Lua 脚本来执行 Redis 命令的好处: 1、一次发送多个命令,减少网络开销。 2、Redis 会将整个脚本作为一个整体执行,不会被其他请求打断,保持原子性。 3、对于复杂的组合命令,我们可以放在文件中,可以实现程序之间的命令集复用。 3.1 在Redis中调用Lua脚本 使用 eval /ɪ’væl/ 方法,语法格式: redis> eval lua-script key-num [key1 key2 key3 ....] [value1 value2 value3 ....] eval代表执行Lua语言的命令。 lua-script代表Lua语言脚本内容。 key-num表示参数中有多少个key,需要注意的是Redis中key是从1开始的,如果没有key的参数,那么写0。 [key1key2key3…]是key作为参数传递给Lua语言,也可以不填,但是需要和key-num的个数对应起来。 [value1 value2 value3 …]这些参数传递给 Lua 语言,它们是可填可不填的。 示例,返回一个字符串,0 个参数: redis> eval "return 'Hello World'" 0 3.2 在Lua脚本中调用Redis命令 使用 redis.call(command, key [param1, param2…])进行操作。语法格式: redis> eval "redis.call('set',KEYS[1],ARGV[1])" 1 lua-key lua-value command是命令,包括set、get、del等。 key是被操作的键。 param1,param2…代表给key的参数。 注意跟 Java 不一样,定义只有形参,调用只有实参。 Lua 是在调用时用 key 表示形参,argv 表示参数值(实参)。 3.2.1 设置键值对 在 Redis 中调用 Lua 脚本执行 Redis 命令 redis> eval "return redis.call('set',KEYS[1],ARGV[1])" 1 gupao 2673 redis> get gupao 以上命令等价于 set gupao 2673。 在 redis-cli 中直接写 Lua 脚本不够方便,也不能实现编辑和复用,通常我们会把脚本放在文件里面,然后执行这个文件。 3.2.2 在 Redis 中调用 Lua 脚本文件中的命令,操作 Redis 创建 Lua 脚本文件: cd /usr/local/soft/redis5.0.5/src vim gupao.lua Lua 脚本内容,先设置,再取值: cd /usr/local/soft/redis5.0.5/src redis-cli --eval gupao.lua 0 得到返回值: root@localhost src] redis-cli --eval gupao.lua 0 "lua666" 3.2.3 案例:对 IP 进行限流 需求:在 X 秒内只能访问 Y 次。 设计思路:用 key 记录 IP,用 value 记录访问次数。 拿到 IP 以后,对 IP+1。如果是第一次访问,对 key 设置过期时间(参数 1)。否则判断次数,超过限定的次数(参数 2),返回 0。如果没有超过次数则返回 1。超过时间, key 过期之后,可以再次访问。 KEY[1]是 IP, ARGV[1]是过期时间 X,ARGV[2]是限制访问的次数 Y。 -- ip_limit.lua-- IP 限流,对某个 IP 频率进行限制 ,6 秒钟访问 10 次 local num=redis.call('incr',KEYS[1])if tonumber(num)==1 thenredis.call('expire',KEYS[1],ARGV[1])return 1elseif tonumber(num)>tonumber(ARGV[2]) thenreturn 0 elsereturn 1 end 6 秒钟内限制访问 10 次,调用测试(连续调用 10 次): ./redis-cli --eval "ip_limit.lua" app:ip:limit:192.168.8.111 , 6 10 app:ip:limit:192.168.8.111 是 key 值 ,后面是参数值,中间要加上一个空格和一个逗号,再加上一个空格 。 即:./redis-cli –eval [lua 脚本] [key…]空格,空格[args…] 多个参数之间用一个空格分割 。 代码:LuaTest.java 3.2.4 缓存 Lua 脚本 为什么要缓存 在脚本比较长的情况下,如果每次调用脚本都需要把整个脚本传给 Redis 服务端, 会产生比较大的网络开销。为了解决这个问题,Redis 提供了 EVALSHA 命令,允许开发者通过脚本内容的 SHA1 摘要来执行脚本。 如何缓存 Redis 在执行 script load 命令时会计算脚本的 SHA1 摘要并记录在脚本缓存中,执行 EVALSHA 命令时 Redis 会根据提供的摘要从脚本缓存中查找对应的脚本内容,如果找到了则执行脚本,否则会返回错误:“NOSCRIPT No matching script. Please use EVAL.” 127.0.0.1:6379> script load "return 'Hello World'" "470877a599ac74fbfda41caa908de682c5fc7d4b"127.0.0.1:6379> evalsha "470877a599ac74fbfda41caa908de682c5fc7d4b" 0 "Hello World" 3.2.5 自乘案例 Redis 有 incrby 这样的自增命令,但是没有自乘,比如乘以 3,乘以 5。我们可以写一个自乘的运算,让它乘以后面的参数: local curVal = redis.call("get", KEYS[1]) if curVal == false thencurVal = 0 elsecurVal = tonumber(curVal)endcurVal = curVal tonumber(ARGV[1]) redis.call("set", KEYS[1], curVal) return curVal 把这个脚本变成单行,语句之间使用分号隔开 local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal script load ‘命令’ 127.0.0.1:6379> script load 'local curVal = redis.call("get", KEYS[1]); if curVal == false then curVal = 0 else curVal = tonumber(curVal) end; curVal = curVal tonumber(ARGV[1]); redis.call("set", KEYS[1], curVal); return curVal' "be4f93d8a5379e5e5b768a74e77c8a4eb0434441" 调用: 127.0.0.1:6379> set num 2OK127.0.0.1:6379> evalsha be4f93d8a5379e5e5b768a74e77c8a4eb0434441 1 num 6 (integer) 12 3.2.6 脚本超时 Redis 的指令执行本身是单线程的,这个线程还要执行客户端的 Lua 脚本,如果 Lua 脚本执行超时或者陷入了死循环,是不是没有办法为客户端提供服务了呢? eval 'while(true) do end' 0 为了防止某个脚本执行时间过长导致 Redis 无法提供服务,Redis 提供了 lua-time-limit 参数限制脚本的最长运行时间,默认为 5 秒钟。 lua-time-limit 5000(redis.conf 配置文件中) 当脚本运行时间超过这一限制后,Redis 将开始接受其他命令但不会执行(以确保脚本的原子性,因为此时脚本并没有被终止),而是会返回“BUSY”错误。 Redis 提供了一个 script kill 的命令来中止脚本的执行。新开一个客户端: script kill 如果当前执行的 Lua 脚本对 Redis 的数据进行了修改(SET、DEL 等),那么通过 script kill 命令是不能终止脚本运行的。 127.0.0.1:6379> eval "redis.call('set','gupao','666') while true do end" 0 因为要保证脚本运行的原子性,如果脚本执行了一部分终止,那就违背了脚本原子性的要求。最终要保证脚本要么都执行,要么都不执行。 127.0.0.1:6379> script kill(error) UNKILLABLE Sorry the script already executed write commands against the dataset. You can either wait the scripttermination or kill the server in a hard way using the SHUTDOWN NOSAVE command. 遇到这种情况,只能通过 shutdown nosave 命令来强行终止 redis。 shutdown nosave 和 shutdown 的区别在于 shutdown nosave 不会进行持久化操作,意味着发生在上一次快照后的数据库修改都会丢失。 4、Redis 为什么这么快? 4.1 Redis到底有多快? 根据官方的数据,Redis 的 QPS 可以达到 10 万左右(每秒请求数)。 4.2 Redis为什么这么快? 总结:1)纯内存结构、2)单线程、3)多路复用 4.2.1 内存 KV 结构的内存数据库,时间复杂度 O(1)。 第二个,要实现这么高的并发性能,是不是要创建非常多的线程? 恰恰相反,Redis 是单线程的。 4.2.2 单线程 单线程有什么好处呢? 1、没有创建线程、销毁线程带来的消耗 2、避免了上线文切换导致的 CPU 消耗 3、避免了线程之间带来的竞争问题,例如加锁释放锁死锁等等 4.2.3 异步非阻塞 异步非阻塞 I/O,多路复用处理并发连接。 4.3 Redis为什么是单线程的? 不是白白浪费了 CPU 的资源吗? 因为单线程已经够用了,CPU 不是 redis 的瓶颈。Redis 的瓶颈最有可能是机器内存或者网络带宽。既然单线程容易实现,而且 CPU 不会成为瓶颈,那就顺理成章地采用单线程的方案了。 4.4 单线程为什么这么快? 因为 Redis 是基于内存的操作,我们先从内存开始说起。 4.4.1 虚拟存储器(虚拟内存 Vitual Memory) 名词解释:主存:内存;辅存:磁盘(硬盘) 计算机主存(内存)可看作一个由 M 个连续的字节大小的单元组成的数组,每个字节有一个唯一的地址,这个地址叫做物理地址(PA)。早期的计算机中,如果 CPU 需要内存,使用物理寻址,直接访问主存储器。 这种方式有几个弊端: 1、在多用户多任务操作系统中,所有的进程共享主存,如果每个进程都独占一块物理地址空间,主存很快就会被用完。我们希望在不同的时刻,不同的进程可以共用同一块物理地址空间。 2、如果所有进程都是直接访问物理内存,那么一个进程就可以修改其他进程的内存数据,导致物理地址空间被破坏,程序运行就会出现异常。 为了解决这些问题,我们就想了一个办法,在 CPU 和主存之间增加一个中间层。CPU 不再使用物理地址访问,而是访问一个虚拟地址,由这个中间层把地址转换成物理地址,最终获得数据。这个中间层就叫做虚拟存储器(Virtual Memory)。 具体的操作如下所示: 在每一个进程开始创建的时候,都会分配一段虚拟地址,然后通过虚拟地址和物理地址的映射来获取真实数据,这样进程就不会直接接触到物理地址,甚至不知道自己调用的哪块物理地址的数据。 目前,大多数操作系统都使用了虚拟内存,如 Windows 系统的虚拟内存、Linux 系统的交换空间等等。Windows 的虚拟内存(pagefile.sys)是磁盘空间的一部分。 在 32 位的系统上,虚拟地址空间大小是 2^32bit=4G。在 64 位系统上,最大虚拟地址空间大小是多少? 是不是 2^64bit=10241014TB=1024PB=16EB?实际上没有用到 64 位,因为用不到这么大的空间,而且会造成很大的系统开销。Linux 一般用低 48 位来表示虚拟地址空间,也就是 2^48bit=256T。 cat /proc/cpuinfo address sizes : 40 bits physical, 48 bits virtual 实际的物理内存可能远远小于虚拟内存的大小。 总结:引入虚拟内存,可以提供更大的地址空间,并且地址空间是连续的,使得程序编写、链接更加简单。并且可以对物理内存进行隔离,不同的进程操作互不影响。还可以通过把同一块物理内存映射到不同的虚拟地址空间实现内存共享。 4.4.2 用户空间和内核空间 为了避免用户进程直接操作内核,保证内核安全,操作系统将虚拟内存划分为两部分,一部分是内核空间(Kernel-space)/ˈkɜːnl /,一部分是用户空间(User-space)。 内核是操作系统的核心,独立于普通的应用程序,可以访问受保护的内存空间,也有访问底层硬件设备的权限。 内核空间中存放的是内核代码和数据,而进程的用户空间中存放的是用户程序的代码和数据。不管是内核空间还是用户空间,它们都处于虚拟空间中,都是对物理地址的映射。 在 Linux 系统中, 内核进程和用户进程所占的虚拟内存比例是 1:3。 当进程运行在内核空间时就处于内核态,而进程运行在用户空间时则处于用户态。 进程在内核空间以执行任意命令,调用系统的一切资源;在用户空间只能执行简单的运算,不能直接调用系统资源,必须通过系统接口(又称 system call),才能向内核发出指令。 top 命令: us 代表 CPU 消耗在 User space 的时间百分比; sy 代表 CPU 消耗在 Kernel space 的时间百分比。 4.4.3 进程切换(上下文切换) 多任务操作系统是怎么实现运行远大于 CPU 数量的任务个数的? 当然,这些任务实际上并不是真的在同时运行,而是因为系统通过时间片分片算法,在很短的时间内,将 CPU 轮流分配给它们,造成多任务同时运行的错觉。 为了控制进程的执行,内核必须有能力挂起正在 CPU 上运行的进程,并恢复以前挂起的某个进程的执行。这种行为被称为进程切换。 什么叫上下文? 在每个任务运行前,CPU 都需要知道任务从哪里加载、又从哪里开始运行,也就是说,需要系统事先帮它设置好 CPU 寄存器和程序计数器(ProgramCounter),这个叫做 CPU 的上下文。 而这些保存下来的上下文,会存储在系统内核中,并在任务重新调度执行时再次加载进来。这样就能保证任务原来的状态不受影响,让任务看起来还是连续运行。 在切换上下文的时候,需要完成一系列的工作,这是一个很消耗资源的操作。 4.4.4 进程的阻塞 正在运行的进程由于提出系统服务请求(如 I/O 操作),但因为某种原因未得到操作系统的立即响应,该进程只能把自己变成阻塞状态,等待相应的事件出现后才被唤醒。 进程在阻塞状态不占用 CPU 资源。 4.4.5 文件描述符 FD Linux 系统将所有设备都当作文件来处理,而 Linux 用文件描述符来标识每个文件对象。 文件描述符(File Descriptor)是内核为了高效管理已被打开的文件所创建的索引,用于指向被打开的文件,所有执行 I/O 操作的系统调用都通过文件描述符;文件描述符是一个简单的非负整数,用以表明每个被进程打开的文件。 Linux 系统里面有三个标准文件描述符。 0:标准输入(键盘); 1:标准输出(显示器); 2:标准错误输出(显示器)。 4.4.6 传统 I/O 数据拷贝 以读操作为例: 当应用程序执行 read 系统调用读取文件描述符(FD)的时候,如果这块数据已经存在于用户进程的页内存中,就直接从内存中读取数据。如果数据不存在,则先将数据从磁盘加载数据到内核缓冲区中,再从内核缓冲区拷贝到用户进程的页内存中。(两次拷贝,两次 user 和 kernel 的上下文切换)。 I/O 的阻塞到底阻塞在哪里? 4.4.7 Blocking I/O 当使用 read 或 write 对某个文件描述符进行过读写时,如果当前 FD 不可读,系统就不会对其他的操作做出响应。从设备复制数据到内核缓冲区是阻塞的,从内核缓冲区拷贝到用户空间,也是阻塞的,直到 copy complete,内核返回结果,用户进程才解除 block 的状态。 为了解决阻塞的问题,我们有几个思路。 1、在服务端创建多个线程或者使用线程池,但是在高并发的情况下需要的线程会很多,系统无法承受,而且创建和释放线程都需要消耗资源。 2、由请求方定期轮询,在数据准备完毕后再从内核缓存缓冲区复制数据到用户空间 (非阻塞式 I/O),这种方式会存在一定的延迟。 能不能用一个线程处理多个客户端请求? 4.4.8 I/O 多路复用(I/O Multiplexing) I/O 指的是网络 I/O。 多路指的是多个 TCP 连接(Socket 或 Channel)。 复用指的是复用一个或多个线程。它的基本原理就是不再由应用程序自己监视连接,而是由内核替应用程序监视文件描述符。 客户端在操作的时候,会产生具有不同事件类型的 socket。在服务端,I/O 多路复用程序(I/O Multiplexing Module)会把消息放入队列中,然后通过文件事件分派器(File event Dispatcher),转发到不同的事件处理器中。 多路复用有很多的实现,以 select 为例,当用户进程调用了多路复用器,进程会被阻塞。内核会监视多路复用器负责的所有 socket,当任何一个 socket 的数据准备好了,多路复用器就会返回。这时候用户进程再调用 read 操作,把数据从内核缓冲区拷贝到用户空间。 所以,I/O 多路复用的特点是通过一种机制一个进程能同时等待多个文件描述符,而这些文件描述符(套接字描述符)其中的任意一个进入读就绪(readable)状态,select() 函数就可以返回。 Redis 的多路复用, 提供了 select, epoll, evport, kqueue 几种选择,在编译的时 候来选择一种。 evport 是 Solaris 系统内核提供支持的; epoll 是 LINUX 系统内核提供支持的; kqueue 是 Mac 系统提供支持的; select 是 POSIX 提供的,一般的操作系统都有支撑(保底方案); 源码 ae_epoll.c、ae_select.c、ae_kqueue.c、ae_evport.c 5、内存回收 Reids 所有的数据都是存储在内存中的,在某些情况下需要对占用的内存空间进行回 收。内存回收主要分为两类,一类是 key 过期,一类是内存使用达到上限(max_memory) 触发内存淘汰。 5.1 过期策略 要实现 key 过期,我们有几种思路。 5.1.1 定时过期(主动淘汰) 每个设置过期时间的 key 都需要创建一个定时器,到过期时间就会立即清除。该策略可以立即清除过期的数据,对内存很友好;但是会占用大量的 CPU 资源去处理过期的 数据,从而影响缓存的响应时间和吞吐量。 5.1.2 惰性过期(被动淘汰) 只有当访问一个 key 时,才会判断该 key 是否已过期,过期则清除。该策略可以最大化地节省 CPU 资源,却对内存非常不友好。极端情况可能出现大量的过期 key 没有再次被访问,从而不会被清除,占用大量内存。 例如 String,在 getCommand 里面会调用 expireIfNeeded server.c expireIfNeeded(redisDb db, robj key) 第二种情况,每次写入 key 时,发现内存不够,调用 activeExpireCycle 释放一部分内存。 expire.c activeExpireCycle(int type) 5.1.3 定期过期 源码:server.h typedef struct redisDb { dict dict; / 所有的键值对 /dict expires; / 设置了过期时间的键值对 /dict blocking_keys; dict ready_keys; dict watched_keys; int id;long long avg_ttl;list defrag_later; } redisDb; 每隔一定的时间,会扫描一定数量的数据库的 expires 字典中一定数量的 key,并清除其中已过期的 key。该策略是前两者的一个折中方案。通过调整定时扫描的时间间隔和每次扫描的限定耗时,可以在不同情况下使得 CPU 和内存资源达到最优的平衡效果。 Redis 中同时使用了惰性过期和定期过期两种过期策略。 5.2 淘汰策略 Redis 的内存淘汰策略,是指当内存使用达到最大内存极限时,需要使用淘汰算法来决定清理掉哪些数据,以保证新数据的存入。 5.2.1 最大内存设置 redis.conf 参数配置: maxmemory <bytes> 如果不设置 maxmemory 或者设置为 0,64 位系统不限制内存,32 位系统最多使用 3GB 内存。 动态修改: redis> config set maxmemory 2GB 到达最大内存以后怎么办? 5.2.2 淘汰策略 https://redis.io/topics/lru-cache redis.conf maxmemory-policy noeviction 先从算法来看: LRU,Least Recently Used:最近最少使用。判断最近被使用的时间,目前最远的数据优先被淘汰。 LFU,Least Frequently Used,最不常用,4.0 版本新增。 random,随机删除。 如果没有符合前提条件的 key 被淘汰,那么 volatile-lru、volatile-random、 volatile-ttl 相当于 noeviction(不做内存回收)。 动态修改淘汰策略: redis> config set maxmemory-policy volatile-lru 建议使用 volatile-lru,在保证正常服务的情况下,优先删除最近最少使用的 key。 5.2.3 LRU 淘汰原理 问题:如果基于传统 LRU 算法实现 Redis LRU 会有什么问题? 需要额外的数据结构存储,消耗内存。 Redis LRU 对传统的 LRU 算法进行了改良,通过随机采样来调整算法的精度。如果淘汰策略是 LRU,则根据配置的采样值 maxmemory_samples(默认是 5 个), 随机从数据库中选择 m 个 key, 淘汰其中热度最低的 key 对应的缓存数据。所以采样参数m配置的数值越大, 就越能精确的查找到待淘汰的缓存数据,但是也消耗更多的CPU计算,执行效率降低。 问题:如何找出热度最低的数据? Redis 中所有对象结构都有一个 lru 字段, 且使用了 unsigned 的低 24 位,这个字段用来记录对象的热度。对象被创建时会记录 lru 值。在被访问的时候也会更新 lru 的值。 但是不是获取系统当前的时间戳,而是设置为全局变量 server.lruclock 的值。 源码:server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; server.lruclock 的值怎么来的? Redis 中有个定时处理的函数 serverCron,默认每 100 毫秒调用函数 updateCachedTime 更新一次全局变量的 server.lruclock 的值,它记录的是当前 unix 时间戳。 源码:server.c void updateCachedTime(void) { time_t unixtime = time(NULL); atomicSet(server.unixtime,unixtime); server.mstime = mstime();struct tm tm; localtime_r(&server.unixtime,&tm);server.daylight_active = tm.tm_isdst; } 问题:为什么不获取精确的时间而是放在全局变量中?不会有延迟的问题吗? 这样函数 lookupKey 中更新数据的 lru 热度值时,就不用每次调用系统函数 time,可以提高执行效率。 OK,当对象里面已经有了 LRU 字段的值,就可以评估对象的热度了。 函数 estimateObjectIdleTime 评估指定对象的 lru 热度,思想就是对象的 lru 值和全局的 server.lruclock 的差值越大(越久没有得到更新),该对象热度越低。 源码 evict.c / Given an object returns the min number of milliseconds the object was never requested, using an approximated LRU algorithm. /unsigned long long estimateObjectIdleTime(robj o) {unsigned long long lruclock = LRU_CLOCK(); if (lruclock >= o->lru) {return (lruclock - o->lru) LRU_CLOCK_RESOLUTION; } else {return (lruclock + (LRU_CLOCK_MAX - o->lru)) LRU_CLOCK_RESOLUTION;} } server.lruclock 只有 24 位,按秒为单位来表示才能存储 194 天。当超过 24bit 能表 示的最大时间的时候,它会从头开始计算。 server.h define LRU_CLOCK_MAX ((1<<LRU_BITS)-1) / Max value of obj->lru / 在这种情况下,可能会出现对象的 lru 大于 server.lruclock 的情况,如果这种情况 出现那么就两个相加而不是相减来求最久的 key。 为什么不用常规的哈希表+双向链表的方式实现?需要额外的数据结构,消耗资源。而 Redis LRU 算法在 sample 为 10 的情况下,已经能接近传统 LRU 算法了。 问题:除了消耗资源之外,传统 LRU 还有什么问题? 如图,假设 A 在 10 秒内被访问了 5 次,而 B 在 10 秒内被访问了 3 次。因为 B 最后一次被访问的时间比 A 要晚,在同等的情况下,A 反而先被回收。 问题:要实现基于访问频率的淘汰机制,怎么做? 5.2.4 LFU server.h typedef struct redisObject {unsigned type:4;unsigned encoding:4;unsigned lru:LRU_BITS;int refcount;void ptr; } robj; 当这 24 bits 用作 LFU 时,其被分为两部分: 高 16 位用来记录访问时间(单位为分钟,ldt,last decrement time) 低 8 位用来记录访问频率,简称 counter(logc,logistic counter) counter 是用基于概率的对数计数器实现的,8 位可以表示百万次的访问频率。 对象被读写的时候,lfu 的值会被更新。 db.c——lookupKey void updateLFU(robj val) {unsigned long counter = LFUDecrAndReturn(val); counter = LFULogIncr(counter);val->lru = (LFUGetTimeInMinutes()<<8) | counter;} 增长的速率由,lfu-log-factor 越大,counter 增长的越慢 redis.conf 配置文件。 lfu-log-factor 10 如果计数器只会递增不会递减,也不能体现对象的热度。没有被访问的时候,计数器怎么递减呢? 减少的值由衰减因子 lfu-decay-time(分钟)来控制,如果值是 1 的话,N 分钟没有访问就要减少 N。 redis.conf 配置文件 lfu-decay-time 1 6、持久化机制 https://redis.io/topics/persistence Redis 速度快,很大一部分原因是因为它所有的数据都存储在内存中。如果断电或者宕机,都会导致内存中的数据丢失。为了实现重启后数据不丢失,Redis 提供了两种持久化的方案,一种是 RDB 快照(Redis DataBase),一种是 AOF(Append Only File)。 6.1 RDB RDB 是 Redis 默认的持久化方案。当满足一定条件的时候,会把当前内存中的数据写入磁盘,生成一个快照文件 dump.rdb。Redis 重启会通过加载 dump.rdb 文件恢复数据。 什么时候写入 rdb 文件? 6.1.1 RDB 触发 1、自动触发 a)配置规则触发。 redis.conf, SNAPSHOTTING,其中定义了触发把数据保存到磁盘的触发频率。 如果不需要 RDB 方案,注释 save 或者配置成空字符串""。 save 900 1 900 秒内至少有一个 key 被修改(包括添加) save 300 10 400 秒内至少有 10 个 key 被修改save 60 10000 60 秒内至少有 10000 个 key 被修改 注意上面的配置是不冲突的,只要满足任意一个都会触发。 RDB 文件位置和目录: 文件路径,dir ./ 文件名称dbfilename dump.rdb 是否是LZF压缩rdb文件 rdbcompression yes 开启数据校验 rdbchecksum yes 问题:为什么停止 Redis 服务的时候没有 save,重启数据还在? RDB 还有两种触发方式: b)shutdown 触发,保证服务器正常关闭。 c)flushall,RDB 文件是空的,没什么意义(删掉 dump.rdb 演示一下)。 2、手动触发 如果我们需要重启服务或者迁移数据,这个时候就需要手动触 RDB 快照保存。Redis 提供了两条命令: a)save save 在生成快照的时候会阻塞当前 Redis 服务器, Redis 不能处理其他命令。如果内存中的数据比较多,会造成 Redis 长时间的阻塞。生产环境不建议使用这个命令。 为了解决这个问题,Redis 提供了第二种方式。 执行 bgsave 时,Redis 会在后台异步进行快照操作,快照同时还可以响应客户端请求。 具体操作是 Redis 进程执行 fork 操作创建子进程(copy-on-write),RDB 持久化过程由子进程负责,完成后自动结束。它不会记录 fork 之后后续的命令。阻塞只发生在 fork 阶段,一般时间很短。 用 lastsave 命令可以查看最近一次成功生成快照的时间。 6.1.2 RDB 数据的恢复(演示) 1、shutdown 持久化添加键值 添加键值 redis> set k1 1 redis> set k2 2 redis> set k3 3 redis> set k4 4 redis> set k5 5 停服务器,触发 save redis> shutdown 备份 dump.rdb 文件 cp dump.rdb dump.rdb.bak 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 啥都没有: redis> keys 3、通过备份文件恢复数据停服务器 redis> shutdown 重命名备份文件 mv dump.rdb.bak dump.rdb 启动服务器 /usr/local/soft/redis-5.0.5/src/redis-server /usr/local/soft/redis-5.0.5/redis.conf 查看数据 redis> keys 6.1.3 RDB 文件的优势和劣势 一、优势 1.RDB 是一个非常紧凑(compact)的文件,它保存了 redis 在某个时间点上的数据集。这种文件非常适合用于进行备份和灾难恢复。 2.生成 RDB 文件的时候,redis 主进程会 fork()一个子进程来处理所有保存工作,主进程不需要进行任何磁盘 IO 操作。 3.RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。 二、劣势 1、RDB 方式数据没办法做到实时持久化/秒级持久化。因为 bgsave 每次运行都要执行 fork 操作创建子进程,频繁执行成本过高。 2、在一定间隔时间做一次备份,所以如果 redis 意外 down 掉的话,就会丢失最后一次快照之后的所有修改(数据有丢失)。 如果数据相对来说比较重要,希望将损失降到最小,则可以使用 AOF 方式进行持久化。 6.2 AOF Append Only File AOF:Redis 默认不开启。AOF 采用日志的形式来记录每个写操作,并追加到文件中。开启后,执行更改 Redis 数据的命令时,就会把命令写入到 AOF 文件中。 Redis 重启时会根据日志文件的内容把写指令从前到后执行一次以完成数据的恢复工作。 6.2.1 AOF 配置 配置文件 redis.conf 开关appendonly no 文件名appendfilename "appendonly.aof" AOF 文件的内容(vim 查看): 问题:数据都是实时持久化到磁盘吗? 由于操作系统的缓存机制,AOF 数据并没有真正地写入硬盘,而是进入了系统的硬盘缓存。什么时候把缓冲区的内容写入到 AOF 文件? 问题:文件越来越大,怎么办? 由于 AOF 持久化是 Redis 不断将写命令记录到 AOF 文件中,随着 Redis 不断的进行,AOF 的文件会越来越大,文件越大,占用服务器内存越大以及 AOF 恢复要求时间越长。 例如 set xxx 666,执行 1000 次,结果都是 xxx=666。 为了解决这个问题,Redis 新增了重写机制,当 AOF 文件的大小超过所设定的阈值时,Redis 就会启动 AOF 文件的内容压缩,只保留可以恢复数据的最小指令集。 可以使用命令 bgrewriteaof 来重写。 AOF 文件重写并不是对原文件进行重新整理,而是直接读取服务器现有的键值对,然后用一条命令去代替之前记录这个键值对的多条命令,生成一个新的文件后去替换原来的 AOF 文件。 重写触发机制 auto-aof-rewrite-percentage 100 auto-aof-rewrite-min-size 64mb 问题:重写过程中,AOF 文件被更改了怎么办? 另外有两个与 AOF 相关的参数: 6.2.2 AOF 数据恢复 重启 Redis 之后就会进行 AOF 文件的恢复。 6.2.3 AOF 优势与劣势 优点: 1、AOF 持久化的方法提供了多种的同步频率,即使使用默认的同步频率每秒同步一次,Redis 最多也就丢失 1 秒的数据而已。 缺点: 1、对于具有相同数据的的 Redis,AOF 文件通常会比 RDB 文件体积更大(RDB 存的是数据快照)。 2、虽然 AOF 提供了多种同步的频率,默认情况下,每秒同步一次的频率也具有较高的性能。在高并发的情况下,RDB 比 AOF 具好更好的性能保证。 6.3 两种方案比较 那么对于 AOF 和 RDB 两种持久化方式,我们应该如何选择呢? 如果可以忍受一小段时间内数据的丢失,毫无疑问使用 RDB 是最好的,定时生成 RDB 快照(snapshot)非常便于进行数据库备份, 并且 RDB 恢复数据集的速度也要比 AOF 恢复的速度要快。 否则就使用 AOF 重写。但是一般情况下建议不要单独使用某一种持久化机制,而是应该两种一起用,在这种情况下,当 redis 重启的时候会优先载入 AOF 文件来恢复原始的数据,因为在通常情况下 AOF 文件保存的数据集要比 RDB 文件保存的数据集要完整。 本篇文章为转载内容。原文链接:https://blog.csdn.net/zhoutaochun/article/details/120075092。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2024-03-18 12:25:04
541
转载
Python
...代》 随着人工智能和机器学习的发展,Python与Selenium的结合正在开启自动化测试的新篇章。最近的研究表明,研究人员正在尝试利用深度学习技术提升Selenium的行为模仿能力,使其能够更智能地识别和模拟复杂的用户交互。例如,一项名为"Neural Automata"的项目,利用神经网络模型学习和预测用户的操作模式,使得自动化测试更加精准且适应性更强。 同时,业界也在探讨如何将Selenium与自然语言处理(NLP)结合,以实现通过文本指令控制浏览器,进一步降低自动化测试的门槛。这不仅可以简化测试脚本的编写,还能使非技术背景的团队成员也能参与到测试流程中来。 此外,随着DevOps的普及,Selenium正在与容器化、云服务和微服务架构紧密结合,实现跨环境、跨平台的无缝自动化测试。这不仅提升了测试效率,也使得测试结果在不同环境中的一致性得到了保障。 总之,Python与Selenium的结合正在朝着更智能、更灵活的方向发展,预示着自动化测试将迎来一场深刻的变革,为软件质量保证提供更为高效和可靠的解决方案。开发者和测试工程师们应关注这些新兴趋势,以便及时掌握并应用到自己的工作中。
2024-05-01 16:24:58
245
编程狂人
VUE
...者进行关键操作的重要阶段。近期,Vue.js团队持续优化框架性能与开发者体验,在Vue 3.x版本中对生命周期钩子进行了重构和扩展,新增了诸如onBeforeUnmount等API,以更好地满足现代前端开发需求。同时,官方文档也强烈建议开发者关注并合理使用这些生命周期钩子,特别是在处理如定时器、事件监听器等可能会导致内存泄漏的情况时。 例如,除了beforeDestroy或beforeUnmount外,Vue 3引入了setup()函数,它在组件实例创建之后、渲染之前执行,为资源初始化提供了更为灵活的时机。而在卸载阶段,可以结合onUnmounted()来替代旧版的beforeDestroy钩子,实现更加清晰且易于维护的清理逻辑。 此外,对于大型项目或长期运行的应用,有效管理内存至关重要。开发者应深入理解JavaScript垃圾回收机制,并结合Vue.js特性,确保在组件销毁时解除所有引用,防止无用数据长时间占据内存空间。因此,掌握如何利用Vue.js生命周期钩子进行资源释放,不仅是提升应用性能的关键步骤,也是提高代码质量、避免潜在问题的良好实践。 同时,社区中也有许多针对Vue.js内存管理及性能优化的实战案例和深度解析文章,通过学习这些前沿实践,开发者能够更全面地理解和运用Vue.js生命周期钩子,从而编写出更加高效、健壮的组件代码。
2023-12-03 18:12:48
66
逻辑鬼才
Java
...和前沿进展。例如,在机器学习和大数据分析领域,矩阵运算作为基础计算单元,其高效处理手段至关重要。近日,Apache Spark 3.2版本发布,其中对Matrix DataFrame API进行了优化升级,支持更灵活、高效的矩阵操作,包括行列裁剪、转置等,大大提升了大规模数据处理性能。 此外,Google Research团队近期发表了一项关于稀疏矩阵高效运算的研究成果,通过创新的数据结构和算法设计,能够在处理亿级维度的稀疏矩阵时实现快速的行删减与列筛选,这对于推荐系统、自然语言处理等领域的模型训练有着重大意义。 同时,学术界对于矩阵理论及其实现的探讨也从未停止。比如,基于Strassen算法或Coppersmith-Winograd算法的矩阵乘法优化,尽管主要应用于理论研究,但也为实际编程中矩阵操作效率提升提供了新的思路和启发。 总的来说,二维矩阵的删除操作只是矩阵运算的一个基础环节,随着技术发展,如何在更大规模、更高维度的矩阵上进行有效且快速的操作,已经成为现代计算机科学和应用领域持续关注和突破的重要课题。
2023-02-17 11:26:36
284
算法侠
转载文章
...环境,其中的方法映射问题就是在Vue组件内部进行解决的。 methods , 在Vue.js中,methods是一个对象属性,用于定义Vue实例或组件的自定义方法,这些方法可以直接操作组件内部的数据并通过Vue的响应式系统实时更新视图。例如,文章中的demoEvent就是一个定义在methods对象中的函数,它能修改组件的状态(如data中的title属性)。 生命周期钩子 , 生命周期钩子是Vue.js中提供的一系列预设的函数,它们会在组件从创建到销毁的过程中,在特定阶段自动调用。比如在本文中提到的mounted就是其中一个生命周期钩子,它会在组件完成渲染并挂载到DOM之后执行。开发者可以在这个钩子函数中执行需要在组件挂载完成后运行的代码,例如将methods中的函数绑定到全局window对象上。
2023-03-31 11:24:02
43
转载
JSON
...许开发者在API设计阶段即对JSON数据结构进行详细的定义和检查,有效预防因格式错误导致的应用崩溃或性能下降问题。 此外,随着JSON-LD(JSON for Linking Data)标准的发展,JSON不再仅限于纯数据表示,而是逐渐成为语义网络和知识图谱构建的关键工具。JSON-LD通过引入上下文信息,使得JSON数据具有更强的互操作性和可机器解析性,为人工智能、大数据分析等领域提供了有力支持。 同时,针对JSON安全问题,业界专家提醒开发者关注JSON注入攻击的风险。这种攻击手法利用了服务端对用户提交JSON数据解析时的漏洞,通过精心构造的恶意JSON内容实现非法操作。因此,开发人员在处理JSON数据时,不仅要遵循正确的语法格式,还应采用适当的安全策略,如输入验证、最小权限原则等,确保JSON数据交互的安全可靠。 综上所述,JSON作为主流的数据交换格式,在不断优化和完善的过程中,正持续影响着软件工程、数据分析以及信息安全等多个领域的实践与发展。从遵守基本语法规范到紧跟前沿技术趋势,全面理解和掌握JSON的应用与防护至关重要。
2023-06-16 09:53:24
301
算法侠
Java
...和局限性,如类型擦除问题及其可能引发的运行时异常。针对这些问题,有专家提出使用“类型令牌”(Type Tokens)等技术来增强反射API对泛型类型的识别能力,从而提升框架设计与开发效率。 同时,在响应式编程、函数式编程等新兴编程范式中,Java泛型也在发挥着日益重要的作用。比如Reactive Streams规范下的Publisher、Subscriber接口,它们利用泛型确保了数据流处理过程中的类型一致性与安全性。 不仅如此,一些高性能库如Vavr(原名为Javaslang)引入了更高级的泛型概念,如协变(Covariance)、逆变(Contravariance)以及不变(Invariance),为开发者提供了更加灵活且强大的类型系统工具集。 总的来说,Java泛型作为现代Java编程的核心组成部分,其理论研究和实践应用正不断深化和发展,值得广大开发者持续关注和学习。
2023-01-06 19:10:18
357
码农
Python
...数、优化算法以及用于处理各种科学任务的工具箱。在本文的语境下,特别提到了SciPy库中的scipy.stats模块,其中包含了一个名为entropy的函数,可以用来方便地计算信息熵以及其他与信息论相关的指标。 相对熵 , 也称为KL散度(Kullback-Leibler divergence),是衡量两个概率分布之间差异的一种方法,在信息论中有着重要应用。相对熵是非负的,并且当两个概率分布完全相同时,其值为零。在Python的SciPy库中,虽然文章未直接展示如何计算相对熵,但entropy函数实际上也能支持计算相对熵,即比较一个实际的概率分布与另一个参考分布之间的距离或者信息增益。在机器学习等领域中,相对熵常被用作损失函数来评估模型预测结果与真实分布的接近程度。
2023-08-02 10:52:00
222
数据库专家
MySQL
...移,能够有效提升数据处理效率和安全性。 与此同时,随着云计算和容器化技术的发展,越来越多的企业选择将MySQL部署在如Docker或云服务器上。例如,AWS RDS(Amazon Relational Database Service)提供了一键式部署MySQL服务的功能,并集成了自动备份、故障切换等高级特性,大大简化了数据库运维工作。 另外,针对数据库优化及安全防护方面,定期审计MySQL日志、合理设置索引策略、采用SSL加密通信协议以保护数据传输安全等也是现代数据库管理员必备的知识点。近期,业界还提出了通过机器学习算法预测数据库性能瓶颈,提前进行资源调度的新方法,这一创新研究为MySQL数据库的高效稳定运行提供了新的可能。 综上所述,在实际操作MySQL服务的基础上,关注其最新版本特性、云端部署趋势以及数据库优化和安全领域的前沿动态,将有助于我们在日常工作中更高效地利用MySQL这一强大而灵活的关系型数据库管理系统。
2023-10-18 17:15:18
48
电脑达人
JSON
...探讨一下JSON数据处理的相关实践与最新动态。近年来,随着前端技术和API接口设计的快速发展,JSON数据交换格式的应用场景愈发广泛且深入。 例如,在2021年,Node.js发布了其最新稳定版本,其中对JSON模块进行了性能优化和功能增强,支持更高效的大规模JSON数据解析和生成。同时,一些主流的前端框架如React、Vue等也提供了更为便捷的方式来处理JSON数据,比如React Hooks中的useReducer可以用来简化复杂状态(包括JSON数据)的管理逻辑。 此外,针对安全性问题,JSON Schema作为一种用于描述和验证JSON数据结构的标准,被越来越多的开发者所关注和采用。通过预先定义JSON Schema,可以在数据交换过程中实时校验JSON数据的有效性,避免因数据格式错误导致的问题,并可实现对敏感字段的值进行清理或加密。 近期,业界还提出了一种名为“JSON Patch”的RFC标准(RFC 6902),它提供了一种描述JSON文档变更的方式,使得在网络传输中只传递差异部分成为可能,这无疑为JSON数据的更新操作提供了更为轻量级的解决方案,同时也间接涉及到JSON数据的部分属性值清零的需求。 总之,随着技术的发展,JSON数据处理的方法论和技术手段都在不断演进和完善,无论是对JSON value的清空操作,还是更深层次的数据校验、高效传输以及状态管理等方面,都有丰富的研究内容和最佳实践值得我们持续关注和学习。
2023-10-16 19:41:44
522
码农
JQuery
...需求的不断提升,视频处理与交互设计已经成为现代网页开发中的重要一环。近期,随着Web Components、WebGL以及WebAssembly等技术的日益成熟,前端开发者拥有了更多元化的工具来打造功能丰富且性能优异的在线视频播放器。 例如,2023年年初,Google开源了一款名为Shaka Player的JavaScript视频播放器项目,它专为流媒体设计,全面支持DASH及HLS协议,并提供了丰富的API供开发者进行自定义扩展,从而实现更高级的视频控制功能,如广告插入、多音轨切换、字幕同步显示等。此外,Shaka Player还针对不同网络环境进行了优化,确保视频流畅播放,提升了用户观看体验。 同时,在响应式设计和无障碍访问方面,W3C组织也在不断更新和完善相关规范,鼓励开发者在构建包含视频元素的网页时,不仅要考虑多种设备和浏览器的兼容性,还要关注视听障碍群体的需求,比如提供精准的字幕和音频描述服务。 进一步地,对于热衷于探索前沿技术的开发者来说,将AI技术融入视频处理也是一大趋势。诸如动态背景替换、实时AR滤镜等功能,已经在一些创新的Web应用中得以实现。这些应用背后的技术栈通常包括TensorFlow.js等机器学习框架,它们与jQuery这样的DOM操作库相结合,让Web端的视频处理能力达到了前所未有的高度。 综上所述,jQuery在视频控制方面的应用只是前端开发领域的一个侧面,而与时俱进地掌握并运用最新的Web技术和标准,才能更好地满足当今用户对于多媒体交互体验的期待。通过深入研究类似Shaka Player的开源项目,关注W3C的相关规范发展,乃至尝试结合AI技术,都将有助于我们在实践中提升网页视频处理的层次与品质。
2023-12-29 08:15:24
314
键盘勇士
转载文章
...据范围的依赖特性,在处理整数且数据范围相对较小的情况时表现出优秀的性能,时间复杂度为O(n+k),其中n为待排序元素个数,k为数据范围大小。这一特性使其在大规模数据预处理和特定领域如数据库索引构建中具有广泛的应用前景。 近期,Google在优化其大数据处理框架Apache Beam的排序组件时,就考虑采用了计数排序等非比较型排序算法以提升系统性能。研究人员发现,通过针对性地分析数据分布特征,并适时引入计数排序算法,可以在不影响稳定性的同时显著减少排序所需的时间成本。 然而,对于浮点数或数据范围极大的情况,计数排序则可能因为需要创建极大空间的计数数组而导致空间效率低下。因此,在实际应用中,往往需要结合其他高效排序算法(如快速排序、归并排序等)进行混合使用,根据实际情况灵活选择最优策略。 此外,深入探究排序算法背后的理论基础也十分有益,例如Knuth在其经典著作《计算机程序设计艺术》中对各种排序算法进行了详尽而深入的解读,其中包括计数排序的设计原理及其在实际问题中的应用场景分析。学习这些理论知识将有助于我们更好地理解并运用计数排序以及其他各类排序算法,从而在面对不同的工程问题时能够做出更为精准有效的决策。
2023-10-02 13:00:57
130
转载
ElasticSearch
...脚本语言在现代大数据处理与分析领域的重要性日益凸显。近期,Elastic公司发布了Elasticsearch 7.15版本,对Painless scripting进行了更多优化和增强,引入了新的API、函数以及性能改进,使得用户能够更加高效、安全地执行复杂的数据操作。 实际应用中,某知名电商企业就在其日志分析系统中充分利用了Painless scripting的强大功能,实现了对海量用户行为数据的实时筛选、转换和聚合分析,有效提升了用户体验并优化了业务决策流程。这一成功案例不仅验证了ElasticSearch在大规模数据分析场景下的实力,也展示了Painless scripting在解决实际问题中的巨大潜力。 此外,为了帮助开发者更好地掌握Painless scripting,社区内涌现出众多教程资源和技术博客,如“深入浅出Elasticsearch Painless scripting”系列文章,从基础语法到实战技巧,为读者提供了详尽的学习指南和实践路径。 总的来看,随着技术的发展与应用场景的拓展,ElasticSearch及其Painless scripting将继续在搜索优化、数据分析乃至AIops等领域发挥关键作用,值得广大技术人员持续关注和学习。
2023-02-04 22:33:34
479
风轻云淡-t
MySQL
...识别潜在风险,并通过机器学习不断优化审批逻辑。 同时,MySQL作为开源关系型数据库的重要代表,在全球范围内持续获得广泛应用和升级优化。MariaDB Foundation近期发布的MySQL 8.0新版本,对性能、安全性以及JSON支持等方面进行了显著提升,使得诸如报销审批这类复杂业务场景下的数据处理更为高效稳定。 另外,随着《个人信息保护法》等法规的实施,企业在利用数据库管理用户敏感信息时面临更高的合规要求。微信小程序与MySQL在实际运用中也需严格遵守法律法规,确保用户数据的安全存储与合理使用,例如采用加密传输、访问控制等措施保障报销审批过程中涉及的员工个人信息安全。 综上所述,微信小程序与MySQL数据库在企业报销审批中的实践案例是数字化转型浪潮中的一个缩影,而围绕这一领域的新技术发展与政策变化将为未来的企业运营管理带来更为智能化、安全化的解决方案。
2023-08-09 15:20:34
98
软件工程师
Python
...最新进展。例如,深度学习算法在图像识别中的应用已取得了显著成果,如YOLO(You Only Look Once)系列实时对象检测系统,以及基于Mask R-CNN的实例分割技术,它们不仅可以精准地检测出图像中的各类形状,还能实现像素级别的分类。 近期,一项发表在《Pattern Recognition Letters》的研究提出了一种改进的边缘检测算法,结合卷积神经网络对图像进行预处理,有效提高了复杂背景下正方形等特定形状的检测精度。同时,Google研究人员也在不断优化其开源库TensorFlow Lite,使其能够在移动设备上高效运行复杂的形状识别模型,这对于智能家居、自动驾驶等领域具有重要意义。 此外,在实际应用场景中,正方形检测被广泛应用于二维码识别、建筑结构分析、无人机自主导航等诸多前沿技术。例如,利用深度学习进行二维码识别时,正方形定位是关键步骤之一;而在建筑BIM(建筑信息模型)技术中,自动检测墙体、门窗等正方形元素有助于提高建模效率和准确性。 总之,正方形检测作为基础的图像处理任务,其背后所依托的技术发展日新月异,并持续推动着相关行业领域的技术创新与应用拓展。对于广大开发者而言,紧跟前沿动态,深入理解并掌握这些先进的图像识别方法,将极大地提升自身在AI开发领域的竞争力。
2023-04-20 10:25:03
50
软件工程师
Tesseract
...文中,我们将讨论这些问题,并提供一些解决方案。 二、高对比度图像的问题 1.1 问题描述 当图像的对比度过高时,明亮的部分和暗淡的部分之间的差异可能非常大。这可能会让Tesseract识别文本时有点犯难,就像在一团乱麻中找线头一样,它没法准确判断哪些是真正的“干货”文本,哪些只是捣乱的背景噪声。 1.2 解决方案 一种解决方案是先对图像进行预处理,降低对比度,使文本与背景更加清晰地区分出来。我们可以使用Python的PIL库来实现这个功能: python from PIL import ImageEnhance def preprocess_image(image_path): img = Image.open(image_path) enhancer = ImageEnhance.Contrast(img) contrast_img = enhancer.enhance(0.5) 设置增强系数 return contrast_img 此外,我们还可以尝试使用一些专门针对高对比度图像的OCR工具,如Google Vision API或者Amazon Textract。 三、低对比度图像的问题 3.1 问题描述 相反,当图像的对比度过低时,所有的颜色可能都接近于灰色,使得文本与背景之间的边界变得模糊。这种情况下,Tesseract也可能无法准确识别文本。 3.2 解决方案 同样,我们可以通过提高对比度来改善这种情况。但是需要注意的是,如果对比度过高,可能会导致之前提到的问题。因此,我们需要找到一个合适的平衡点。 另外,我们也可以考虑使用更复杂的算法来提高识别效果。比如说,咱们可以尝试用深度学习的招数,比如那个卷积神经网络(CNN),来给图片做“切块”处理,就像把一副画分割成不同的小部分,然后对这些切割出来的前景部分,我们再单独进行识别工作。 四、结论 总的来说,处理图像对比度过高或过低的问题主要依赖于图像预处理和识别算法的选择。在实际操作中,咱们得瞅准实际情况和具体需求,像挑衣服那样,灵活地找出最合身、最合适的策略来用。同时呢,眼瞅着深度学习这些新鲜技术日益精进,我们可真是满怀期待,盼望着能有更多神奇的解决方案蹦跶出来,让OCR的表现力再上一层楼。
2023-09-16 20:45:02
119
寂静森林-t
Mongo
...中,字段类型不匹配的问题尤为常见,且可能引发数据处理错误及性能瓶颈。近期,随着NoSQL数据库的广泛应用以及数据来源的多元化,正确处理和转换数据类型显得更为关键。例如,在进行实时数据分析或大数据集成时,未经验证的数据类型可能会导致分析结果偏差,甚至触发程序异常。 在最新版本的MongoDB 5.0中,引入了更严格模式(Strict Mode)以帮助开发者更好地管理数据类型,确保插入文档的数据类型与集合schema定义一致。通过启用严格模式,MongoDB会在写入操作阶段就对字段类型进行校验,从而避免后续查询、分析过程中因类型不匹配带来的问题。 此外,对于从API、CSV文件或其他非结构化数据源导入数据至MongoDB的情况,推荐使用如Pandas库(Python)或JSON.parse()方法(JavaScript)等工具预先进行数据清洗和类型转换,确保数据格式合规。同时,结合Schema设计的最佳实践,如运用BSON数据类型和$convert aggregation operator,可以在很大程度上降低因字段类型不匹配引发的风险,提升数据操作效率和准确性。 因此,深入理解和掌握如何有效预防及解决MongoDB中的字段类型不匹配问题,是现代数据工程师与开发人员必备技能之一,有助于构建稳定可靠的数据平台,为业务决策提供精准支撑。
2023-12-16 08:42:04
184
幽谷听泉-t
转载文章
...批流一体是一种大数据处理范式,指的是在同一个计算引擎中同时支持批量数据处理和实时流数据处理的能力。在Flink中,这种能力表现为可以使用相同的API、操作符和执行模型来处理历史的批量数据以及实时流入的数据流,从而简化开发流程,提高资源利用率,并满足不同场景下对数据处理时效性的要求。 时间窗口 , 在流处理系统(如Apache Flink)中,时间窗口是一种将无限持续的数据流划分为有限时间段进行处理的机制。它允许系统按照固定的时间间隔(如每分钟或每5秒)对数据进行聚合、统计或其他计算操作,这对于实时推荐系统来说至关重要,因为可以通过分析用户在特定时间窗口内的行为数据来实时更新其兴趣偏好特征。 用户Embedding , 用户Embedding是机器学习领域特别是推荐系统中用于表示用户的一种低维向量形式。它通过深度学习等方法将用户的复杂属性和行为信息映射到一个连续的数值向量空间中,使得相似用户在该空间中的Embedding向量距离相近。在实时推荐系统的实践中,借助Flink实现实时更新用户Embedding意味着当用户产生新的行为数据时,能够立刻反映到Embedding向量上,进而快速调整推荐策略,提升推荐结果的相关性和实时性。
2024-03-08 12:34:43
527
转载
Lua
...Lua表中键的访问与处理 在Lua的世界里,表(table)是最强大的数据结构之一,它既可以作为数组,也可以作为关联数组或字典使用。然而,在我们实实在在敲代码的时候,经常会遇到这么个让人挠头的小状况:“哎呀,竟然试图访问一个在表格里压根不存在的键”,这样一来,程序可就要闹情绪,抛出运行时错误了。这篇东西,咱们就瞄准这个主题使劲深挖一下,而且我还会甩出多个代码实例,保准让大家伙儿不仅能明白这个问题是怎么回事,更能掌握解决它的方法,保证接地气儿,不带一点儿机器味儿! 1. 键不存在错误的基本概念 首先,我们需要明确的是,当你试图访问一个在Lua表中并不存在的键时,Lua并不会默默地返回nil,而是会抛出一个错误。例如: lua local my_table = {name = "John", age = 30} print(my_table["address"]) -- 这将会抛出错误:attempt to index a nil value (field 'address') 在这个例子中,我们尝试从my_table获取"address"对应的值,但该键并不存在于表中,因此Lua抛出了“键不存在”错误。 2. 如何安全地访问可能不存在的键 为了避免上述错误的发生,我们可以利用Lua中的条件判断和nil检查机制来安全地访问表中的键。下面是一个典型的示例: lua local my_table = {name = "John", age = 30} -- 安全访问方式:先检查键是否存在,再进行访问 if my_table.address then print(my_table.address) else print("Address is not set.") end 或者,你可以使用Lua的rawget函数,它不会触发元方法且对键的类型没有限制,同时也不会抛出错误: lua local address = rawget(my_table, "address") if address then print(address) else print("Address is not set.") end 3. 使用pairs和ipairs遍历检查键的存在性 当不确定表中有哪些键时,可以采用遍历的方式来检查: lua for key, value in pairs(my_table) do if key == "address" then print(value) break end end -- 如果是数字索引的连续数组部分,可以使用 ipairs for i = 1, my_table do if i == my_expected_index then print(my_table[i]) break end end 4. 自定义默认返回值——空合并操作符 // Lua 5.3引入了一个非常有用的特性——空合并操作符(也称为nil合并操作符)//,它可以用于提供默认值: lua local my_table = {name = "John", age = 30} print(my_table.address // "No Address") -- 输出 "No Address" 在这个例子中,如果my_table.address为nil,则会返回后面的字符串"No Address",这样就避免了键不存在的错误。 结语:思考与探讨 理解并妥善处理Lua表中键可能不存在的情况,是Lua编程过程中的重要一环。掌握这些技巧不仅可以避免程序因意外的键访问错误而崩溃,还能使我们的代码更加健壮、易读。希望本文的讨论和实例代码能帮助你更深入地理解这一问题,并在今后的编程实践中灵活运用,让Lua代码如丝般顺滑地运行。记住,编程不仅仅是解决问题,更是不断探索、学习和成长的过程。
2023-05-17 14:22:20
38
春暖花开
JSON
在实际的数据处理与分析工作中,格式转换的需求日益增多,尤其在大数据时代背景下,不同系统间的数据交换、迁移以及进一步的数据挖掘和可视化需求催生了对高效格式转换工具的依赖。近期,Python社区不断优化和完善pandas库的功能,使其在处理json、csv等常见数据格式时更加得心应手。 实际上,除了json转csv之外,pandas还支持从Excel、SQL数据库等多种数据源进行读取,并可将数据导出为包括HTML、JSON、Feather等多种格式。例如,最新版本的pandas已经增强了对Apache Arrow的支持,使得在Parquet或Feather格式之间的高速转换成为可能,这对于大规模数据分析项目来说无疑是一大利好。 此外,随着AI和机器学习的发展,对于非结构化数据如json的处理要求越来越高。许多研究者开始探索如何结合诸如Dask这样的并行计算库,利用pandas接口实现对大型json文件的分布式读取和转换,从而有效提升json到csv或其他格式的转换效率。 值得注意的是,在执行格式转换的过程中,不仅要关注速度和便利性,还需兼顾数据完整性和准确性。特别是在处理嵌套复杂结构的json数据时,需要精心设计转换逻辑以确保信息无损。因此,深入理解目标格式特性以及熟练运用相关工具库显得尤为重要。 综上所述,数据格式转换是现代数据分析工作中的基础技能之一,而Python生态下的pandas库正以其强大且灵活的功能持续满足着这一领域的各种需求,与时俱进地推动着数据分析技术的发展。
2024-01-01 14:07:21
433
代码侠
JSON
...一个组件,它可以用于处理HTTP请求。通过Ashx,我们可以创建自己的HTTP处理程序,实现定制的业务逻辑。 3. JSON是什么? JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它基于JavaScript的一个子集。它易于人阅读和编写,同时也易于机器解析和生成。 4. 如何使用Ashx处理JSON数据? 首先,我们需要定义一个Ashx方法来处理我们的请求。这个方法呐,它得接收一个叫“request”的小家伙作为参数,其实呢,这玩意儿就是一个HttpApplicationRequest对象,里头装着这次请求的所有详细信息,一丁点儿也没落下。 csharp public void HandleHttpRequest(HttpContext context) { // 获取请求的内容 string requestContent = context.Request.InputStream.ReadToEnd(); // 将请求内容转换为JSON对象 dynamic jsonObject = JsonConvert.DeserializeObject(requestContent); // 在这里处理你的JSON数据... // 返回响应 context.Response.Write("处理成功"); } 在这个方法中,我们首先获取了请求的内容,然后使用JsonConvert.DeserializeObject方法将其转换为一个动态类型的JSON对象。这样,我们就可以方便地访问和操作JSON数据了。 5. 总结 Ashx是一个强大的工具,可以帮助我们在ASP.NET中处理各种HTTP请求。尤其是当我们碰上要处理JSON数据这事儿,用Ashx可是能帮咱们省不少力,让事情变得轻松简单多了。当你把请求的内容成功转换成JSON格式后,就等于把它变成一个我们熟悉的.NET对象,这样一来,处理JSON数据就跟玩普通.NET对象一样简单轻松,毫无压力啦! 6. 深入探讨 然而,这只是一个基础的例子。实际上,我们可以使用Ashx做更多的事情。比如说,咱们可以在动手解析JSON数据之前,先给请求做个“体检”确认其靠谱性;又或者,在我们成功搞定数据之后,再添点额外的“小料”,让它更加饱满丰富。 此外,我们也需要注意安全问题。虽然“JsonConvert.DeserializeObject”这个小家伙能够自动挡下不少常见的JSON攻击招式,但我们仍然得瞪大眼睛,确保喂给它的数据确实是货真价实、没毛病的。 总的来说,Ashx是一个非常有用的工具,但我们也需要谨慎使用,以防止可能的安全问题。
2023-06-29 14:38:59
549
灵动之光-t
PostgreSQL
...的改进,它能更高效地处理大规模数据表,尤其对于按时间序列或连续数值排序的数据有显著提升。此外,还引入了表达式索引的新特性,允许用户基于列计算结果创建索引,极大地增强了索引的灵活性与适用性。 同时,在数据库优化实践中,了解何时以及如何选择正确的索引类型至关重要。例如,对于频繁进行范围查询的场景,B-tree索引可能是最佳选择;而对于全文搜索,则可能需要使用到gin或者gist索引。值得注意的是,尽管索引能够极大提升查询效率,但过度使用或不当使用也可能导致写操作性能下降及存储空间浪费,因此在设计数据库架构时需综合考量读写负载平衡及存储成本等因素。 此外,随着机器学习和AI技术的发展,智能化索引管理工具也逐渐崭露头角,它们可以根据历史查询模式自动推荐、调整甚至自动生成索引,以实现数据库性能的动态优化。这为数据库管理员提供了更为便捷高效的索引管理手段,有助于持续提升PostgreSQL等关系型数据库的服务质量和响应速度。
2023-11-16 14:06:06
485
晚秋落叶_t
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
journalctl
- 查看系统日志。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"