...IPS。 arm主要面向手机、平板，功耗低 arm和x86的运算力、性能好，MIPS相对较弱嵌入式常用的非易失存储包括：nor flash，nand flash，emmc nand flash：价低，速快，有坏块 nor flash：价高，速慢，无坏块 emmc：相当于nand 和 nor的结合，内置坏块管理系统；价高 USB四线接口简单介绍开发电脑选择：核心越多越好，主频越高越好----->编译工程快设置ubuntu系统ip的方法：右上角找到设置图标，选择network，点齿轮图标号，在ipv4下面设置地址192.168.1.x，子网掩码255.255.255.0，网关192.168.1.1（必须要使windows，ubuntu，开发板处于同一网段，能互相ping通） U盘连接到主机和UBUNTU相互转换：虚拟机右下角，右键连接or断开 shell常用指令 ls -a：显示所有目录，文件夹，隐藏文件/目录 ls -l：显示文件的权限、修改时间等 ls -al：上面两个结合 ls 目录：显示该目录下的文件 – cd /：进入linux根目录 cd ~：/home/jl – uname ：查看系统信息 uname -a ：查看全部系统信息 – cat 文件名：显示某文件内容 – sudo ：临时切换root用户 sudo apt-get install 软件名：装某软件 sudo su：直接切换root用户（少用） sudo su jl：切换回普通用户 – touch 文件名：创建文件 rm -r 目录/文件：删除文件/目录及它包含的所有内容 rm -f 文件：直接删除，无需确认 rm -i 文件：删除文件，会逐一询问是否删除 rmdir 目录：专门删除目录 mv ：可以用来移动文件/目录，也可以用来重命名 – ifconfig：显示网络配置信息（lo：本地回环测试） ifconfig -a：显示所有网卡（上面只显示工作的，本条显示所有工作和未工作的） ifconfig eth0 up：打开eth0这个网卡 ifconfig eth0 down:关闭eth0这个网卡（0一般要sudo来执行） ifconfig eth0 你想设置的地址：重设eth0的ip地址 – 命令 --help：看看这个命令的帮助信息 reboot：重启 – sync：数据同步写入磁盘命令（一般来说，用户写的内容先保存在一个缓冲区，系统是隔一定时间像磁盘写入缓冲区内写入磁盘），用sync立刻写入 grep ”“ -i ：搜索时忽略大小写 grep 默认是匹配字符， -w 选项默认匹配一个单词例如我想匹配 “like”，不加 -w 就会匹配到 “liker”，加 -w 就不会匹配到 du 目录/文件 -sh ：查看某一文件/目录的大小，也可以到一个目录下du -sh，查看这个目录的大小目录下使用du -sh 查看目录总的大小 du 文件名 -sh 查看指定文件的大小 df：检查linux服务器的文件系统磁盘空间占用情况，默认以kb为单位 gedit 文件：使用gedit软件打开一个文件（类似于windows下面的记事本） ps：查看您当前系统有哪些进程，ubuntu（多用户）下是ps -aux，嵌入式linux（单用户）下面是ps top：进程实时运行状态查询 file 文件名：查看文件类型 ubuntu的fs cd / ：根目录，一切都是从根目录发散开来的 /bin：存放二进制可执行文件，比如一些命令 /boot：ubuntu的内核与启动文件 /cdrom：有光盘是存放光盘文件 /dev：存放设备驱动文件 /etc：存放配置文件，如账号和密码文件（加密后的） /home：系统默认的用户主文件夹 /lib：存放库文件 /lib64：存放库文件，. so时linux下面的动态库文件 /media：存放可插拔设备，如sd，u盘就是挂载到这个文件下面 /mnt：用户可使用的挂载点，和media类似，可以手动让可插拔设备挂载到/mnt /opt：可选的文件和程序存放目录，给第三方软件放置的目录 /proc：存放系统的运行信息，实在内存上的不是在flash上，如cat /proc/cpuinfo /root：系统管理员目录，root用户才能访问的文件 /sbin：和bin类似，存放一些二进制可执行文件，sbin下面一般是系统开机过程中所需要的命令 /srv：服务相关的目录，如网络服务 /sys：记录内核信息，是虚拟文件系统 /tmp：临时目录 /usr：不是user的缩写，而是UNIX Software Resource的缩写，存放系统用户有关的文件，占很大空间 /var：存放变化的文件，如日志文件 – 移植就是移植上面这些文件磁盘管理 linux开发一定要选用FAT32格式的U盘或者SD卡 u盘在/dev中的名字是sd,要确定是哪个，拔了看少了哪个。就是哪个 /dev/sdb表示U盘，/dev/sdb1表示U盘的第一个分区，一般U盘 sd卡只有一个分区 df：显示linux系统的磁盘占用情况在一个目录里使用du -sh：查看这个目录里面所有内容所占用的资源 du 文件名 -sh：一般用来看单个文件/目录的大小 du -h --max-depth=n:显示n级目录的大小 – 磁盘的挂载与取消挂载： mount 和 umount sudo mount /dev/sdb1 /media/jl/udisk sudo umount /media/jl/u盘名（-f 强制取消挂载），如果u盘正在使用，如被另一个终端打开，那么该指令无效 mount挂载后中文显示乱码的解决方法 sudo mount -o iocharset=utf8 /dev/sdb1 udisk – 磁盘的分区和格式化 sudo fdisk -l /dev/sdb 查看所有分区信息（–help查看别的用法） sudo fdisk /dev/sdb1 ----> m ( 进入帮助 ) ----> d 删除该分区 ----> wq 保存并退出 mkfs -t vfat /dev/sdb1 mkfs -t vfat /dev/sdb2 mkfs -t vfat /dev/sdb3 给分区1，2，3分别格式化，完成后能在图形界面看见三个u盘图标格式化u盘之前一定要先卸载u盘已经挂载的系统。 – 压缩和解压缩 linux下常用的压缩扩展名： .tar .tar.bz2 .tar.gz 后两个linux常用 windows下面用7zip软件右键选中文件，选择7zip，添加到压缩包，压缩格式选择tar，仅存储生成tar文件，这里只是打包，没有压缩右键上面的tar文件，选择7zip，添加到压缩包，压缩格式选择bzip2，确定生成.tar.bz2文件，把它放到ubuntu解压 ubuntu也支持解压.tar和.zip，但后面两个常用 – ubuntu下面的压缩工具时gzip 压缩文件 gzip 文件名：压缩文件，变成原文件名.gz，原来的文件就不见了解压缩文件 gzip -d .gz：还原文件 gzip -r 目录：递归，将该目录里的各个文件压缩，不提供打包服务 – bzip2工具负责压缩和解压缩.bz2格式的压缩包 bzip2 -z 文件名，压缩成文件名.bz2 bzip2 -d 文件名.bz2，解压缩成文件名 bzip2不能压缩/解压缩目录 – 打包工具 tar 常用参数 -f：使用归档文件（必须要在所有选项后面） -c：创建一个新归档 -x：从归档中解出文件 -j：使用bzip2压缩格式 -z：使用gzip压缩格式 -v：打印出命令执行过程如以bzip2格式压缩，打包 tar -vcjf 目录名.tar.bz2 目录名如将上面的压缩包解包 tar -vxjf 目录名.tar.bz2 – 其他压缩工具 rar工具 sudo apt-get install rar（用dhcp连不上阿里云的镜像） rar a test.rar test 把test压缩成test.rar rar x test.rar 把test.rar解压缩成test – zip工具压缩 zip -rv test.zip test 解压缩 unzip test.zip – ubuntu的用户和用户组 linux是多用户的os，不同的用户有不同的权限，可以查看和操作不同的文件有三种用户 1、初次用户 2、root用户 3、普通用户 root用户可以创建普通用户 linux用户记录在/etc/passwd这个文件内 linux用户密码记录在/etc/shadow这个文件内，不是以明文记录的每个用户都有一个id，叫做UID – linux用户组为了方便管理，将用户进行分组，每个用户可以属于多个组可以设置非本组人员不能访问一些文件用户和用户组的存在就是为了控制文件的访问权限的每个用户组都有一个ID，叫做GID 用户组信息存储在/etc/group中 passwd 用户名：修改该用户的密码 – ubuntu文件权限 ls -al 文件名如以b开头： -brwx - rwx - rwx -：b表示块文件，设备文件里面可供存储的周边设备以d开头是目录以b是块设备文件以-开头是普通文件以 l 开头表示软连接文件以c开头是设备文件里的串行端口设备 -rwx - rwx - rwx -：用户权限，用户组内其他成员，其它组用户数字 1 表示链接数，包括软链接和硬链接第三列 jl 表示文件的拥有者第四列 jl 表示文件的用户组第五列 3517 表示这个文件的大小，单位是字节 ls -l 显示的文件大小单位是字节 ls -lh 现实的文件大小单位是 M / G 第六七八列是最近修改时间最后一列是文件名 – 修改文件权限命令 chmod 777 文件名修改文件所属用户 sudo chown root 文件修改文件用户组 sudo chown .root 文件同时修改文件用户和用户组 sudo chown jl.jl 文件修改目录的用户/用户组 sudo chown -r jl.jl 目录（ root.root ） – linux连接文件 1、硬连接 2、符号连接（软连接） linux有两种连接文件，软连接/符号连接，硬连接符号连接类似于windows下面的快捷方式硬连接通过文件系统的inode连接来产生新文件名，而不是产生新文件 inode：记录文件属性，一个文件对应一个inode， inode相当于文件ID 查找文件要先找到inode，然后才能读到文件内容 – ln 命令用于创建连接文件 ln 【选项】源文件目标文件不加选项就是默认创建硬连接 -s 创建软连接 -f 强制创建连接文件，如果目标存在，就先删掉目标文件，再创建连接文件 – 硬连接：多个文件都指向同一个inode 具有向inode的多个文件互为硬连接文件，创建硬连接相当于文件实体多了入口只有删除了源文件、和它所有的硬连接文件，晚间实体才会被删除可以给文件创建硬连接来防止文件误删除改了源文件还是硬连接文件，另一个文件的数据都会被改变硬连接不能跨文件系统（另一个格式的u盘中的文件）硬连接不能连接到目录出于以上原因，硬连接不常用 ls -li：此时第一列显示的就是每个文件的inode – 软连接/符号连接类似windows下面的快捷方式使用较多软连接相当于串联里一个独立的文件，该文件会让数据读取指向它连接的文件 ln -s 源文件目标文件特点：可以连接到目录可以跨文件系统删除源文件，软连接文件也打不开了软连接文件通过 “ -> ” 来指示具体的连接文件（ls -l）创建软连接的时候，源文件一定要使用绝对路径给出，（硬连接无此要求）软连接文件直接用cp复制到别的目录下，软连接文件就会变成实体文件，就算你把源文件删掉，该文件还是有效正确的复制、移动软连接的用法是：cp -d 如果不用绝对路径，cp -d 软连接文件到别的目录，该软连接文件就会变红，失效如果用了绝对路径，cp -d 软连接文件到别的目录，该软连接文件还是有效的，还是软连接文件不用绝对路径，一拷贝就会出问题 – 软连接一个目录，也是可以用cp -d复制到其他位置的 – gedit 是基于图形界面的 vim有三种模式： 1、一般模式：默认模式，用vim打开一个文件就自动进入这个模式 2、编辑模式：按 i，a等进入，按esc回到一般模式 3、命令行/底行模式：在一般模式下输入：/ ？可进入命令行模式，按esc回到一般模式一般模式下，dd删除光标所在的一整行； ndd，删除掉光标所在行和下面的一共n行点 . 重复上一个操作 yy复制光标所在行小p复制到光标下一行大p复制到光标上一行n nyy复制光标所在往下n行设置vim里的tab是四个空格：在/etc/vim/vimrc里面添加：set ts=4 设置vim中显示行号：在上面那个文件里添加：set nu – vscode是编辑器 gcc能编译汇编，c，cpp 电脑上的ubuntu自带的gcc用来编译x86架构的程序，而嵌入式设备的code要用针对于该芯片架构如arm的gcc编译器，又叫做交叉编译器（在一种架构的电脑上编译成另一种架构的代码） gcc -c 源文件:只编译不链接，编译成.o文件 -o 输出文件名（默认名是 .out ） -O 对程序进行优化编译，这样产生的可执行文件执行效率更高 -O2：比-O幅度更大的优化，但编译速度会很慢 -v：显示编译的过程 gcc main.c 输出main.out的可执行文件预处理 --> 编译 --> 汇编 --> 链接 – makefile里第一个目标默认是终极目标其他目标的顺序可以变 makefile中的变量都是字符串变量的引用方法： $ （变量名） – Makefile中执行shell命令默认会把命令本身打印出来如果在shell命令前加 @ ，那么shell’命令本身就不会被打印 – 赋值符：= 变量的有效值取决于他最后一次被赋值的值： = 赋值时右边的值只是用前面已经定义好的，不会使用后面的？= 如果左边的前面没有被赋值，那么在这里赋值，佛则就用前面的赋值 + = 左边前面已经复制了一些字串，在这里添加右边的内容，用空格隔开 – 模式规则 % . o : % . c %在这里意思是通配符，只能用于模式规则依赖中 % 的内容取决于目标 % 的内容 – CFLAGS:指定头文件的位置 LDFLAGS：用于优化参数，指定库文件的位置 LIBS：告诉链接器要链接哪些库文件 VPATH：特殊变量，指定源文件的位置，冒号隔开，按序查找源文件 vpath：关键字，三种模式，指定、清除 – 自动化变量 $ @ 规则中的目标集合 $ % 当目标是函数库的时候，表示规则中的目标成员名 $ < 依赖文件集合中的第一个文件，如果依赖文件是以 % 定义的，那么 $ < 就是符合模式的一系列文件的集合 $ ? 所有比目标新的依赖文件的集合，以空格分开 $ ^ 所有依赖文件的集合，用空格分开，如果有重复的依赖文件，只保留一次 $ + 和 $ ^ 类似，但有多少重复文件都会保留 $ 表明目标模式中 % 及其以前的部分如果目标是 test/a.test.c，目标模式是 a.%.c，那么 $ 就表示 test/a.test – 常用的是 $@ , $< , $^ – Makefile的伪目标不生成目标文件，只是执行它下面的命令如果被错认为是文件，由于伪目标一般没有依赖，那么目标就被认为是最新的，那么它下面的命令就不会执行。如果目录下有同名文件，伪目标错认为是该文件，由于没有依赖，伪目标下面的指令不会被执行伪目标声明方法 .PHONY : clean 那么就算目录下有伪目标同名文件，伪目标也同样会执行 – 条件判断 ifeq ifneq ifdef ifndef – makefile函数使用 shell脚本类似于windoes的批处理文件将连续执行的命令写成一个文件 shell脚本可以提供数组，循环，条件判断等功能开头必须是：!/bin/bash 表示使用bash 脚本的扩展名：.sh – 交互式shell 有输入有输出输入：read 第三行 name在这里作为变量，read输入这个变量下一行使用这个变量直接是 $name，不用像 Makefile 里面那样子加括号 read -p “读取前你想打印的内容” 变量1 变量2 变量3… – 数值计算第五行等于号两边不能有空格右边计算的时候是 $( ( ) )，注意要两个括号 – test 测试命令文件状态查询，字符、数字比较 && cmd1 && cmd2 当cmd1执行完并且正确，那么cmd2也执行当cmd2执行完并且错误，那么cmd2不执行 || cmd1 || cmd2 当cmd1执行完并且正确，那么cmd2不执行当cmd2执行完并且错误，那么cmd2也执行查看一个文件是否存在 – 测试两个字符串是否相等 ==两边必须要有空格，如果不加空格，test这句就一直是对的。 – 中括号判断符 [ ] 作用和test类似里面只能输入 == 或者！= 四个箭头所指必须用空格隔开而且如果变量是字符串的话，一定要加双引号 – 默认变量 $0——shell脚本本身的命令 $——最后一个参数的标号（1，2，3，4…） $@——表示 $1 , $2 , $3 … $1 $2 $3 – shell 脚本的条件判断 if [ 条件判断 ];then //do something fi 红点处都要加空格 exit 0——表示退出 – if 条件判断;then //do something elif 条件判断;them //do something else //do something fi 红线处要加空格 – case 语句 case $var in “第一个变量的内容”) //do something ;; “第二个变量的内容”) // do something ;; . . . “第n个变量的内容”) //do something ;; esac 不能用 “”，否则就不是通配符的意思，而是表示字符 – shell 脚本函数 function fname(){ //函数代码段 } 其中function可以写也可以不写调用函数的时候不要加括号 shell 脚本函数传参方式 – shell 循环 while[条件] //括号内的状态是判断式 do //循环代码段 done – until [条件] do //循环代码段 done – for循环，使用该循环可以知道有循环次数 for var con1 con2 con3 … … do //循环代码段 done – for 循环数值处理 for((初始值；限制值；执行步长)) do //循环代码段 done – 红点处必须要加空格！！ loop 环 – – 注意变量有的地方用了 $ ，有的地方不需要 $ 这里的赋值号两边都不用加空格 $(())数值运算本篇文章为转载内容。原文链接：https://blog.csdn.net/engineer0/article/details/107965908。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-23 17:18:30

转载

转载文章

[转载]java培训后好找工作吗

...isualVM看堆中对象的分配，对象间的引用、是否有内存泄漏，jstack看线程状态、是否死锁等等）描述一致性hash算法分布式雪崩场景如何避免? 再谈谈消息队列 04 抖音Java 三面 4.1 一面： hashmap，怎么扩容，怎么处理数据冲突？怎么高效率的实现数据迁移？ Linux的共享内存如何实现，大概说了一下。 socket网络编程，说一下TCP的三次握手和四次挥手同步IO和异步IO的区别？ Java GC机制？GC Roots有哪些？红黑树讲一下，五个特性，插入删除操作,时间复杂度？快排的时间复杂度，最坏情况呢，最好情况呢，堆排序的时间复杂度呢，建堆的复杂度是多少 4.2 二面：自我介绍，主要讲讲做了什么和擅长什么设计模式了解哪些？ AtomicInteger怎么实现原子修改的？ ConcurrentHashMap 在Java7和Java8中的区别？为什么Java8并发效率更好？什么情况下用HashMap，什么情况用ConcurrentHashMap？ redis数据结构？ redis数据淘汰机制？ 4.3 三面（约五十分钟）： mysql实现事务的原理(MVCC) MySQL数据主从同步是如何实现的？ MySQL索引的实现，innodb的索引，b+树索引是怎么实现的，为什么用b+树做索引节点，一个节点存了多少数据，怎么规定大小，与磁盘页对应。如果Redis有1亿个key，使用keys命令是否会影响线上服务？ Redis的持久化方式，aod和rdb，具体怎么实现，追加日志和备份文件，底层实现原理的话知道么? 遇到最大困难是什么？怎么克服？未来的规划是什么？你想问我什么？ 05 百度三面 5.1 百度一面自我介绍 Java中的多态为什么要同时重写hashcode和equals Hashmap的原理 Hashmap如何变线程安全，每种方式的优缺点垃圾回收机制 Jvm的参数你知道的说一下设计模式了解的说一下啊手撕一个单例模式手撕算法：反转单链表手撕算法：实现类似微博子结构的数据结构，输入一系列父子关系，输出一个类似微博评论的父子结构图手写java多线程手写java的soeket编程，服务端和客户端手撕算法：爬楼梯，写出状态转移方程智力题：时针分针什么时候重合 5.2 百度二面（现场）自我介绍项目介绍服务器如何负载均衡，有哪些算法，哪个比较好，一致性哈希原理，怎么避免DDOS攻击请求打到少数机器。 TCP连接中的三次握手和四次挥手，四次挥手的最后一个ack的作用是什么，为什么要time wait，为什么是2msl。数据库的备份和恢复怎么实现的，主从复制怎么做的，什么时候会出现数据不一致，如何解决。 Linux查看cpu占用率高的进程手撕算法：给定一个数字三角形，找到从顶部到底部的最小路径和。每一步可以移动到下面一行的相邻数字上。然后继续在这个问题上扩展求出最短那条的路径递归求出所有的路径设计模式讲一下熟悉的会不会滥用设计模式多线程条件变量为什么要在while体里你遇到什么挫折，怎么应对和处理 5.3 百度三面（现场）自我介绍项目介绍 Redis的特点 Redis的持久化怎么做，aof和rdb，有什么区别，有什么优缺点。 Redis使用哨兵部署会有什么问题，我说需要扩容的话还是得集群部署。说一下JVM内存模型把，有哪些区，分别干什么的说一下gc算法，分代回收说下 MySQL的引擎讲一下，有什么区别，使用场景呢分布式事务了解么反爬虫的机制，有哪些方式 06 蚂蚁中间件团队面试题 6.1 蚂蚁中间件一面：自我介绍 JVM垃圾回收算法和垃圾回收器有哪些，最新的JDK采用什么算法。新生代和老年代的回收机制。讲一下ArrayList和linkedlist的区别，ArrayList与HashMap的扩容方式。 Concurrenthashmap1.8后的改动。 Java中的多线程，以及线程池的增长策略和拒绝策略了解么。 Tomcat的类加载器了解么 Spring的ioc和aop，Springmvc的基本架构，请求流程。 HTTP协议与Tcp有什么区别，http1.0和2.0的区别。 Java的网络编程，讲讲NIO的实现方式，与BIO的区别，以及介绍常用的NIO框架。索引什么时候会失效变成全表扫描介绍下分布式的paxos和raft算法 6.2 蚂蚁中间件二面你在项目中怎么用到并发的。消息队列的使用场景，谈谈Kafka。你说了解分布式服务，那么你怎么理解分布式服务。 Dubbo和Spring Clound的区别，以及使用场景。讲一下docker的实现原理，以及与JVM的区别。 MongoDB、Redis和Memcached的应用场景，各自优势 MongoDB有事务吗 Redis说一下sorted set底层原理讲讲Netty为什么并发高，相关的核心组件有哪些 6.3 蚂蚁中间件三面完整的画一个分布式集群部署图，从负载均衡到后端数据库集群。分布式锁的方案，Redis和Zookeeper哪个好，如果是集群部署，高并发情况下哪个性能更好。分布式系统的全局id如何实现。数据库万级变成亿级，你如何来解决。常见的服务器雪崩是由什么引起的，如何来防范。异地容灾怎么实现常用的高并发技术解决方案有哪些，以及对应的解决步骤。 07 京东4面(Java研发） 7.1 一面（基础面：约1小时）自我介绍，主要讲讲做了什么和擅长什么 springmvc和spring-boot区别 @Autowired的实现原理 Bean的默认作用范围是什么？其他的作用范围？索引是什么概念有什么作用？MySQL里主要有哪些索引结构？哈希索引和B+树索引比较？ Java线程池的原理？线程池有哪些？线程池工厂有哪些线程池类型，及其线程池参数是什么？ hashmap原理，处理哈希冲突用的哪种方法？还知道什么处理哈希冲突的方法？ Java GC机制？GC Roots有哪些？ Java怎么进行垃圾回收的？什么对象会进老年代？垃圾回收算法有哪些？为什么新生代使用复制算法？ HashMap的时间复杂度？HashMap中Hash冲突是怎么解决的？链表的上一级结构是什么？Java8中的HashMap有什么变化？红黑树需要比较大小才能进行插入，是依据什么进行比较的？其他Hash冲突解决方式？ hash和B+树的区别？分别应用于什么场景？哪个比较好？项目里有个数据安全的，aes和md5的区别？详细点 7.2 二面（问数据库较多）自我介绍为什么MyISAM查询性能好？事务特性（acid）隔离级别 SQL慢查询的常见优化步骤？说下乐观锁，悲观锁（select for update），并写出sql实现 TCP协议的三次握手和四次挥手过程？用到过哪些rpc框架数据库连接池怎么实现 Java web过滤器的生命周期 7.3 三面（综合面；约一个小时）自我介绍。 ConcurrentHashMap 在Java7和Java8中的区别？为什么Java8并发效率更好？什么情况下用HashMap，什么情况用ConcurrentHashMap？加锁有什么机制？ ThreadLocal？应用场景？数据库水平切分，垂直切分的设计思路和切分顺序 Redis如何解决key冲突 soa和微服务的区别？单机系统演变为分布式系统，会涉及到哪些技术的调整？请从前面负载到后端详细描述。设计一个秒杀系统？ 7.4 四面（HR面）你自己最大优势和劣势是什么平时遇见过什么样的挑战，怎么去克服的工作中遇见了技术解决不了的问题，你的应对思路？你的兴趣爱好？未来的职业规划是什么？ 08 美团java高级开发3面 8.1 美团一面自我介绍项目介绍 Redis介绍了解redis源码么了解redis集群么 Hashmap的原理，增删的情况后端数据结构如何位移 hashmap容量为什么是2的幂次 hashset的源码 object类你知道的方法 hashcode和equals 你重写过hashcode和equals么，要注意什么假设现在一个学生类，有学号和姓名，我现在hashcode方法重写的时候，只将学号参与计算，会出现什么情况？往set里面put一个学生对象，然后将这个学生对象的学号改了，再put进去，可以放进set么？并讲出为什么 Redis的持久化？有哪些方式，原理是什么？讲一下稳定的排序算法和不稳定的排序算法讲一下快速排序的思想 8.2 美团二面自我介绍讲一下数据的acid 什么是一致性什么是隔离性 Mysql的隔离级别每个隔离级别是如何解决 Mysql要加上nextkey锁，语句该怎么写 Java的内存模型，垃圾回收线程池的参数每个参数解释一遍然后面试官设置了每个参数，给了是个线程，让描述出完整的线程池执行的流程 Nio和IO有什么区别 Nio和aio的区别 Spring的aop怎么实现 Spring的aop有哪些实现方式动态代理的实现方式和区别 Linux了解么怎么查看系统负载 Cpu load的参数如果为4，描述一下现在系统处于什么情况 Linux，查找磁盘上最大的文件的命令 Linux，如何查看系统日志文件手撕算法：leeetcode原题 22，Generate Parentheses，给定 n 对括号，请- 写一个函数以将其生成新的括号组合，并返回所有组合结果。 8.3 美团三面（现场）三面没怎么问技术，问了很多技术管理方面的问题自我介绍项目介绍怎么管理项目成员当意见不一致时，如何沟通并说服开发成员，并举个例子怎么保证项目的进度数据库的索引原理非聚簇索引和聚簇索引索引的使用注意事项联合索引从底层解释最左匹配原则 Mysql对联合索引有优化么？会自动调整顺序么？哪个版本开始优化？ Redis的应用 Redis的持久化的方式和原理技术选型，一个新技术和一个稳定的旧技术，你会怎么选择，选择的考虑有哪些说你印象最深的美团点评技术团队的三篇博客最近在学什么新技术你是怎么去接触一门新技术的会看哪些书怎么选择要看的书最后由于篇幅限制，小编在此截出几张知识讲解的图解，有需要的程序猿（媛）可以点赞后戳这里免费领取全部资料获取哦子怎么保证项目的进度数据库的索引原理非聚簇索引和聚簇索引索引的使用注意事项联合索引从底层解释最左匹配原则 Mysql对联合索引有优化么？会自动调整顺序么？哪个版本开始优化？ Redis的应用 Redis的持久化的方式和原理技术选型，一个新技术和一个稳定的旧技术，你会怎么选择，选择的考虑有哪些说你印象最深的美团点评技术团队的三篇博客最近在学什么新技术你是怎么去接触一门新技术的会看哪些书怎么选择要看的书最后由于篇幅限制，小编在此截出几张知识讲解的图解，有需要的程序猿（媛）可以点赞后戳这里免费领取全部资料获取哦 [外链图片转存中…(img-SFREePIJ-1624074891834)] [外链图片转存中…(img-5kF3pkiC-1624074891834)] [外链图片转存中…(img-HDVXfOMR-1624074891835)] [外链图片转存中…(img-RyaAC5jy-1624074891836)] [外链图片转存中…(img-iV32C5Ok-1624074891837)] 本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_57285325/article/details/118051767。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-13 23:43:59

转载

转载文章

[转载]Android面试实战总结

...缓存 bitmap 对象，这里大家一定要把图片的三级缓存自己了解清楚，基本面试会问到。）其实当面试问你如何避免oom，内存泄露导致的原因，以及如何处理大图片等等，其实都是如何优化内存。可以按照我自己总结的回答，你可以说，这个问题，跟 oom以及内存泄露，其实是一样的，关键就是如何优化内存，避免不必要的内存泄露，而内存泄露的原因，我总结了 4点， 1. 匿名内部类，和非静态内部类，举个栗子：我们用handler 进行线程间　假如我们在activity中这样定义 handler ： [java] view plain copy print ? Handler mHandler = new Handler() { @Override public void handleMessage(Message msg) { mImageView.setImageBitmap(mBitmap); } } 然后，我们用右键选中工程运行 lint工具， android tools---run lint ,就会提示我们这样一个warning： In Android, Handler classes should be static or leaks might occur.。就是，推荐我们把handler 定义成static，具体看这里解释的很详细：http://www.linuxidc.com/Linux/2013-12/94065.htm 类似的还有匿名子线程。 2.还是拿网上的栗子来说， [java] view plain copy print ? Vector v = new Vector( 10 ); for ( int i = 1 ;i < 100 ; i ++ ){ Object o = new Object(); v.add(o); o = null ; } 即便是我们把 o 对象置为 null,但是 vector 集合中还有有o的引用，所以集合没有被清空，这一部分内存还是不能被释放，这就导致了内存泄露。 3，当我们操作数据库的时候，我们在执行完相应的crud 方法后，我们没有关闭 cursor .close()或者 db.close()，也同样会占用内存、因为只有关闭连接后，才会被GC 回收。 4.继续举个栗子 [java] view plain copy print ? Set<Person> set = new HashSet<Person>(); Person p1 = new Person("唐僧","pwd1",25); Person p2 = new Person("孙悟空","pwd2",26); Person p3 = new Person("猪八戒","pwd3",27); set.add(p1); set.add(p2); set.add(p3); System.out.println("总共有:"+set.size()+" 个元素!"); //结果：总共有:3 个元素! p3.setAge(2); //修改p3的年龄,此时p3元素对应的hashcode值发生改变 set.remove(p3); //此时remove不掉，造成内存泄漏 set.add(p3); //重新添加，居然添加成功 System.out.println("总共有:"+set.size()+" 个元素!"); //结果：总共有:4 个元素! Ｊ哥　亲自　实践了下，发现问题了，这个网上的栗子　是错的。实际上是可以ｒｅｍｏｖｅ掉得、真是个悲伤地故事。这个栗子是不正确的。。网上好有一片这样的文章，都是这个栗子。。这里　看下其他网站上的总结吧　：强烈推荐http://developer.51cto.com/art/201111/302465.htm。很详细。ＯＫ。还有最后一点，就是关于图片的，ｂｉｔｍａｐ对象的及时释放，这里　就不细说了，等在图片三级缓存一起去总结。此时　感觉　对面的ａｎｄｒｏｉｄ　小哥　已经被我吸引了。好像很认真的在听我讲课一样。然后，　他问我问题。我大体总结了一下。面试官01问：有没有自定义过ｖｉｅｗ。Ｊ哥回答：这个很常见，我自己定义过很多，比如　下拉刷新，上拉加载更多数据的listview,类似github 上面的pulltorefreshlistview。还有图片轮询播放的viewpager，也是继承viewpager，然后自己开启一个线程，去控制切换的。还比如，跑马灯效果的textview ，scrollview与 listview 相互嵌套导致 listview 高度计算不正确，我也是自定义listview，复写了 onmeaure方法，然后解决冲突的。在比如一些开源的可以放大缩小的图片，我也是做过，主要是对onmeasure 方法，onlayout方法，ondraw 方法的复写。以及复写一下 view 自己的 touch事件等等，奥对了，我们公司当时有需求做一个锁屏软件，侧滑解锁的，我也是自己定义的，然后展示给他看了一下，当时那篇文章在这里。传送门http://blog.csdn.net/u011733020/article/details/41863861。面试官01问：listview的优化、Ｊ哥回答：(PS：这种问题，基本上都快被问烂了，但是没办法还是要回答。）listview作为最常见的用来显示数据的view ，一般从四个方面去优化。 1 ，复用convertview，不然假如有1000条数据，那么我们滑动，就会产生1000个convertview ，这对内存是很大的浪费，所以我们一定要复用。 2. 减少 findviewbyid 的次数，因为每次去执行 findviewbyid 也是要消耗资源的，我们要尽可能的减少，通常我们定义一个viewholder，去管理这些id ，然后通过tag 去直接拿到 id。 3，分页加载，延迟加载预加载。这个在我们以前项目，有一个榜单，数据量很大，一次请求过来的数据量很大，这样有两个问题，一个是请求网络时间可能会很长，另一个展示数据上面体验对不是很好，所以我们做了第一次加载 20条，然后每次请求再去加载10条新数据。 4.就是对 listview 中一些类似头像，图片的优化。这里类似三级缓存，推荐大家看一下开源的universal-image-loader 的源码。或者这篇文章http://www.jb51.net/article/38162.htm，J哥有时间专门写一篇过于图片缓存的。面试官01问：看你简历上面做过社交，通信这块是怎么做的。Ｊ哥回答：我看咱们公司也用到了聊天，咱们公司是自己做的还是用的第三方的类似环信的。结果被J哥猜中，他说是集成的环信（但是有丢包现象，所以打算自己做通信）。 OK，Ｊ哥说　，我们　项目中聊天　是基于ｘｍｐｐ协议的做的，在没有android以前　，java有个开源的 smack ，android 上现在有一个asmack ,其实就是移植到android 中来了，服务端是基于 openfire的 ,我们就是做的 openfire+asmack 的聊天，这个原理主要就是绑定 ip 拿到 connection 然后 connect ，然后进行通信，我说，这个　跟ｈｔｔｐ请求　其实原理上一样，都是　绑定ｉｐ，然后　设置一些ｐｒｏｐｅｒｔｙ，然后通过类似流进行通信的，　asmack，其实底层就是xml通信的。面试官01问： touch 事件的传递机制，还特意画了，一个就是 button LinearLayout 嵌套。Ｊ哥回答：就是这个，这也难不倒我。因为Ｊ哥觉得　这个问题肯定会问到　所以　早有准备，这里　我就大体说下结论，详细原理　给你传送门。我回答，这个很简单，只要你继承一下　button　　和　linearlayout　复写一下　三个方法　dispatchtouchEvent onInterceptTouchEvent 和onTouchEvent .就能很清楚的明白传递的过程，我给你总的说下结论的，点击这个button，一般是外面的父控件先响应这个down 事件，然后往子类里面传递，让子类在往子类的下一级子类去传递，让最终的孩子去决定是不要要消费掉这个点击事件，如果消费掉，那么父类将不会响应，如果子类不消费，那么会退回到次级子类，然后看是否要消费，这样，一句话就是父传子，子决定要不要，不要然后传回去。这里有很详细很详细的介绍，包裹事件的分发。所以我就不罗嗦，http://blog.csdn.net/yanbober/article/details/45887547?ref=myread 面试官01问：项目中图片的优化。Ｊ哥回答：我给他展示的项目其中有一款app 是有很多图片，但是很流畅，也没有oom。关于图片优化，一般我们采用三级缓存，1 。内存加载 2.本地加载 3 网络加载。首先我们看内存中有没有，有直接拿来用，这里我项目里是这样做的，我先获取一下分配给我们应用的可用内存是多少，然后拿1/4 或者 1/8做一个 lrucache. 把我们的bitmap对象添加进去。有些比较常用的图片，我会保存到本地，避免每次重复联网下载。结合开源的 afinal universalimageloader 以及 13年谷歌官方推荐的volley(号称是 asynchttpclient 和universalimageloader)的结合、所以在我的项目中基本没有遇到过图片导致的oom 问题，对于单张的大图片，我也会利用bitmapFactory，进行计算大小，然后计算手机分辨率，进行定量的压缩处理。面试官问： GC的回收Ｊ哥回答：我说。GC 回收应该不只是按照一种方式，应该有多种不同的算法，我看过谷歌官网介绍的一点，有这样一块区域，他分为 latest（最近） middle（中等）permanent（永久的），这样三块子区域。里面分别存放，刚刚被创建的，以及时间靠后的，很久的，对象，不断地新对象往latest里面添加，当达到相应对象区域的阀值的时候，就会触发GC，GC 进行回收的时候，对于latest 中回收的速度是最快的，而permanent 相对是最久的，而时间也跟每块区域中对象的个数有关系，还有一种算法，是根据最近被引用的时间，或者被引用的次数去进行 GC的、、这里随便扯就是了。GC 回收并不是立即执行的。是不定时的。ＧＣ回收的时候　会阻塞线程，所以代码中要避免创建不必要的对象，例如ｆｏｒ循环中　创建大量对象　就会容易引起ＧＣ。当我们也可以主动在方法中执行system.gc() 去手动释放一些资源。面试官01问：怎么避免 viewpager 预加载 fragment的、Ｊ哥回答：这个问题我也碰到过，我们都知道，viewpager 它本身会预加载左右两个和当前一个对象、而我们viewpager setOffscreenPageLimit(0) 不生效因为看源码知道，这个方法默认最少也要加载一个。所以这个fragment 还没有被当前页面显示出来，已经夹在好了，有可能数据不是最新的，我是在 setuservisibilityhint() 这个方法中跟参数动态去判断要不要刷新的。问了一圈，这个哥们大概没什么问的了，然后就让我等一下，说让他们技术总监过来。我就等。。。然后等了几分钟，进来一小姑娘，坐下，看了我简历，我以为是人事，来跟我谈人生理想。结果，没说几句话，让我讲一下我的项目。我qu，惊呆我了。我问，你也是做android的，我去，是这样的、、把J哥吓到, 然后问了Ｊ哥几个问题。 Android 小姑娘问：看你项目中的listview 中item类型是统一的，而加入 item 差别挺大的你怎么复用。Ｊ哥回答：J哥装作很牛的样子说，我暂时想到两种方法，1.给这个对象加一个type 然后根据 type 去复用，或者把这几种类型一起加载，然后控制显示隐藏。然后我反问小姑娘，假如我这里有一百条数据，这一百条是无序的，包含了 10种 item类型，你有没有什么好方法去处理这个问题，小姑娘说，你不是定义了类型吗，我们就是通过type 去判断的。 Android 小姑娘问： onAttch onDetach还是onAttachedToWindow，onDetachedFromWindow Ｊ哥回答：其实那个小姑娘忘记这两个方法了。我说什么方法，她说onAttachIntent() 和 onDetachIntent(). 反正 J哥是没听说过，我只见过 onAttach ,但是这个方法我也没用过。我就问她，这两个方法是做什么的，小姑娘跟我说是把子view绑定到界面上的，那么的话应该是onAttachedToWindow，onDetachedFromWindow方法了，小姑娘说：在这个方法可以计算子 view的高度宽度，在 oncreate 里面不能计算，其实虽然刚开始在oncreate里面是不能计算，但是还是有方法计算的，（本人觉得面试问你 API 是最2的了，忍不住吐槽下，我遇到过，Camera 拍照，问我获取一个图片，还是视频的方法，我去百度一下，随便就知道，真是不懂为什么会问方法。随便一个程序员都会百度。。）跟小姑娘聊得其他问题不太记得了，感觉这个女程序员啊。。就问方法给我的印象不太好，不管方法用没用到，我觉得面试直接问你方法好2 好2... 然后技术总监有进来跟我聊了，后技术总监有进来跟我聊了、技术总监年龄30出头吧，到是没有问我什么技术问题，总监：问我做没做过通信这块，能不能做这一块。Ｊ哥回答：，我说做过，通信有几种协议的，我们用的是xmpp协议的，服务器是基于apache的 openfire 搭建的，客户端是用的asmack。还有一些其他协议的，比如我知道有些项目中用的 soap协议的，还有ip 协议的。ＰＳ：反正就是扯我说　通信　客户端这一块　我没问题，但是　服务端　我　从工作以来　一直偏向　ａｎｄｒｏｉｄ　移动端开发，后台这一块，如果数据量大了，还要考虑并发之类的，我是做不了，让我做个ｔｏｍｃａｔ搭建的ｄｅｍｏ　我可能可以。其他也是随便聊了下，然后　就说，让人事来跟我谈理想了。总监：问我什么时候能上班Ｊ哥回答：我说这个看公司需求啦。其他也是随便聊了下，然后　就说，让人事来跟我谈理想了。这里　感觉应该没问题了。差不多能拿下了。人事１：一进来，就问东问西。问加班看法啊，他们公司技术　一般都八九点走啊。说七点基本没有走的啊、、、Ｊ哥回答：我说，一般遇到项目加功能　，版本升级，等等　这些加班都没什么，只要不是一直在加班。。。。这里每个人自己看法就好了、、反正人事　是一直跟我强调这个，她不停强调　我就暗暗下决心，薪资　我是不会要低了。人事１：看你还年轻啊，还能拼一拼啊、、、、Ｊ哥回答：我说现在　这几年对我人生规划也算比较重要的时期，也是过一年少一年了，其实她的意思　还是侧面强调加班。。。。日了UZI了。中间一堆废话，然后我问了她公司一般上下班时间啊。。之类的有没有技术交流啊，之类的。。。最后到关键问题上啦，最关心的，薪资问题。人事１：期望薪资Ｊ哥回答：我说16K左右吧。她问你以前公司多少握手 15K。她说她们公司是 14薪。反正我还是说16K。她说那好，你等下，然后就出去了。不知道跟什么人讨论了许久，然后又来一个可能是人事吧。又进来，问了一遍，也问了薪资。。哥还是说16K 。。。估计是她们公司想要我，但是又觉得有点超出她们薪资期望吧，当场被没有给什么offer。然后就有点婉拒的说，两天给我答复，心里很气愤，饿着肚子面试到三点，竟然婉拒、、、反正我是很生气，我说，好，然后我就走。结果，没过一个小时，人事又打电话来，非要约我见一下她们CEO。这是什么鬼，难道她们CEO要给我煲汤了？我说可以，然后时间定在后天了，，反正心灵鸡汤对我是没用了、 OK ，这家面试先写到这里，下面下午还有一家，等下在写。准备睡觉。今天面试回来，累的就睡着了，晚上十点多才醒过来，想了想还是把今天面试的过程总结一下。 ------------------------------待续------------------------- 第二弹http://blog.csdn.net/u011733020/article/details/46058273 本篇文章为转载内容。原文链接：https://blog.csdn.net/haluoluo211/article/details/51010955。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-19 17:42:52

336

转载

转载文章

[转载]教你学Python47-机器学习迷你课程

...一些权利。迷你课程面向谁？在开始之前，请确保您在正确的位置。下面的列表提供了有关本课程针对谁的一些一般指导。如果您没有完全匹配这些点，请不要惊慌，您可能只需要在一个或另一个区域刷牙以跟上。知道如何编写一些代码的开发人员。这意味着，一旦您了解基本语法，就可以选择像Python这样的新编程语言，这对您来说并不重要。这并不意味着您是一名向导编码员，而是可以毫不费力地遵循基本的类似于C的语言。懂一点机器学习的开发人员。这意味着您了解机器学习的基础知识，例如交叉验证，一些算法和偏差方差折衷。这并不意味着您是机器学习博士，而是您知道地标或知道在哪里查找。这门迷你课程既不是Python的教科书，也不是机器学习的教科书。从一个懂一点机器学习的开发人员到一个可以使用Python生态系统获得结果的开发人员，Python生态系统是专业机器学习的新兴平台。在Python机器学习方面需要帮助吗？参加我为期2周的免费电子邮件课程，发现数据准备，算法等（包括代码）。单击立即注册，并获得该课程的免费PDF电子书版本。立即开始免费的迷你课程！迷你课程概述该微型课程分为14节课。您可以每天完成一堂课（推荐），也可以在一天内完成所有课程（核心！）。这实际上取决于您有空的时间和您的热情水平。以下是14个课程，可帮助您入门并提高使用Python进行机器学习的效率：第1课：下载并安装Python和SciPy生态系统。第2课：深入了解Python，NumPy，Matplotlib和Pandas。第3课：从CSV加载数据。第4课：了解具有描述性统计信息的数据。第5课：通过可视化了解数据。第6课：通过预处理数据准备建模。第7课：使用重采样方法进行算法评估。第8课：算法评估指标。第9课：现场检查算法。第10课：模型比较和选择。第11课：通过算法调整提高准确性。第12课：利用集合预测提高准确性。第13课：完成并保存模型。第14课：Hello World端到端项目。每节课可能需要您60秒钟或最多30分钟。花点时间按照自己的进度完成课程。提出问题，甚至在以下评论中发布结果。这些课程希望您能开始学习并做事。我会给您提示，但每节课的重点是迫使您学习从哪里寻求有关Python平台的帮助（提示，我直接在此博客上获得了所有答案，请使用搜索特征）。在早期课程中，我确实提供了更多帮助，因为我希望您树立一些信心和惯性。挂在那里，不要放弃！第1课：下载并安装Python和SciPy 您必须先访问平台才能开始使用Python进行机器学习。今天的课程很简单，您必须在计算机上下载并安装Python 3.6平台。访问Python主页并下载适用于您的操作系统（Linux，OS X或Windows）的Python。在计算机上安装Python。您可能需要使用特定于平台的软件包管理器，例如OS X上的macports或RedHat Linux上的yum。您还需要安装SciPy平台和scikit-learn库。我建议使用与安装Python相同的方法。您可以使用Anaconda一次安装所有内容（更加容易）。推荐给初学者。通过在命令行中键入“ python”来首次启动Python。使用以下代码检查所有您需要的版本： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Python version import sys print('Python: {}'.format(sys.version)) scipy import scipy print('scipy: {}'.format(scipy.__version__)) numpy import numpy print('numpy: {}'.format(numpy.__version__)) matplotlib import matplotlib print('matplotlib: {}'.format(matplotlib.__version__)) pandas import pandas print('pandas: {}'.format(pandas.__version__)) scikit-learn import sklearn print('sklearn: {}'.format(sklearn.__version__)) 如果有任何错误，请停止。现在该修复它们了。需要帮忙？请参阅本教程：如何使用Anaconda设置用于机器学习和深度学习的Python环境第2课：深入了解Python，NumPy，Matplotlib和Pandas。您需要能够读写基本的Python脚本。作为开发人员，您可以很快选择新的编程语言。Python区分大小写，使用哈希（＃）进行注释，并使用空格指示代码块（空格很重要）。今天的任务是在Python交互环境中练习Python编程语言的基本语法和重要的SciPy数据结构。练习作业，在Python中使用列表和流程控制。练习使用NumPy数组。练习在Matplotlib中创建简单图。练习使用Pandas Series和DataFrames。例如，以下是创建Pandas DataFrame的简单示例。 1 2 3 4 5 6 7 8 dataframe import numpy import pandas myarray = numpy.array([[1, 2, 3], [4, 5, 6]]) rownames = ['a', 'b'] colnames = ['one', 'two', 'three'] mydataframe = pandas.DataFrame(myarray, index=rownames, columns=colnames) print(mydataframe) 第3课：从CSV加载数据机器学习算法需要数据。您可以从CSV文件加载自己的数据，但是当您开始使用Python进行机器学习时，应该在标准机器学习数据集上进行练习。今天课程的任务是让您轻松地将数据加载到Python中并查找和加载标准的机器学习数据集。您可以在UCI机器学习存储库上下载和练习许多CSV格式的出色标准机器学习数据集。练习使用标准库中的CSV.reader（）将CSV文件加载到Python 中。练习使用NumPy和numpy.loadtxt（）函数加载CSV文件。练习使用Pandas和pandas.read_csv（）函数加载CSV文件。为了让您入门，下面是一个片段，该片段将直接从UCI机器学习存储库中使用Pandas来加载Pima Indians糖尿病数据集。 1 2 3 4 5 6 Load CSV using Pandas from URL import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) print(data.shape) 到现在为止做得很好！等一下到目前为止有什么问题吗？在评论中提问。第4课：使用描述性统计数据理解数据将数据加载到Python之后，您需要能够理解它。您越了解数据，可以构建的模型就越精确。了解数据的第一步是使用描述性统计数据。今天，您的课程是学习如何使用描述性统计信息来理解您的数据。我建议使用Pandas DataFrame上提供的帮助程序功能。使用head（）函数了解您的数据以查看前几行。使用shape属性查看数据的维度。使用dtypes属性查看每个属性的数据类型。使用describe（）函数查看数据的分布。使用corr（）函数计算变量之间的成对相关性。以下示例加载了皮马印第安人糖尿病发病数据集，并总结了每个属性的分布。 1 2 3 4 5 6 7 Statistical Summary import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) description = data.describe() print(description) 试试看！第5课：通过可视化了解数据从昨天的课程继续，您必须花一些时间更好地了解您的数据。增进对数据理解的第二种方法是使用数据可视化技术（例如，绘图）。今天，您的课程是学习如何在Python中使用绘图来单独理解属性及其相互作用。再次，我建议使用Pandas DataFrame上提供的帮助程序功能。使用hist（）函数创建每个属性的直方图。使用plot（kind ='box'）函数创建每个属性的箱须图。使用pandas.scatter_matrix（）函数创建所有属性的成对散点图。例如，下面的代码片段将加载糖尿病数据集并创建数据集的散点图矩阵。 1 2 3 4 5 6 7 8 9 Scatter Plot Matrix import matplotlib.pyplot as plt import pandas from pandas.plotting import scatter_matrix url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) scatter_matrix(data) plt.show() 样本散点图矩阵第6课：通过预处理数据准备建模您的原始数据可能未设置为最佳建模形式。有时您需要对数据进行预处理，以便最好地将问题的固有结构呈现给建模算法。在今天的课程中，您将使用scikit-learn提供的预处理功能。 scikit-learn库提供了两个用于转换数据的标准习语。每种变换在不同的情况下都非常有用：拟合和多重变换以及组合的拟合与变换。您可以使用多种技术来准备数据以进行建模。例如，尝试以下一些方法使用比例和中心选项将数值数据标准化（例如，平均值为0，标准偏差为1）。使用范围选项将数值数据标准化（例如，范围为0-1）。探索更高级的功能工程，例如Binarizing。例如，下面的代码段加载了Pima Indians糖尿病发病数据集，计算了标准化数据所需的参数，然后创建了输入数据的标准化副本。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Standardize data (0 mean, 1 stdev) from sklearn.preprocessing import StandardScaler import pandas import numpy url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = pandas.read_csv(url, names=names) array = dataframe.values separate array into input and output components X = array[:,0:8] Y = array[:,8] scaler = StandardScaler().fit(X) rescaledX = scaler.transform(X) summarize transformed data numpy.set_printoptions(precision=3) print(rescaledX[0:5,:]) 第7课：使用重采样方法进行算法评估用于训练机器学习算法的数据集称为训练数据集。用于训练算法的数据集不能用于为您提供有关新数据的模型准确性的可靠估计。这是一个大问题，因为创建模型的整个思路是对新数据进行预测。您可以使用称为重采样方法的统计方法将训练数据集划分为子集，一些方法用于训练模型，而另一些则被保留，并用于估计看不见的数据的模型准确性。今天课程的目标是练习使用scikit-learn中可用的不同重采样方法，例如：将数据集分为训练集和测试集。使用k倍交叉验证来估计算法的准确性。使用留一法交叉验证来估计算法的准确性。下面的代码段使用scikit-learn通过10倍交叉验证来评估Pima Indians糖尿病发作的Logistic回归算法的准确性。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Evaluate using Cross Validation from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] kfold = KFold(n_splits=10, random_state=7) model = LogisticRegression(solver='liblinear') results = cross_val_score(model, X, Y, cv=kfold) print("Accuracy: %.3f%% (%.3f%%)") % (results.mean()100.0, results.std()100.0) 您获得了什么精度？在评论中让我知道。您是否意识到这是中间点？做得好！第8课：算法评估指标您可以使用许多不同的指标来评估数据集上机器学习算法的技能。您可以通过cross_validation.cross_val_score（）函数在scikit-learn中指定用于测试工具的度量，默认值可用于回归和分类问题。今天课程的目标是练习使用scikit-learn软件包中可用的不同算法性能指标。在分类问题上练习使用“准确性”和“ LogLoss”度量。练习生成混淆矩阵和分类报告。在回归问题上练习使用RMSE和RSquared指标。下面的代码段演示了根据Pima Indians糖尿病发病数据计算LogLoss指标。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Cross Validation Classification LogLoss from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] kfold = KFold(n_splits=10, random_state=7) model = LogisticRegression(solver='liblinear') scoring = 'neg_log_loss' results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) print("Logloss: %.3f (%.3f)") % (results.mean(), results.std()) 您得到了什么日志损失？在评论中让我知道。第9课：抽查算法您可能无法事先知道哪种算法对您的数据效果最好。您必须使用反复试验的过程来发现它。我称之为现场检查算法。scikit-learn库提供了许多机器学习算法和工具的接口，以比较这些算法的估计准确性。在本课程中，您必须练习抽查不同的机器学习算法。对数据集进行抽查线性算法（例如线性回归，逻辑回归和线性判别分析）。抽查数据集上的一些非线性算法（例如KNN，SVM和CART）。抽查数据集上一些复杂的集成算法（例如随机森林和随机梯度增强）。例如，下面的代码片段对Boston House Price数据集上的K最近邻居算法进行了抽查。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 KNN Regression from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.neighbors import KNeighborsRegressor url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.data" names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] dataframe = read_csv(url, delim_whitespace=True, names=names) array = dataframe.values X = array[:,0:13] Y = array[:,13] kfold = KFold(n_splits=10, random_state=7) model = KNeighborsRegressor() scoring = 'neg_mean_squared_error' results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) print(results.mean()) 您得到的平方误差是什么意思？在评论中让我知道。第10课：模型比较和选择既然您知道了如何在数据集中检查机器学习算法，那么您需要知道如何比较不同算法的估计性能并选择最佳模型。在今天的课程中，您将练习比较Python和scikit-learn中的机器学习算法的准确性。在数据集上相互比较线性算法。在数据集上相互比较非线性算法。相互比较同一算法的不同配置。创建比较算法的结果图。下面的示例在皮马印第安人发病的糖尿病数据集中将Logistic回归和线性判别分析进行了比较。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Compare Algorithms from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression from sklearn.discriminant_analysis import LinearDiscriminantAnalysis load dataset url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] prepare models models = [] models.append(('LR', LogisticRegression(solver='liblinear'))) models.append(('LDA', LinearDiscriminantAnalysis())) evaluate each model in turn results = [] names = [] scoring = 'accuracy' for name, model in models: kfold = KFold(n_splits=10, random_state=7) cv_results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) results.append(cv_results) names.append(name) msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std()) print(msg) 哪种算法效果更好？你能做得更好吗？在评论中让我知道。第11课：通过算法调整提高准确性一旦找到一种或两种在数据集上表现良好的算法，您可能希望提高这些模型的性能。提高算法性能的一种方法是将其参数调整为特定的数据集。 scikit-learn库提供了两种方法来搜索机器学习算法的参数组合。在今天的课程中，您的目标是练习每个。使用您指定的网格搜索来调整算法的参数。使用随机搜索调整算法的参数。下面使用的代码段是一个示例，该示例使用网格搜索在Pima Indians糖尿病发病数据集上的Ridge回归算法。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Grid Search for Algorithm Tuning from pandas import read_csv import numpy from sklearn.linear_model import Ridge from sklearn.model_selection import GridSearchCV url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0]) param_grid = dict(alpha=alphas) model = Ridge() grid = GridSearchCV(estimator=model, param_grid=param_grid, cv=3) grid.fit(X, Y) print(grid.best_score_) print(grid.best_estimator_.alpha) 哪些参数取得最佳效果？你能做得更好吗？在评论中让我知道。第12课：利用集合预测提高准确性您可以提高模型性能的另一种方法是组合来自多个模型的预测。一些模型提供了内置的此功能，例如用于装袋的随机森林和用于增强的随机梯度增强。可以使用另一种称为投票的合奏将来自多个不同模型的预测组合在一起。在今天的课程中，您将练习使用合奏方法。使用随机森林和多余树木算法练习装袋。使用梯度增强机和AdaBoost算法练习增强合奏。通过将来自多个模型的预测组合在一起来练习投票合奏。下面的代码段演示了如何在Pima Indians糖尿病发病数据集上使用随机森林算法（袋装决策树集合）。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Random Forest Classification from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestClassifier url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] num_trees = 100 max_features = 3 kfold = KFold(n_splits=10, random_state=7) model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features) results = cross_val_score(model, X, Y, cv=kfold) print(results.mean()) 你能设计出更好的合奏吗？在评论中让我知道。第13课：完成并保存模型找到有关机器学习问题的良好模型后，您需要完成该模型。在今天的课程中，您将练习与完成模型有关的任务。练习使用模型对新数据（在训练和测试过程中看不到的数据）进行预测。练习将经过训练的模型保存到文件中，然后再次加载。例如，下面的代码片段显示了如何创建Logistic回归模型，将其保存到文件中，之后再加载它以及对看不见的数据进行预测。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Save Model Using Pickle from pandas import read_csv from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression import pickle url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] test_size = 0.33 seed = 7 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed) Fit the model on 33% model = LogisticRegression(solver='liblinear') model.fit(X_train, Y_train) save the model to disk filename = 'finalized_model.sav' pickle.dump(model, open(filename, 'wb')) some time later... load the model from disk loaded_model = pickle.load(open(filename, 'rb')) result = loaded_model.score(X_test, Y_test) print(result) 第14课：Hello World端到端项目您现在知道如何完成预测建模机器学习问题的每个任务。在今天的课程中，您需要练习将各个部分组合在一起，并通过端到端的标准机器学习数据集进行操作。端到端遍历虹膜数据集（机器学习的世界）这包括以下步骤：使用描述性统计数据和可视化了解您的数据。预处理数据以最好地揭示问题的结构。使用您自己的测试工具抽查多种算法。使用算法参数调整来改善结果。使用集成方法改善结果。最终确定模型以备将来使用。慢慢进行，并记录结果。您使用什么型号？您得到了什么结果？在评论中让我知道。结束！（看你走了多远）你做到了。做得好！花一点时间，回头看看你已经走了多远。您最初对机器学习感兴趣，并强烈希望能够使用Python练习和应用机器学习。您可能是第一次下载，安装并启动Python，并开始熟悉该语言的语法。在许多课程中，您逐渐地，稳定地学习了预测建模机器学习项目的标准任务如何映射到Python平台上。基于常见机器学习任务的配方，您使用Python端到端解决了第一个机器学习问题。使用标准模板，您所收集的食谱和经验现在可以自行解决新的和不同的预测建模机器学习问题。不要轻描淡写，您在短时间内就取得了长足的进步。这只是您使用Python进行机器学习的起点。继续练习和发展自己的技能。喜欢点下关注，你的关注是我写作的最大支持本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_37337849/article/details/104016531。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-07-11 10:04:06

转载

转载文章

[转载]史上最通俗，彻底搞懂字符乱码问题的本质

...要有字符集。我们在计算机屏幕上看到的是实体化的文字，而在计算机存储介质中存放的实际是二进制的比特流。那么在这两者之间的转换规则就需要一个统一的标准，否则把我们的U盘插到老板的电脑上，文档就乱码了；小伙伴QQ上传过来的文件，在我们本地打开又乱码了。于是为了实现转换标准，各种字符集标准就出现了。简单的说：字符集就规定了某个文字对应的二进制数字存放方式（编码）和某串二进制数值代表了哪个文字（解码）的转换关系。那么为什么会有那么多字符集标准呢？这个问题实际非常容易回答。问问自己为什么我们的插头拿到英国就不能用了呢？为什么显示器同时有DVI、VGA、HDMI、DP这么多接口呢？很多规范和标准在最初制定时并不会意识到这将会是以后全球普适的准则，或者处于组织本身利益就想从本质上区别于现有标准。于是，就产生了那么多具有相同效果但又不相互兼容的标准了。说了那么多我们来看一个实际例子，下面就是“屌”这个字在各种编码下的十六进制和二进制编码结果，怎么样有没有一种很屌的感觉？ 6、什么是字符编码字符集只是一个规则集合的名字，对应到真实生活中，字符集就是对某种语言的称呼。例如：英语，汉语，日语。对于一个字符集来说要正确编码转码一个字符需要三个关键元素： 1）字库表（character repertoire）：是一个相当于所有可读或者可显示字符的数据库，字库表决定了整个字符集能够展现表示的所有字符的范围； 2）编码字符集（coded character set）：即用一个编码值code point来表示一个字符在字库中的位置； 3）字符编码（character encoding form）：将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。例如在ASCII中“A”在表中排第65位，而编码后A的数值是 0100 0001 也即十进制的65的二进制转换结果。看到这里，可能很多读者都会有和我当初一样的疑问：字库表和编码字符集看来是必不可少的，那既然字库表中的每一个字符都有一个自己的序号，直接把序号作为存储内容就好了。为什么还要多此一举通过字符编码把序号转换成另外一种存储格式呢？其实原因也比较容易理解：统一字库表的目的是为了能够涵盖世界上所有的字符，但实际使用过程中会发现真正用的上的字符相对整个字库表来说比例非常低。例如中文地区的程序几乎不会需要日语字符，而一些英语国家甚至简单的ASCII字库表就能满足基本需求。而如果把每个字符都用字库表中的序号来存储的话，每个字符就需要3个字节（这里以Unicode字库为例），这样对于原本用仅占一个字符的ASCII编码的英语地区国家显然是一个额外成本（存储体积是原来的三倍）。算的直接一些，同样一块硬盘，用ASCII可以存1500篇文章，而用3字节Unicode序号存储只能存500篇。于是就出现了UTF-8这样的变长编码。在UTF-8编码中原本只需要一个字节的ASCII字符，仍然只占一个字节。而像中文及日语这样的复杂字符就需要2个到3个字节来存储。关于字符编码知识的详细讲解请见：《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》。 7、UTF-8和Unicode的关系看完上面两个概念解释，那么解释UTF-8和Unicode的关系就比较简单了。 Unicode就是上文中提到的编码字符集，而UTF-8就是字符编码，即Unicode规则字库的一种实现形式。随着互联网的发展，对同一字库集的要求越来越迫切，Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字，并将为他们编号。详见：Unicode百科介绍。 Unicode的编号从 0000 开始一直到10FFFF 共分为17个Plane，每个Plane中有65536个字符。而UTF-8则只实现了第一个Plane，可见UTF-8虽然是一个当今接受度最广的字符集编码，但是它并没有涵盖整个Unicode的字库，这也造成了它在某些场景下对于特殊字符的处理困难（下文会有提到）。 8、UTF-8编码简介为了更好的理解后面的实际应用，我们这里简单的介绍下UTF-8的编码实现方法。即UTF-8的物理存储和Unicode序号的转换关系。 UTF-8编码为变长编码，最小编码单位（code unit）为一个字节。一个字节的前1-3个bit为描述性部分，后面为实际序号部分： 1）如果一个字节的第一位为0，那么代表当前字符为单字节字符，占用一个字节的空间。0之后的所有部分（7个bit）代表在Unicode中的序号； 2）如果一个字节以110开头，那么代表当前字符为双字节字符，占用2个字节的空间。110之后的所有部分（5个bit）加上后一个字节的除10外的部分（6个bit）代表在Unicode中的序号。且第二个字节以10开头； 3）如果一个字节以1110开头，那么代表当前字符为三字节字符，占用3个字节的空间。110之后的所有部分（5个bit）加上后两个字节的除10外的部分（12个bit）代表在Unicode中的序号。且第二、第三个字节以10开头； 4）如果一个字节以10开头，那么代表当前字节为多字节字符的第二个字节。10之后的所有部分（6个bit）和之前的部分一同组成在Unicode中的序号。具体每个字节的特征可见下表，其中“x”代表序号部分，把各个字节中的所有x部分拼接在一起就组成了在Unicode字库中的序号。如下图所示。我们分别看三个从一个字节到三个字节的UTF-8编码例子：细心的读者不难从以上的简单介绍中得出以下规律： 1）3个字节的UTF-8十六进制编码一定是以E开头的； 2）2个字节的UTF-8十六进制编码一定是以C或D开头的； 3）1个字节的UTF-8十六进制编码一定是以比8小的数字开头的。 9、为什么会出现乱码乱码也就是英文常说的mojibake（由日语的文字化け音译）。简单的说乱码的出现是因为：编码和解码时用了不同或者不兼容的字符集。对应到真实生活中：就好比是一个英国人为了表示祝福在纸上写了bless（编码过程）。而一个法国人拿到了这张纸，由于在法语中bless表示受伤的意思，所以认为他想表达的是受伤（解码过程）。这个就是一个现实生活中的乱码情况。在计算机科学中一样：一个用UTF-8编码后的字符，用GBK去解码。由于两个字符集的字库表不一样，同一个汉字在两个字符表的位置也不同，最终就会出现乱码。我们来看一个例子，假设我们用UTF-8编码存储“很屌”两个字，会有如下转换：于是我们得到了E5BE88E5B18C这么一串数值，而显示时我们用GBK解码进行展示，通过查表我们获得以下信息：解码后我们就得到了“寰堝睂”这么一个错误的结果，更要命的是连字符个数都变了。 10、如何识别乱码的本来想要表达的文字要从乱码字符中反解出原来的正确文字需要对各个字符集编码规则有较为深刻的掌握。但是原理很简单，这里用以MySQL数据库中的数据操纵中最常见的UTF-8被错误用GBK展示时的乱码为例，来说明具体反解和识别过程。 10.1 第1步：编码假设我们在页面上看到“寰堝睂”这样的乱码，而又得知我们的浏览器当前使用GBK编码。那么第一步我们就能先通过GBK把乱码编码成二进制表达式。当然查表编码效率很低，我们也可以用以下SQL语句直接通过MySQL客户端来做编码工作： mysql [localhost] {msandbox} > selecthex(convert('寰堝睂'using gbk)); +-------------------------------------+ | hex(convert('寰堝睂'using gbk)) | +-------------------------------------+ | E5BE88E5B18C | +-------------------------------------+ 1 row inset(0.01 sec) 10.2 第2步：识别现在我们得到了解码后的二进制字符串E5BE88E5B18C。然后我们将它按字节拆开。然后套用之前UTF-8编码介绍章节中总结出的规律，就不难发现这6个字节的数据符合UTF-8编码规则。如果整个数据流都符合这个规则的话，我们就能大胆假设乱码之前的编码字符集是UTF-8。 10.3 第3步：解码然后我们就能拿着 E5BE88E5B18C 用UTF-8解码，查看乱码前的文字了。当然我们可以不查表直接通过SQL获得结果： mysql [localhost] {msandbox} ((none)) > selectconvert(0xE5BE88E5B18C using utf8); +------------------------------------+ | convert(0xE5BE88E5B18C using utf8) | +------------------------------------+ | 很屌 | +------------------------------------+ 1 row inset(0.00 sec) 11、常见的IM乱码问题处理之MySQL中的Emoji字符所谓Emoji就是一种在Unicode位于 \u1F601-\u1F64F 区段的字符。这个显然超过了目前常用的UTF-8字符集的编码范围 \u0000-\uFFFF。Emoji表情随着IOS的普及和微信的支持越来越常见。下面就是几个常见的Emoji（IM聊天软件中经常会被用到）：那么Emoji字符表情会对我们平时的开发运维带来什么影响呢？最常见的问题就在于将他存入MySQL数据库的时候。一般来说MySQL数据库的默认字符集都会配置成UTF-8（三字节），而utf8mb4在5.5以后才被支持，也很少会有DBA主动将系统默认字符集改成utf8mb4。那么问题就来了，当我们把一个需要4字节UTF-8编码才能表示的字符存入数据库的时候就会报错：ERROR 1366: Incorrect string value: '\xF0\x9D\x8C\x86' for column 。如果认真阅读了上面的解释，那么这个报错也就不难看懂了：我们试图将一串Bytes插入到一列中，而这串Bytes的第一个字节是 \xF0 意味着这是一个四字节的UTF-8编码。但是当MySQL表和列字符集配置为UTF-8的时候是无法存储这样的字符的，所以报了错。那么遇到这种情况我们如何解决呢？有两种方式： 1）升级MySQL到5.6或更高版本，并且将表字符集切换至utf8mb4； 2）在把内容存入到数据库之前做一次过滤，将Emoji字符替换成一段特殊的文字编码，然后再存入数据库中。之后从数据库获取或者前端展示时再将这段特殊文字编码转换成Emoji显示。第二种方法我们假设用 --1F601-- 来替代4字节的Emoji，那么具体实现python代码可以参见Stackoverflow上的回答。 12、参考文献 [1] 如何配置Python默认字符集 [2] 字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8 [3] Unicode中文编码表 [4] Emoji Unicode Table [5] Every Developer Should Know About The Encoding 附录：更多IM开发方面的文章 [1] IM开发综合文章：《新手入门一篇就够：从零开发移动端IM》《移动端IM开发者必读(一)：通俗易懂，理解移动网络的“弱”和“慢”》《移动端IM开发者必读(二)：史上最全移动弱网络优化方法总结》《从客户端的角度来谈谈移动端IM的消息可靠性和送达机制》《现代移动端网络短连接的优化手段总结：请求速度、弱网适应、安全保障》《腾讯技术分享：社交网络图片的带宽压缩技术演进之路》《小白必读：闲话HTTP短连接中的Session和Token》《IM开发基础知识补课：正确理解前置HTTP SSO单点登陆接口的原理》《移动端IM开发需要面对的技术问题》《开发IM是自己设计协议用字节流好还是字符流好？》《请问有人知道语音留言聊天的主流实现方式吗？》《一个低成本确保IM消息时序的方法探讨》《完全自已开发的IM该如何设计“失败重试”机制？》《通俗易懂：基于集群的移动端IM接入层负载均衡方案分享》《微信对网络影响的技术试验及分析（论文全文）》《即时通讯系统的原理、技术和应用（技术论文）》《开源IM工程“蘑菇街TeamTalk”的现状：一场有始无终的开源秀》《QQ音乐团队分享：Android中的图片压缩技术详解（上篇）》《QQ音乐团队分享：Android中的图片压缩技术详解（下篇）》《腾讯原创分享(一)：如何大幅提升移动网络下手机QQ的图片传输速度和成功率》《腾讯原创分享(二)：如何大幅压缩移动网络下APP的流量消耗（上篇）》《腾讯原创分享(三)：如何大幅压缩移动网络下APP的流量消耗（下篇）》《如约而至：微信自用的移动端IM网络层跨平台组件库Mars已正式开源》《基于社交网络的Yelp是如何实现海量用户图片的无损压缩的？》《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》《全面掌握移动端主流图片格式的特点、性能、调优等》《子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践》《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》《自已开发IM有那么难吗？手把手教你自撸一个Andriod版简易IM (有源码)》《融云技术分享：解密融云IM产品的聊天消息ID生成策略》《适合新手：从零开发一个IM服务端（基于Netty，有完整源码）》《拿起键盘就是干：跟我一起徒手开发一套分布式IM系统》 >> 更多同类文章 …… [2] 有关IM架构设计的文章：《浅谈IM系统的架构设计》《简述移动端IM开发的那些坑：架构设计、通信协议和客户端》《一套海量在线用户的移动端IM架构设计实践分享(含详细图文)》《一套原创分布式即时通讯(IM)系统理论架构方案》《从零到卓越：京东客服即时通讯系统的技术架构演进历程》《蘑菇街即时通讯/IM服务器开发之架构选择》《腾讯QQ1.4亿在线用户的技术挑战和架构演进之路PPT》《微信后台基于时间序的海量数据冷热分级架构设计实践》《微信技术总监谈架构：微信之道——大道至简(演讲全文)》《如何解读《微信技术总监谈架构：微信之道——大道至简》》《快速裂变：见证微信强大后台架构从0到1的演进历程（一）》《17年的实践：腾讯海量产品的技术方法论》《移动端IM中大规模群消息的推送如何保证效率、实时性？》《现代IM系统中聊天消息的同步和存储方案探讨》《IM开发基础知识补课(二)：如何设计大量图片文件的服务端存储架构？》《IM开发基础知识补课(三)：快速理解服务端数据库读写分离原理及实践建议》《IM开发基础知识补课(四)：正确理解HTTP短连接中的Cookie、Session和Token》《WhatsApp技术实践分享：32人工程团队创造的技术神话》《微信朋友圈千亿访问量背后的技术挑战和实践总结》《王者荣耀2亿用户量的背后：产品定位、技术架构、网络方案等》《IM系统的MQ消息中间件选型：Kafka还是RabbitMQ？》《腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面》《以微博类应用场景为例，总结海量社交系统的架构设计步骤》《快速理解高性能HTTP服务端的负载均衡技术原理》《子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践》《知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路》《IM开发基础知识补课(五)：通俗易懂，正确理解并用好MQ消息队列》《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》《微信技术分享：微信的海量IM聊天消息序列号生成实践（容灾方案篇）》《新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践》《一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践》《阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史》《阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路》《社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等》《社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进》《社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节》《社交软件红包技术解密(四)：微信红包系统是如何应对高并发的》《社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的》《社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践》《社交软件红包技术解密(七)：支付宝红包的海量高并发技术实践》《社交软件红包技术解密(八)：全面解密微博红包技术方案》《社交软件红包技术解密(九)：谈谈手Q红包的功能逻辑、容灾、运维、架构等》《即时通讯新手入门：一文读懂什么是Nginx？它能否实现IM的负载均衡？》《即时通讯新手入门：快速理解RPC技术——基本概念、原理和用途》《多维度对比5款主流分布式MQ消息队列，妈妈再也不担心我的技术选型了》《从游击队到正规军(一)：马蜂窝旅游网的IM系统架构演进之路》《从游击队到正规军(二)：马蜂窝旅游网的IM客户端架构演进和实践总结》《IM开发基础知识补课(六)：数据库用NoSQL还是SQL？读这篇就够了！》《瓜子IM智能客服系统的数据架构设计（整理自现场演讲，有配套PPT）》《阿里钉钉技术分享：企业级IM王者——钉钉在后端架构上的过人之处》 >> 更多同类文章 …… （本文同步发布于：http://www.52im.net/thread-2868-1-1.html）本篇文章为转载内容。原文链接：https://blog.csdn.net/hellojackjiang2011/article/details/103586305。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-04-29 12:29:21

523

转载

转载文章

[转载]“结巴”中文分词：做最好的 Python 中文分词组件

...硕士毕业于中国科学院计算所，后在日本京都大学深造") 搜索引擎模式print(", ".join(seg_list)) 输出: 【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模式】: 我/ 来到/ 北京/ 清华大学【新词识别】：他, 来到, 了, 网易, 杭研, 大厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造添加自定义词典载入词典开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率用法： jieba.load_userdict(file_name) file_name 为文件类对象或自定义词典的路径词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。词频省略时使用自动计算的能保证分出该词的词频。例如：创新办 3 i云计算 5凱特琳 nz台中更改分词器（默认为 jieba.dt）的 tmp_dir 和 cache_file 属性，可分别指定缓存文件所在的文件夹及其文件名，用于受限的文件系统。范例：自定义词典：https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py 之前：李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 / 加载自定义词库后：　李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / 调整词典使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。代码示例： >>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中将/出错/。>>> jieba.suggest_freq(('中', '将'), True)494>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中/将/出错/。>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台/中/」/正确/应该/不会/被/切开>>> jieba.suggest_freq('台中', True)69>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台中/」/正确/应该/不会/被/切开 “通过用户自定义词典来增强歧义纠错能力” — https://github.com/fxsjy/jieba/issues/14 关键词提取基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20 withWeight 为是否一并返回关键词权重值，默认值为 False allowPOS 仅包括指定词性的词，默认值为空，即不筛选 jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件代码示例（关键词提取） https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py 关键词提取所使用逆向文件频率（IDF）文本语料库可以切换成自定义语料库的路径用法： jieba.analyse.set_idf_path(file_name) file_name为自定义语料库的路径自定义语料库示例：https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big 用法示例：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py 关键词提取所使用停止词（Stop Words）文本语料库可以切换成自定义语料库的路径用法： jieba.analyse.set_stop_words(file_name) file_name为自定义语料库的路径自定义语料库示例：https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt 用法示例：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py 关键词一并返回关键词权重值示例用法示例：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py 基于 TextRank 算法的关键词抽取 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用，接口相同，注意默认过滤词性。 jieba.analyse.TextRank() 新建自定义 TextRank 实例算法论文： TextRank: Bringing Order into Texts 基本思想: 将待抽取关键词的文本进行分词以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图计算图中节点的PageRank，注意是无向带权图使用示例: 见 test/demo.py 词性标注 jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。除了jieba默认分词模式，提供paddle模式下的词性标注功能。paddle模式采用延迟加载方式，通过enable_paddle()安装paddlepaddle-tiny，并且import相关代码；用法示例 >>> import jieba>>> import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门") jieba默认模式>>> jieba.enable_paddle() 启动paddle模式。 0.40版之后开始支持，早期版本不支持>>> words = pseg.cut("我爱北京天安门",use_paddle=True) paddle模式>>> for word, flag in words:... print('%s %s' % (word, flag))...我 r爱 v北京 ns天安门 ns paddle模式词性标注对应表如下： paddle模式词性和专名类别标签集合如下表，其中词性标签 24 个（小写字母），专名类别标签 4 个（大写字母）。标签含义标签含义标签含义标签含义 n 普通名词 f 方位名词 s 处所名词 t 时间 nr 人名 ns 地名 nt 机构名 nw 作品名 nz 其他专名 v 普通动词 vd 动副词 vn 名动词 a 形容词 ad 副形词 an 名形词 d 副词 m 数量词 q 量词 r 代词 p 介词 c 连词 u 助词 xc 其他虚词 w 标点符号 PER 人名 LOC 地名 ORG 机构名 TIME 时间并行分词原理：将目标文本按行分隔后，把各行文本分配到多个 Python 进程并行分词，然后归并结果，从而获得分词速度的可观提升基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows 用法： jieba.enable_parallel(4) 开启并行分词模式，参数为并行进程数 jieba.disable_parallel() 关闭并行分词模式例子：https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py 实验结果：在 4 核 3.4GHz Linux 机器上，对金庸全集进行精确分词，获得了 1MB/s 的速度，是单进程版的 3.3 倍。注意：并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。 Tokenize：返回词语在原文的起止位置注意，输入参数只接受 unicode 默认模式 result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限公司 start: 6 end:10 搜索模式 result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限 start: 6 end:8word 公司 start: 8 end:10word 有限公司 start: 6 end:10 ChineseAnalyzer for Whoosh 搜索引擎引用： from jieba.analyse import ChineseAnalyzer 用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py 命令行分词使用示例：python -m jieba news.txt > cut_result.txt 命令行选项（翻译）：使用: python -m jieba [options] filename结巴命令行界面。固定参数:filename 输入文件可选参数:-h, --help 显示此帮助信息并退出-d [DELIM], --delimiter [DELIM]使用 DELIM 分隔词语，而不是用默认的' / '。若不指定 DELIM，则使用一个空格分隔。-p [DELIM], --pos [DELIM]启用词性标注；如果指定 DELIM，词语和词性之间用它分隔，否则用 _ 分隔-D DICT, --dict DICT 使用 DICT 代替默认词典-u USER_DICT, --user-dict USER_DICT使用 USER_DICT 作为附加词典，与默认词典或自定义词典配合使用-a, --cut-all 全模式分词（不支持词性标注）-n, --no-hmm 不使用隐含马尔可夫模型-q, --quiet 不输出载入信息到 STDERR-V, --version 显示版本信息并退出如果没有指定文件名，则使用标准输入。 --help 选项输出： $> python -m jieba --helpJieba command line interface.positional arguments:filename input fileoptional arguments:-h, --help show this help message and exit-d [DELIM], --delimiter [DELIM]use DELIM instead of ' / ' for word delimiter; or aspace if it is used without DELIM-p [DELIM], --pos [DELIM]enable POS tagging; if DELIM is specified, use DELIMinstead of '_' for POS delimiter-D DICT, --dict DICT use DICT as dictionary-u USER_DICT, --user-dict USER_DICTuse USER_DICT together with the default dictionary orDICT (if specified)-a, --cut-all full pattern cutting (ignored with POS tagging)-n, --no-hmm don't use the Hidden Markov Model-q, --quiet don't print loading messages to stderr-V, --version show program's version number and exitIf no filename specified, use STDIN instead. 延迟加载机制 jieba 采用延迟加载，import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载，一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba，也可以手动初始化。 import jiebajieba.initialize() 手动初始化（可选）在 0.28 之前的版本是不能指定主词典的路径的，有了延迟加载机制后，你可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big') 例子： https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py 其他词典占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small 支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big 下载你所需要的词典，然后覆盖 jieba/dict.txt 即可；或者用 jieba.set_dictionary('data/dict.txt.big') 其他语言实现结巴分词 Java 版本作者：piaolingxue 地址：https://github.com/huaban/jieba-analysis 结巴分词 C++ 版本作者：yanyiwu 地址：https://github.com/yanyiwu/cppjieba 结巴分词 Rust 版本作者：messense, MnO2 地址：https://github.com/messense/jieba-rs 结巴分词 Node.js 版本作者：yanyiwu 地址：https://github.com/yanyiwu/nodejieba 结巴分词 Erlang 版本作者：falood 地址：https://github.com/falood/exjieba 结巴分词 R 版本作者：qinwf 地址：https://github.com/qinwf/jiebaR 结巴分词 iOS 版本作者：yanyiwu 地址：https://github.com/yanyiwu/iosjieba 结巴分词 PHP 版本作者：fukuball 地址：https://github.com/fukuball/jieba-php 结巴分词 .NET(C) 版本作者：anderscui 地址：https://github.com/anderscui/jieba.NET/ 结巴分词 Go 版本作者: wangbin 地址: https://github.com/wangbin/jiebago 作者: yanyiwu 地址: https://github.com/yanyiwu/gojieba 结巴分词Android版本作者 Dongliang.W 地址：https://github.com/452896915/jieba-android 友情链接 https://github.com/baidu/lac 百度中文词法分析（分词+词性+专名）系统 https://github.com/baidu/AnyQ 百度FAQ自动问答系统 https://github.com/baidu/Senta 百度情感识别系统系统集成 Solr: https://github.com/sing1ee/jieba-solr 分词速度 1.5 MB / Second in Full Mode 400 KB / Second in Default Mode 测试环境: Intel® Core™ i7-2600 CPU @ 3.4GHz；《围城》.txt 常见问题 1. 模型的数据是如何生成的？详见： https://github.com/fxsjy/jieba/issues/7 2. “台中”总是被切成“台中”？（以及类似情况） P(台中) ＜ P(台)×P(中)，“台中”词频不够导致其成词概率较低解决方法：强制调高词频 jieba.add_word('台中') 或者 jieba.suggest_freq('台中', True) 3. “今天天气不错”应该被切成“今天天气不错”？（以及类似情况）解决方法：强制调低词频 jieba.suggest_freq(('今天', '天气'), True) 或者直接删除该词 jieba.del_word('今天天气') 4. 切出了词典中没有的词语，效果不理想？解决方法：关闭新词发现 jieba.cut('丰田太省了', HMM=False) jieba.cut('我们中出了一个叛徒', HMM=False) 更多问题请点击：https://github.com/fxsjy/jieba/issues?sort=updated&state=closed 修订历史 https://github.com/fxsjy/jieba/blob/master/Changelog jieba “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module. Features Support three types of segmentation mode: Accurate Mode attempts to cut the sentence into the most accurate segmentations, which is suitable for text analysis. Full Mode gets all the possible words from the sentence. Fast but not accurate. Search Engine Mode, based on the Accurate Mode, attempts to cut long words into several short words, which can raise the recall rate. Suitable for search engines. Supports Traditional Chinese Supports customized dictionaries MIT License Online demo http://jiebademo.ap01.aws.af.cm/ (Powered by Appfog) Usage Fully automatic installation: easy_install jieba or pip install jieba Semi-automatic installation: Download http://pypi.python.org/pypi/jieba/ , run python setup.py install after extracting. Manual installation: place the jieba directory in the current directory or python site-packages directory. import jieba. Algorithm Based on a prefix dictionary structure to achieve efficient word graph scanning. Build a directed acyclic graph (DAG) for all possible word combinations. Use dynamic programming to find the most probable combination based on the word frequency. For unknown words, a HMM-based model is used with the Viterbi algorithm. Main Functions Cut The jieba.cut function accepts three input parameters: the first parameter is the string to be cut; the second parameter is cut_all, controlling the cut mode; the third parameter is to control whether to use the Hidden Markov Model. jieba.cut_for_search accepts two parameter: the string to be cut; whether to use the Hidden Markov Model. This will cut the sentence into short words suitable for search engines. The input string can be an unicode/str object, or a str/bytes object which is encoded in UTF-8 or GBK. Note that using GBK encoding is not recommended because it may be unexpectly decoded as UTF-8. jieba.cut and jieba.cut_for_search returns an generator, from which you can use a for loop to get the segmentation result (in unicode). jieba.lcut and jieba.lcut_for_search returns a list. jieba.Tokenizer(dictionary=DEFAULT_DICT) creates a new customized Tokenizer, which enables you to use different dictionaries at the same time. jieba.dt is the default Tokenizer, to which almost all global functions are mapped. Code example: segmentation encoding=utf-8import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) 默认模式seg_list = jieba.cut("他来到了网易杭研大厦")print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") 搜索引擎模式print(", ".join(seg_list)) Output: [Full Mode]: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学[Accurate Mode]: 我/ 来到/ 北京/ 清华大学[Unknown Words Recognize] 他, 来到, 了, 网易, 杭研, 大厦 (In this case, "杭研" is not in the dictionary, but is identified by the Viterbi algorithm)[Search Engine Mode]：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造 Add a custom dictionary Load dictionary Developers can specify their own custom dictionary to be included in the jieba default dictionary. Jieba is able to identify new words, but you can add your own new words can ensure a higher accuracy. Usage： jieba.load_userdict(file_name) file_name is a file-like object or the path of the custom dictionary The dictionary format is the same as that of dict.txt: one word per line; each line is divided into three parts separated by a space: word, word frequency, POS tag. If file_name is a path or a file opened in binary mode, the dictionary must be UTF-8 encoded. The word frequency and POS tag can be omitted respectively. The word frequency will be filled with a suitable value if omitted. For example: 创新办 3 i云计算 5凱特琳 nz台中 Change a Tokenizer’s tmp_dir and cache_file to specify the path of the cache file, for using on a restricted file system. Example: 云计算 5李小福 2创新办 3[Before]：李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /[After]：　李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / Modify dictionary Use add_word(word, freq=None, tag=None) and del_word(word) to modify the dictionary dynamically in programs. Use suggest_freq(segment, tune=True) to adjust the frequency of a single word so that it can (or cannot) be segmented. Note that HMM may affect the final result. Example: >>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中将/出错/。>>> jieba.suggest_freq(('中', '将'), True)494>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中/将/出错/。>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台/中/」/正确/应该/不会/被/切开>>> jieba.suggest_freq('台中', True)69>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台中/」/正确/应该/不会/被/切开 Keyword Extraction import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence: the text to be extracted topK: return how many keywords with the highest TF/IDF weights. The default value is 20 withWeight: whether return TF/IDF weights with the keywords. The default value is False allowPOS: filter words with which POSs are included. Empty for no filtering. jieba.analyse.TFIDF(idf_path=None) creates a new TFIDF instance, idf_path specifies IDF file path. Example (keyword extraction) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py Developers can specify their own custom IDF corpus in jieba keyword extraction Usage： jieba.analyse.set_idf_path(file_name) file_name is the path for the custom corpus Custom Corpus Sample：https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big Sample Code：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py Developers can specify their own custom stop words corpus in jieba keyword extraction Usage： jieba.analyse.set_stop_words(file_name) file_name is the path for the custom corpus Custom Corpus Sample：https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt Sample Code：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py There’s also a TextRank implementation available. Use: jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) Note that it filters POS by default. jieba.analyse.TextRank() creates a new TextRank instance. Part of Speech Tagging jieba.posseg.POSTokenizer(tokenizer=None) creates a new customized Tokenizer. tokenizer specifies the jieba.Tokenizer to internally use. jieba.posseg.dt is the default POSTokenizer. Tags the POS of each word after segmentation, using labels compatible with ictclas. Example: >>> import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门")>>> for w in words:... print('%s %s' % (w.word, w.flag))...我 r爱 v北京 ns天安门 ns Parallel Processing Principle: Split target text by line, assign the lines into multiple Python processes, and then merge the results, which is considerably faster. Based on the multiprocessing module of Python. Usage: jieba.enable_parallel(4) Enable parallel processing. The parameter is the number of processes. jieba.disable_parallel() Disable parallel processing. Example: https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py Result: On a four-core 3.4GHz Linux machine, do accurate word segmentation on Complete Works of Jin Yong, and the speed reaches 1MB/s, which is 3.3 times faster than the single-process version. Note that parallel processing supports only default tokenizers, jieba.dt and jieba.posseg.dt. Tokenize: return words with position The input must be unicode Default mode result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限公司 start: 6 end:10 Search mode result = jieba.tokenize(u'永和服装饰品有限公司',mode='search')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限 start: 6 end:8word 公司 start: 8 end:10word 有限公司 start: 6 end:10 ChineseAnalyzer for Whoosh from jieba.analyse import ChineseAnalyzer Example: https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py Command Line Interface $> python -m jieba --helpJieba command line interface.positional arguments:filename input fileoptional arguments:-h, --help show this help message and exit-d [DELIM], --delimiter [DELIM]use DELIM instead of ' / ' for word delimiter; or aspace if it is used without DELIM-p [DELIM], --pos [DELIM]enable POS tagging; if DELIM is specified, use DELIMinstead of '_' for POS delimiter-D DICT, --dict DICT use DICT as dictionary-u USER_DICT, --user-dict USER_DICTuse USER_DICT together with the default dictionary orDICT (if specified)-a, --cut-all full pattern cutting (ignored with POS tagging)-n, --no-hmm don't use the Hidden Markov Model-q, --quiet don't print loading messages to stderr-V, --version show program's version number and exitIf no filename specified, use STDIN instead. Initialization By default, Jieba don’t build the prefix dictionary unless it’s necessary. This takes 1-3 seconds, after which it is not initialized again. If you want to initialize Jieba manually, you can call: import jiebajieba.initialize() (optional) You can also specify the dictionary (not supported before version 0.28) : jieba.set_dictionary('data/dict.txt.big') Using Other Dictionaries It is possible to use your own dictionary with Jieba, and there are also two dictionaries ready for download: A smaller dictionary for a smaller memory footprint: https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small There is also a bigger dictionary that has better support for traditional Chinese (繁體): https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big By default, an in-between dictionary is used, called dict.txt and included in the distribution. In either case, download the file you want, and then call jieba.set_dictionary('data/dict.txt.big') or just replace the existing dict.txt. Segmentation speed 1.5 MB / Second in Full Mode 400 KB / Second in Default Mode Test Env: Intel® Core™ i7-2600 CPU @ 3.4GHz；《围城》.txt 本篇文章为转载内容。原文链接：https://blog.csdn.net/yegeli/article/details/107246661。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-02 10:38:37

500

转载

转载文章

[转载]项目维护几年了，为啥还这么卡？

...reographer计算掉帧情况：原理就是: 通过给Choreographer设置FrameCallback，在每次绘制前后看时间差是16.6ms的多少倍，即为前后掉帧率。使用方式如下： //Application.javapublic void onCreate() {super.onCreate();//在Application中使用postFrameCallbackChoreographer.getInstance().postFrameCallback(new FPSFrameCallback(System.nanoTime()));}public class FPSFrameCallback implements Choreographer.FrameCallback {private static final String TAG = "FPS_TEST";private long mLastFrameTimeNanos = 0;private long mFrameIntervalNanos;public FPSFrameCallback(long lastFrameTimeNanos) {mLastFrameTimeNanos = lastFrameTimeNanos;mFrameIntervalNanos = (long)(1000000000 / 60.0);}@Overridepublic void doFrame(long frameTimeNanos) {//初始化时间if (mLastFrameTimeNanos == 0) {mLastFrameTimeNanos = frameTimeNanos;}final long jitterNanos = frameTimeNanos - mLastFrameTimeNanos;if (jitterNanos >= mFrameIntervalNanos) {final long skippedFrames = jitterNanos / mFrameIntervalNanos;if(skippedFrames>30){//丢帧30以上打印日志Log.i(TAG, "Skipped " + skippedFrames + " frames! "+ "The application may be doing too much work on its main thread.");} }mLastFrameTimeNanos=frameTimeNanos;//注册下一帧回调Choreographer.getInstance().postFrameCallback(this);} } UI绘制全路径分析：有了前面几个概念，这里我们让SurfaceFlinger结合View的绘制流程用一张图来表达整个绘制流程：生产者：APP方构建Surface的过程。消费者：SurfaceFlinger UI绘制全路径分析卡顿原因：接下来，我们逐个分析，看看都会有哪些原因可能造成卡顿： 1.渲染流程 1.Vsync 调度：这个是起始点，但是调度的过程会经过线程切换以及一些委派的逻辑，有可能造成卡顿，但是一般可能性比较小，我们也基本无法介入； 2.消息调度：主要是 doframe Message 的调度，这就是一个普通的 Handler 调度，如果这个调度被其他的 Message 阻塞产生了时延，会直接导致后续的所有流程不会被触发 3.input 处理：input 是一次 Vsync 调度最先执行的逻辑，主要处理 input 事件。如果有大量的事件堆积或者在事件分发逻辑中加入大量耗时业务逻辑，会造成当前帧的时长被拉大，造成卡顿，可以尝试通过事件采样的方案，减少 event 的处理 4.动画处理：主要是 animator 动画的更新，同理，动画数量过多，或者动画的更新中有比较耗时的逻辑，也会造成当前帧的渲染卡顿。对动画的降帧和降复杂度其实解决的就是这个问题； 5.view 处理：主要是接下来的三大流程，过度绘制、频繁刷新、复杂的视图效果都是此处造成卡顿的主要原因。比如我们平时所说的降低页面层级，主要解决的就是这个问题； 6.measure/layout/draw：view 渲染的三大流程，因为涉及到遍历和高频执行，所以这里涉及到的耗时问题均会被放大，比如我们会降不能在 draw 里面调用耗时函数，不能 new 对象等等； 7.DisplayList 的更新：这里主要是 canvas 和 displaylist 的映射，一般不会存在卡顿问题，反而可能存在映射失败导致的显示问题； 8.OpenGL 指令转换：这里主要是将 canvas 的命令转换为 OpenGL 的指令，一般不存在问题 9.buffer 交换：这里主要指 OpenGL 指令集交换给 GPU，这个一般和指令的复杂度有关 10.GPU 处理：顾名思义，这里是 GPU 对数据的处理，耗时主要和任务量和纹理复杂度有关。这也就是我们降低 GPU 负载有助于降低卡顿的原因； 11.layer 合成：Android P 修改了 Layer 的计算方法 , 把这部分放到了 SurfaceFlinger 主线程去执行, 如果后台 Layer 过多, 就会导致 SurfaceFlinger 在执行 rebuildLayerStacks 的时候耗时 , 导致 SurfaceFlinger 主线程执行时间过长。可以选择降低Surface层级来优化卡顿。 12.光栅化/Display：这里暂时忽略，底层系统行为； Buffer 切换：主要是屏幕的显示，这里 buffer 的数量也会影响帧的整体延迟，不过是系统行为，不能干预。 2.系统负载内存：内存的吃紧会直接导致 GC 的增加甚至 ANR，是造成卡顿的一个不可忽视的因素； CPU：CPU 对卡顿的影响主要在于线程调度慢、任务执行的慢和资源竞争，比如 1.降频会直接导致应用卡顿； 2.后台活动进程太多导致系统繁忙，cpu \ io \ memory 等资源都会被占用, 这时候很容易出现卡顿问题，这种情况比较常见,可以使用dumpsys cpuinfo查看当前设备的cpu使用情况： 3.主线程调度不到 , 处于 Runnable 状态，这种情况比较少见 4.System 锁：system_server 的 AMS 锁和 WMS 锁 , 在系统异常的情况下 , 会变得非常严重 , 如下图所示 , 许多系统的关键任务都被阻塞 , 等待锁的释放 , 这时候如果有 App 发来的 Binder 请求带锁 , 那么也会进入等待状态 , 这时候 App 就会产生性能问题 ; 如果此时做 Window 动画 , 那么 system_server 的这些锁也会导致窗口动画卡顿 GPU：GPU 的影响见渲染流程，但是其实还会间接影响到功耗和发热；功耗/发热：功耗和发热一般是不分家的，高功耗会引起高发热，进而会引起系统保护，比如降频、热缓解等，间接的导致卡顿。如何监控卡顿线下监控：我们知道卡顿问题的原因错综复杂，但最终都可以反馈到CPU使用率上来 1.使用dumpsys cpuinfo命令这个命令可以获取当时设备cpu使用情况，我们可以在线下通过重度使用应用来检测可能存在的卡顿点 A8S:/ $ dumpsys cpuinfoLoad: 1.12 / 1.12 / 1.09CPU usage from 484321ms to 184247ms ago (2022-11-02 14:48:30.793 to 2022-11-02 14:53:30.866):2% 1053/scanserver: 0.2% user + 1.7% kernel0.6% 934/system_server: 0.4% user + 0.1% kernel / faults: 563 minor0.4% 564/signserver: 0% user + 0.4% kernel0.2% 256/ueventd: 0.1% user + 0% kernel / faults: 320 minor0.2% 474/surfaceflinger: 0.1% user + 0.1% kernel0.1% 576/vendor.sprd.hardware.gnss@2.0-service: 0.1% user + 0% kernel / faults: 54 minor0.1% 286/logd: 0% user + 0% kernel / faults: 10 minor0.1% 2821/com.allinpay.appstore: 0.1% user + 0% kernel / faults: 1312 minor0.1% 447/android.hardware.health@2.0-service: 0% user + 0% kernel / faults: 1175 minor0% 1855/com.smartpos.dataacqservice: 0% user + 0% kernel / faults: 755 minor0% 2875/com.allinpay.appstore:pushcore: 0% user + 0% kernel / faults: 744 minor0% 1191/com.android.systemui: 0% user + 0% kernel / faults: 70 minor0% 1774/com.android.nfc: 0% user + 0% kernel0% 172/kworker/1:2: 0% user + 0% kernel0% 145/irq/24-70900000: 0% user + 0% kernel0% 575/thermald: 0% user + 0% kernel / faults: 300 minor... 2.CPU Profiler 这个工具是AS自带的CPU性能检测工具，可以在PC上实时查看我们CPU使用情况。 AS提供了四种Profiling Model配置： 1.Sample Java Methods：在应用程序基于Java的代码执行过程中，频繁捕获应用程序的调用堆栈获取有关应用程序基于Java的代码执行的时间和资源使用情况信息。 2.Trace java methods：在运行时对应用程序进行检测，以在每个方法调用的开始和结束时记录时间戳。收集时间戳并进行比较以生成方法跟踪数据，包括时序信息和CPU使用率。请注意与检测每种方法相关的开销会影响运行时性能，并可能影响性能分析数据。对于生命周期相对较短的方法，这一点甚至更为明显。此外，如果您的应用在短时间内执行大量方法，则探查器可能会很快超过其文件大小限制，并且可能无法记录任何进一步的跟踪数据。 3.Sample C/C++ Functions:捕获应用程序本机线程的示例跟踪。要使用此配置，您必须将应用程序部署到运行Android 8.0（API级别26）或更高版本的设备。 4.Trace System Calls:捕获细粒度的详细信息，使您可以检查应用程序与系统资源的交互方式您可以检查线程状态的确切时间和持续时间，可视化CPU瓶颈在所有内核中的位置，并添加自定义跟踪事件进行分析。在对性能问题进行故障排除时，此类信息可能至关重要。要使用此配置，您必须将应用程序部署到运行Android 7.0（API级别24）或更高版本的设备。使用方式： Debug.startMethodTracing("");// 需要检测的代码片段...Debug.stopMethodTracing(); 优点：有比较全面的调用栈以及图像化方法时间显示，包含所有线程的情况缺点：本身也会带来一点的性能开销，可能会带偏优化方向火焰图：可以显示当前应用的方法堆栈： 3.Systrace Systrace在前面一篇分析启动优化的文章讲解过这里我们简单来复习下： Systrace用来记录当前应用的系统以及应用(使用Trace类打点)的各阶段耗时信息包括绘制信息以及CPU信息等。使用方式： Trace.beginSection("MyApp.onCreate_1");alt(200);Trace.endSection(); 在命令行中： python systrace.py -t 5 sched gfx view wm am app webview -a "com.chinaebipay.thirdcall" -o D:\trac1.html 记录的方法以及CPU中的耗时情况：优点： 1.轻量级，开销小，CPU使用率可以直观反映 2.右侧的Alerts能够根据我们应用的问题给出具体的建议，比如说，它会告诉我们App界面的绘制比较慢或者GC比较频繁。 4.StrictModel StrictModel是Android提供的一种运行时检测机制，用来帮助开发者自动检测代码中不规范的地方。主要和两部分相关： 1.线程相关 2.虚拟机相关基础代码： private void initStrictMode() {// 1、设置Debug标志位，仅仅在线下环境才使用StrictModeif (DEV_MODE) {// 2、设置线程策略StrictMode.setThreadPolicy(new StrictMode.ThreadPolicy.Builder().detectCustomSlowCalls() //API等级11，使用StrictMode.noteSlowCode.detectDiskReads().detectDiskWrites().detectNetwork() // or .detectAll() for all detectable problems.penaltyLog() //在Logcat 中打印违规异常信息// .penaltyDialog() //也可以直接跳出警报dialog// .penaltyDeath() //或者直接崩溃.build());// 3、设置虚拟机策略StrictMode.setVmPolicy(new StrictMode.VmPolicy.Builder().detectLeakedSqlLiteObjects()// 给NewsItem对象的实例数量限制为1.setClassInstanceLimit(NewsItem.class, 1).detectLeakedClosableObjects() //API等级11.penaltyLog().build());} } 线上监控：线上需要自动化的卡顿检测方案来定位卡顿，它能记录卡顿发生时的场景。自动化监控原理：采用拦截消息调度流程，在消息执行前埋点计时，当耗时超过阈值时，则认为是一次卡顿，会进行堆栈抓取和上报工作首先，我们看下Looper用于执行消息循环的loop()方法，关键代码如下所示： / Run the message queue in this thread. Be sure to call {@link quit()} to end the loop./public static void loop() {...for (;;) {Message msg = queue.next(); // might blockif (msg == null) {// No message indicates that the message queue is quitting.return;// This must be in a local variable, in case a UI event sets the loggerfinal Printer logging = me.mLogging;if (logging != null) {// 1logging.println(">>>>> Dispatching to " + msg.target + " " +msg.callback + ": " + msg.what);}...try {// 2 msg.target.dispatchMessage(msg);dispatchEnd = needEndTime ? SystemClock.uptimeMillis() : 0;} finally {if (traceTag != 0) {Trace.traceEnd(traceTag);} }...if (logging != null) {// 3logging.println("<<<<< Finished to " + msg.target + " " + msg.callback);} 在Looper的loop()方法中，在其执行每一个消息（注释2处）的前后都由logging进行了一次打印输出。可以看到，在执行消息前是输出的">>>>> Dispatching to “，在执行消息后是输出的”<<<<< Finished to ",它们打印的日志是不一样的，我们就可以由此来判断消息执行的前后时间点。具体的实现可以归纳为如下步骤： 1、首先，我们需要使用Looper.getMainLooper().setMessageLogging()去设置我们自己的Printer实现类去打印输出logging。这样，在每个message执行的之前和之后都会调用我们设置的这个Printer实现类。 2、如果我们匹配到">>>>> Dispatching to "之后，我们就可以执行一行代码：也就是在指定的时间阈值之后，我们在子线程去执行一个任务，这个任务就是去获取当前主线程的堆栈信息以及当前的一些场景信息，比如：内存大小、电脑、网络状态等。 3、如果在指定的阈值之内匹配到了"<<<<< Finished to "，那么说明message就被执行完成了，则表明此时没有产生我们认为的卡顿效果，那我们就可以将这个子线程任务取消掉。这里我们使用blockcanary来做测试: BlockCanary APM是一个非侵入式的性能监控组件，可以通过通知的形式弹出卡顿信息。它的原理就是我们刚刚讲述到的卡顿监控的实现原理。使用方式： 1.导入依赖 implementation 'com.github.markzhai:blockcanary-android:1.5.0' Application的onCreate方法中开启卡顿监控 // 注意在主进程初始化调用BlockCanary.install(this, new AppBlockCanaryContext()).start(); 3.继承BlockCanaryContext类去实现自己的监控配置上下文类 public class AppBlockCanaryContext extends BlockCanaryContext {....../ 指定判定为卡顿的阈值threshold (in millis), 你可以根据不同设备的性能去指定不同的阈值 @return threshold in mills/public int provideBlockThreshold() {return 1000;}....} 4.在Activity的onCreate方法中执行一个耗时操作 try {Thread.sleep(4000);} catch (InterruptedException e) {e.printStackTrace();} 5.结果：可以看到一个和LeakCanary一样效果的阻塞可视化堆栈图那有了BlockCanary的方法耗时监控方式是不是就可以解百愁了呢，呵呵。有那么容易就好了根据原理：我们拿到的是msg执行前后的时间和堆栈信息，如果msg中有几百上千个方法，就无法确认到底是哪个方法导致的耗时，也有可能是多个方法堆积导致。这就导致我们无法准确定位哪个方法是最耗时的。如图中：堆栈信息是T2的，而发生耗时的方法可能是T1到T2中任何一个方法甚至是堆积导致。那如何优化这块？这里我们采用字节跳动给我们提供的一个方案：基于 Sliver trace 的卡顿监控体系 Sliver trace 整体流程图：主要包含两个方面: 检测方案：在监控卡顿时，首先需要打开 Sliver 的 trace 记录能力，Sliver 采样记录 trace 执行信息，对抓取到的堆栈进行 diff 聚合和缓存。同时基于我们的需要设置相应的卡顿阈值，以 Message 的执行耗时为衡量。对主线程消息调度流程进行拦截，在消息开始分发执行时埋点，在消息执行结束时计算消息执行耗时，当消息执行耗时超过阈值，则认为产生了一次卡顿。堆栈聚合策略：当卡顿发生时，我们需要为此次卡顿准备数据，这部分工作是在端上子线程中完成的，主要是 dump trace 到文件以及过滤聚合要上报的堆栈。分为以下几步： 1.拿到缓存的主线程 trace 信息并 dump 到文件中。 2.然后从文件中读取 trace 信息，按照数据格式，从最近的方法栈向上追溯，找到当前 Message 包含的全部 trace 信息，并将当前 Message 的完整 trace 写入到待上传的 trace 文件中，删除其余 trace 信息。 3.遍历当前 Message trace，按照（Method 执行耗时 > Method 耗时阈值 & Method 耗时为该层堆栈中最耗时）为条件过滤出每一层函数调用堆栈的最长耗时函数，构成最后要上报的堆栈链路，这样特征堆栈中的每一步都是最耗时的，且最底层 Method 为最后的耗时大于阈值的 Method。之后，将 trace 文件和堆栈一同上报，这样的特征堆栈提取策略保证了堆栈聚合的可靠性和准确性，保证了上报到平台后堆栈的正确合理聚合，同时提供了进一步分析问题的 trace 文件。可以看到字节给的是一整套监控方案，和前面BlockCanary不同之处就在于，其是定时存储堆栈，缓存，然后使用diff去重的方式，并上传到服务器，可以最大限度的监控到可能发生比较耗时的方法。开发中哪些习惯会影响卡顿的发生 1.布局太乱，层级太深。 1.1：通过减少冗余或者嵌套布局来降低视图层次结构。比如使用约束布局代替线性布局和相对布局。 1.2：用 ViewStub 替代在启动过程中不需要显示的 UI 控件。 1.3：使用自定义 View 替代复杂的 View 叠加。 2.主线程耗时操作 2.1：主线程中不要直接操作数据库，数据库的操作应该放在数据库线程中完成。 2.2：sharepreference尽量使用apply，少使用commit，可以使用MMKV框架来代替sharepreference。 2.3：网络请求回来的数据解析尽量放在子线程中，不要在主线程中进行复制的数据解析操作。 2.4：不要在activity的onResume和onCreate中进行耗时操作，比如大量的计算等。 2.5：不要在 draw 里面调用耗时函数，不能 new 对象 3.过度绘制过度绘制是同一个像素点上被多次绘制，减少过度绘制一般减少布局背景叠加等方式，如下图所示右边是过度绘制的图片。 4.列表 RecyclerView使用优化，使用DiffUtil和notifyItemDataSetChanged进行局部更新等。 5.对象分配和回收优化自从Android引入 ART 并且在Android 5.0上成为默认的运行时之后，对象分配和垃圾回收（GC）造成的卡顿已经显著降低了，但是由于对象分配和GC有额外的开销，它依然又可能使线程负载过重。在一个调用不频繁的地方（比如按钮点击）分配对象是没有问题的，但如果在在一个被频繁调用的紧密的循环里，就需要避免对象分配来降低GC的压力。减少小对象的频繁分配和回收操作。好了，关于卡顿优化的问题就讲到这里，下篇文章会对卡顿中的ANR情况的处理，这里做个铺垫。如果喜欢我的文章，欢迎关注我的公众号。点击这看原文链接：参考 Android卡顿检测及优化一文读懂直播卡顿优化那些事儿 “终于懂了” 系列：Android屏幕刷新机制—VSync、Choreographer 全面理解！深入探索Android卡顿优化（上）西瓜卡顿 & ANR 优化治理及监控体系建设 5376)] 参考 Android卡顿检测及优化一文读懂直播卡顿优化那些事儿 “终于懂了” 系列：Android屏幕刷新机制—VSync、Choreographer 全面理解！深入探索Android卡顿优化（上）西瓜卡顿 & ANR 优化治理及监控体系建设本篇文章为转载内容。原文链接：https://blog.csdn.net/yuhaibing111/article/details/127682399。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-26 08:05:57

214

转载

转载文章

[转载]k8s pod控制器使用以及详解

...的指标进行对比，同时计算出需要伸缩的具体值，最后实现Pod的数量的调整。比如说我指定了一个规则：当我的cpu利用率达到90%或者内存使用率到达80%的时候，就需要进行调整pod的副本数量，每次添加n个pod副本；其实HPA与之前的Deployment一样，也属于一种Kubernetes资源对象，它通过追踪分析ReplicaSet控制器的所有目标Pod的负载变化情况，来确定是否需要针对性地调整目标Pod的副本数，也就是HPA管理Deployment，Deployment管理ReplicaSet，ReplicaSet管理pod，这是HPA的实现原理。 1、安装metrics-server metrics-server可以用来收集集群中的资源使用情况安装git[root@k8s-master01 ~] yum install git -y 获取metrics-server, 注意使用的版本[root@k8s-master01 ~] git clone -b v0.3.6 https://github.com/kubernetes-incubator/metrics-server 修改deployment, 注意修改的是镜像和初始化参数[root@k8s-master01 ~] cd /root/metrics-server/deploy/1.8+/[root@k8s-master01 1.8+] vim metrics-server-deployment.yaml按图中添加下面选项hostNetwork: trueimage: registry.cn-hangzhou.aliyuncs.com/google_containers/metrics-server-amd64:v0.3.6args:- --kubelet-insecure-tls- --kubelet-preferred-address-types=InternalIP,Hostname,InternalDNS,ExternalDNS,ExternalIP 2、安装metrics-server [root@k8s-master01 1.8+] kubectl apply -f ./ 3、查看pod运行情况 [root@k8s-master01 1.8+] kubectl get pod -n kube-systemmetrics-server-6b976979db-2xwbj 1/1 Running 0 90s 4、使用kubectl top node 查看资源使用情况 [root@k8s-master01 1.8+] kubectl top nodeNAME CPU(cores) CPU% MEMORY(bytes) MEMORY%k8s-master01 289m 14% 1582Mi 54% k8s-node01 81m 4% 1195Mi 40% k8s-node02 72m 3% 1211Mi 41% [root@k8s-master01 1.8+] kubectl top pod -n kube-systemNAME CPU(cores) MEMORY(bytes)coredns-6955765f44-7ptsb 3m 9Micoredns-6955765f44-vcwr5 3m 8Mietcd-master 14m 145Mi... 至此,metrics-server安装完成 5、准备deployment和servie 创建pc-hpa-pod.yaml文件，内容如下： apiVersion: apps/v1kind: Deploymentmetadata:name: nginxnamespace: devspec:strategy: 策略type: RollingUpdate 滚动更新策略replicas: 1selector:matchLabels:app: nginx-podtemplate:metadata:labels:app: nginx-podspec:containers:- name: nginximage: nginx:1.17.1resources: 资源配额limits: 限制资源（上限）cpu: "1" CPU限制，单位是core数requests: 请求资源（下限）cpu: "100m" CPU限制，单位是core数创建deployment [root@k8s-master01 1.8+] kubectl run nginx --image=nginx:1.17.1 --requests=cpu=100m -n dev 6、创建service [root@k8s-master01 1.8+] kubectl expose deployment nginx --type=NodePort --port=80 -n dev 7、查看 [root@k8s-master01 1.8+] kubectl get deployment,pod,svc -n devNAME READY UP-TO-DATE AVAILABLE AGEdeployment.apps/nginx 1/1 1 1 47sNAME READY STATUS RESTARTS AGEpod/nginx-7df9756ccc-bh8dr 1/1 Running 0 47sNAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGEservice/nginx NodePort 10.101.18.29 <none> 80:31830/TCP 35s 8、部署HPA 创建pc-hpa.yaml文件，内容如下： apiVersion: autoscaling/v1kind: HorizontalPodAutoscalermetadata:name: pc-hpanamespace: devspec:minReplicas: 1 最小pod数量maxReplicas: 10 最大pod数量，pod数量会在1~10之间自动伸缩targetCPUUtilizationPercentage: 3 CPU使用率指标，如果cpu使用率达到3%就会进行扩容；为了测试方便，将这个数值调小一些scaleTargetRef: 指定要控制的nginx信息apiVersion: /v1kind: Deploymentname: nginx 创建hpa [root@k8s-master01 1.8+] kubectl create -f pc-hpa.yamlhorizontalpodautoscaler.autoscaling/pc-hpa created 查看hpa [root@k8s-master01 1.8+] kubectl get hpa -n devNAME REFERENCE TARGETS MINPODS MAXPODS REPLICAS AGEpc-hpa Deployment/nginx 0%/3% 1 10 1 62s 9、测试使用压测工具对service地址192.168.5.4:31830进行压测，然后通过控制台查看hpa和pod的变化 hpa变化 [root@k8s-master01 ~] kubectl get hpa -n dev -wNAME REFERENCE TARGETS MINPODS MAXPODS REPLICAS AGEpc-hpa Deployment/nginx 0%/3% 1 10 1 4m11spc-hpa Deployment/nginx 0%/3% 1 10 1 5m19spc-hpa Deployment/nginx 22%/3% 1 10 1 6m50spc-hpa Deployment/nginx 22%/3% 1 10 4 7m5spc-hpa Deployment/nginx 22%/3% 1 10 8 7m21spc-hpa Deployment/nginx 6%/3% 1 10 8 7m51spc-hpa Deployment/nginx 0%/3% 1 10 8 9m6spc-hpa Deployment/nginx 0%/3% 1 10 8 13mpc-hpa Deployment/nginx 0%/3% 1 10 1 14m deployment变化 [root@k8s-master01 ~] kubectl get deployment -n dev -wNAME READY UP-TO-DATE AVAILABLE AGEnginx 1/1 1 1 11mnginx 1/4 1 1 13mnginx 1/4 1 1 13mnginx 1/4 1 1 13mnginx 1/4 4 1 13mnginx 1/8 4 1 14mnginx 1/8 4 1 14mnginx 1/8 4 1 14mnginx 1/8 8 1 14mnginx 2/8 8 2 14mnginx 3/8 8 3 14mnginx 4/8 8 4 14mnginx 5/8 8 5 14mnginx 6/8 8 6 14mnginx 7/8 8 7 14mnginx 8/8 8 8 15mnginx 8/1 8 8 20mnginx 8/1 8 8 20mnginx 1/1 1 1 20m pod变化 [root@k8s-master01 ~] kubectl get pods -n dev -wNAME READY STATUS RESTARTS AGEnginx-7df9756ccc-bh8dr 1/1 Running 0 11mnginx-7df9756ccc-cpgrv 0/1 Pending 0 0snginx-7df9756ccc-8zhwk 0/1 Pending 0 0snginx-7df9756ccc-rr9bn 0/1 Pending 0 0snginx-7df9756ccc-cpgrv 0/1 ContainerCreating 0 0snginx-7df9756ccc-8zhwk 0/1 ContainerCreating 0 0snginx-7df9756ccc-rr9bn 0/1 ContainerCreating 0 0snginx-7df9756ccc-m9gsj 0/1 Pending 0 0snginx-7df9756ccc-g56qb 0/1 Pending 0 0snginx-7df9756ccc-sl9c6 0/1 Pending 0 0snginx-7df9756ccc-fgst7 0/1 Pending 0 0snginx-7df9756ccc-g56qb 0/1 ContainerCreating 0 0snginx-7df9756ccc-m9gsj 0/1 ContainerCreating 0 0snginx-7df9756ccc-sl9c6 0/1 ContainerCreating 0 0snginx-7df9756ccc-fgst7 0/1 ContainerCreating 0 0snginx-7df9756ccc-8zhwk 1/1 Running 0 19snginx-7df9756ccc-rr9bn 1/1 Running 0 30snginx-7df9756ccc-m9gsj 1/1 Running 0 21snginx-7df9756ccc-cpgrv 1/1 Running 0 47snginx-7df9756ccc-sl9c6 1/1 Running 0 33snginx-7df9756ccc-g56qb 1/1 Running 0 48snginx-7df9756ccc-fgst7 1/1 Running 0 66snginx-7df9756ccc-fgst7 1/1 Terminating 0 6m50snginx-7df9756ccc-8zhwk 1/1 Terminating 0 7m5snginx-7df9756ccc-cpgrv 1/1 Terminating 0 7m5snginx-7df9756ccc-g56qb 1/1 Terminating 0 6m50snginx-7df9756ccc-rr9bn 1/1 Terminating 0 7m5snginx-7df9756ccc-m9gsj 1/1 Terminating 0 6m50snginx-7df9756ccc-sl9c6 1/1 Terminating 0 6m50s DaemonSet 简称DS，ds可以保证在集群中的每一台节点（或指定节点）上都运行一个副本，一般适用于日志收集、节点监控等场景；也就是说，如果一个Pod提供的功能是节点级别的（每个节点都需要且只需要一个），那么这类Pod就适合使用DaemonSet类型的控制器创建。 DaemonSet控制器的特点：每当向集群中添加一个节点时，指定的 Pod 副本也将添加到该节点上当节点从集群中移除时，Pod 也就被垃圾回收了配置模板 apiVersion: apps/v1 版本号kind: DaemonSet 类型 metadata: 元数据name: rs名称 namespace: 所属命名空间 labels: 标签controller: daemonsetspec: 详情描述revisionHistoryLimit: 3 保留历史版本updateStrategy: 更新策略type: RollingUpdate 滚动更新策略rollingUpdate: 滚动更新maxUnavailable: 1 最大不可用状态的 Pod 的最大值，可以为百分比，也可以为整数selector: 选择器，通过它指定该控制器管理哪些podmatchLabels: Labels匹配规则app: nginx-podmatchExpressions: Expressions匹配规则- {key: app, operator: In, values: [nginx-pod]}template: 模板，当副本数量不足时，会根据下面的模板创建pod副本metadata:labels:app: nginx-podspec:containers:- name: nginximage: nginx:1.17.1ports:- containerPort: 80 1、创建ds 创建pc-daemonset.yaml，内容如下： apiVersion: apps/v1kind: DaemonSet metadata:name: pc-daemonsetnamespace: devspec: selector:matchLabels:app: nginx-podtemplate:metadata:labels:app: nginx-podspec:containers:- name: nginximage: nginx:1.17.1 运行创建daemonset[root@k8s-master01 ~] kubectl create -f pc-daemonset.yamldaemonset.apps/pc-daemonset created 查看daemonset[root@k8s-master01 ~] kubectl get ds -n dev -o wideNAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE AGE CONTAINERS IMAGES pc-daemonset 2 2 2 2 2 24s nginx nginx:1.17.1 查看pod,发现在每个Node上都运行一个pod[root@k8s-master01 ~] kubectl get pods -n dev -o wideNAME READY STATUS RESTARTS AGE IP NODE pc-daemonset-9bck8 1/1 Running 0 37s 10.244.1.43 node1 pc-daemonset-k224w 1/1 Running 0 37s 10.244.2.74 node2 2、删除daemonset [root@k8s-master01 ~] kubectl delete -f pc-daemonset.yamldaemonset.apps "pc-daemonset" deleted Job 主要用于负责批量处理一次性(每个任务仅运行一次就结束)任务。当然，你也可以运行多次，配置好即可，Job特点如下：当Job创建的pod执行成功结束时，Job将记录成功结束的pod数量当成功结束的pod达到指定的数量时，Job将完成执行配置模板 apiVersion: batch/v1 版本号kind: Job 类型 metadata: 元数据name: rs名称 namespace: 所属命名空间 labels: 标签controller: jobspec: 详情描述completions: 1 指定job需要成功运行Pods的次数。默认值: 1parallelism: 1 指定job在任一时刻应该并发运行Pods的数量。默认值: 1activeDeadlineSeconds: 30 指定job可运行的时间期限，超过时间还未结束，系统将会尝试进行终止。backoffLimit: 6 指定job失败后进行重试的次数。默认是6manualSelector: true 是否可以使用selector选择器选择pod，默认是falseselector: 选择器，通过它指定该控制器管理哪些podmatchLabels: Labels匹配规则app: counter-podmatchExpressions: Expressions匹配规则- {key: app, operator: In, values: [counter-pod]}template: 模板，当副本数量不足时，会根据下面的模板创建pod副本metadata:labels:app: counter-podspec:restartPolicy: Never 重启策略只能设置为Never或者OnFailurecontainers:- name: counterimage: busybox:1.30command: ["bin/sh","-c","for i in 9 8 7 6 5 4 3 2 1; do echo $i;sleep 2;done"] 关于重启策略设置的说明：（这里只能设置为Never或者OnFailure）如果指定为OnFailure，则job会在pod出现故障时重启容器，而不是创建pod，failed次数不变如果指定为Never，则job会在pod出现故障时创建新的pod，并且故障pod不会消失，也不会重启，failed次数加1 如果指定为Always的话，就意味着一直重启，意味着job任务会重复去执行了，当然不对，所以不能设置为Always 1、创建一个job 创建pc-job.yaml，内容如下： apiVersion: batch/v1kind: Job metadata:name: pc-jobnamespace: devspec:manualSelector: trueselector:matchLabels:app: counter-podtemplate:metadata:labels:app: counter-podspec:restartPolicy: Nevercontainers:- name: counterimage: busybox:1.30command: ["bin/sh","-c","for i in 9 8 7 6 5 4 3 2 1; do echo $i;sleep 3;done"] 创建创建job[root@k8s-master01 ~] kubectl create -f pc-job.yamljob.batch/pc-job created 查看job[root@k8s-master01 ~] kubectl get job -n dev -o wide -wNAME COMPLETIONS DURATION AGE CONTAINERS IMAGES SELECTORpc-job 0/1 21s 21s counter busybox:1.30 app=counter-podpc-job 1/1 31s 79s counter busybox:1.30 app=counter-pod 通过观察pod状态可以看到，pod在运行完毕任务后，就会变成Completed状态[root@k8s-master01 ~] kubectl get pods -n dev -wNAME READY STATUS RESTARTS AGEpc-job-rxg96 1/1 Running 0 29spc-job-rxg96 0/1 Completed 0 33s 接下来，调整下pod运行的总数量和并行数量即：在spec下设置下面两个选项 completions: 6 指定job需要成功运行Pods的次数为6 parallelism: 3 指定job并发运行Pods的数量为3 然后重新运行job，观察效果，此时会发现，job会每次运行3个pod，总共执行了6个pod[root@k8s-master01 ~] kubectl get pods -n dev -wNAME READY STATUS RESTARTS AGEpc-job-684ft 1/1 Running 0 5spc-job-jhj49 1/1 Running 0 5spc-job-pfcvh 1/1 Running 0 5spc-job-684ft 0/1 Completed 0 11spc-job-v7rhr 0/1 Pending 0 0spc-job-v7rhr 0/1 Pending 0 0spc-job-v7rhr 0/1 ContainerCreating 0 0spc-job-jhj49 0/1 Completed 0 11spc-job-fhwf7 0/1 Pending 0 0spc-job-fhwf7 0/1 Pending 0 0spc-job-pfcvh 0/1 Completed 0 11spc-job-5vg2j 0/1 Pending 0 0spc-job-fhwf7 0/1 ContainerCreating 0 0spc-job-5vg2j 0/1 Pending 0 0spc-job-5vg2j 0/1 ContainerCreating 0 0spc-job-fhwf7 1/1 Running 0 2spc-job-v7rhr 1/1 Running 0 2spc-job-5vg2j 1/1 Running 0 3spc-job-fhwf7 0/1 Completed 0 12spc-job-v7rhr 0/1 Completed 0 12spc-job-5vg2j 0/1 Completed 0 12s 2、删除删除jobkubectl delete -f pc-job.yaml CronJob 简称为CJ，CronJob控制器以 Job控制器资源为其管控对象，并借助它管理pod资源对象，Job控制器定义的作业任务在其控制器资源创建之后便会立即执行，但CronJob可以以类似于Linux操作系统的周期性任务作业计划的方式控制其运行时间点及重复运行的方式。也就是说，CronJob可以在特定的时间点(反复的)去运行job任务。可以理解为定时任务配置模板 apiVersion: batch/v1beta1 版本号kind: CronJob 类型 metadata: 元数据name: rs名称 namespace: 所属命名空间 labels: 标签controller: cronjobspec: 详情描述schedule: cron格式的作业调度运行时间点,用于控制任务在什么时间执行concurrencyPolicy: 并发执行策略，用于定义前一次作业运行尚未完成时是否以及如何运行后一次的作业failedJobHistoryLimit: 为失败的任务执行保留的历史记录数，默认为1successfulJobHistoryLimit: 为成功的任务执行保留的历史记录数，默认为3startingDeadlineSeconds: 启动作业错误的超时时长jobTemplate: job控制器模板，用于为cronjob控制器生成job对象;下面其实就是job的定义metadata:spec:completions: 1parallelism: 1activeDeadlineSeconds: 30backoffLimit: 6manualSelector: trueselector:matchLabels:app: counter-podmatchExpressions: 规则- {key: app, operator: In, values: [counter-pod]}template:metadata:labels:app: counter-podspec:restartPolicy: Never containers:- name: counterimage: busybox:1.30command: ["bin/sh","-c","for i in 9 8 7 6 5 4 3 2 1; do echo $i;sleep 20;done"] cron表达式写法需要重点解释的几个选项：schedule: cron表达式，用于指定任务的执行时间/1 <分钟> <小时> <日> <月份> <星期>分钟值从 0 到 59.小时值从 0 到 23.日值从 1 到 31.月值从 1 到 12.星期值从 0 到 6, 0 代表星期日多个时间可以用逗号隔开；范围可以用连字符给出；可以作为通配符； /表示每... 例如1 // 每个小时的第一分钟执行/1 // 每分钟都执行concurrencyPolicy:Allow: 允许Jobs并发运行(默认)Forbid: 禁止并发运行，如果上一次运行尚未完成，则跳过下一次运行Replace: 替换，取消当前正在运行的作业并用新作业替换它 1、创建cronJob 创建pc-cronjob.yaml，内容如下： apiVersion: batch/v1beta1kind: CronJobmetadata:name: pc-cronjobnamespace: devlabels:controller: cronjobspec:schedule: "/1 " 每分钟执行一次jobTemplate:metadata:spec:template:spec:restartPolicy: Nevercontainers:- name: counterimage: busybox:1.30command: ["bin/sh","-c","for i in 9 8 7 6 5 4 3 2 1; do echo $i;sleep 3;done"] 运行创建cronjob[root@k8s-master01 ~] kubectl create -f pc-cronjob.yamlcronjob.batch/pc-cronjob created 查看cronjob[root@k8s-master01 ~] kubectl get cronjobs -n devNAME SCHEDULE SUSPEND ACTIVE LAST SCHEDULE AGEpc-cronjob /1 False 0 <none> 6s 查看job[root@k8s-master01 ~] kubectl get jobs -n devNAME COMPLETIONS DURATION AGEpc-cronjob-1592587800 1/1 28s 3m26spc-cronjob-1592587860 1/1 28s 2m26spc-cronjob-1592587920 1/1 28s 86s 查看pod[root@k8s-master01 ~] kubectl get pods -n devpc-cronjob-1592587800-x4tsm 0/1 Completed 0 2m24spc-cronjob-1592587860-r5gv4 0/1 Completed 0 84spc-cronjob-1592587920-9dxxq 1/1 Running 0 24s 2、删除cronjob kubectl delete -f pc-cronjob.yaml pod调度什么是调度默认情况下，一个pod在哪个node节点上运行，是通过scheduler组件采用相应的算法计算出来的，这个过程是不受人工控制的；调度规则但是在实际使用中，我们想控制某些pod定向到达某个节点上，应该怎么做呢？其实k8s提供了四类调度规则调度方式描述自动调度通过scheduler组件采用相应的算法计算得出运行在哪个节点上定向调度运行到指定的node节点上，通过NodeName、NodeSelector实现亲和性调度跟谁关系好就调度到哪个节点上 1、nodeAffinity ：节点亲和性，调度到关系好的节点上 2、podAffinity：pod亲和性，调度到关系好的pod所在的节点上 3、PodAntAffinity：pod反清河行，调度到关系差的那个pod所在的节点上污点（容忍）调度污点是站在node的角度上的，比如果nodeA有一个污点，大家都别来，此时nodeA会拒绝master调度过来的pod 定向调度指的是利用在pod上声明nodeName或nodeSelector的方式将pod调度到指定的pod节点上，因为这种定向调度是强制性的，所以如果node节点不存在的话，也会向上面进行调度，只不过pod会运行失败； 1、定向调度-> nodeName nodeName 是将pod强制调度到指定名称的node节点上，这种方式跳过了scheduler的调度逻辑，直接将pod调度到指定名称的节点上，配置文件内容如下 apiVersion: v1 版本号kind: Pod 资源类型metadata: name: pod-namenamespace: devspec: containers: - image: nginx:1.17.1name: nginx-containernodeName: node1 调度到node1节点上 2、定向调度 -> NodeSelector NodeSelector是将pod调度到添加了指定label标签的node节点上，它是通过k8s的label-selector机制实现的，也就是说，在创建pod之前，会由scheduler用matchNodeSelecto调度策略进行label标签的匹配，找出目标node，然后在将pod调度到目标node；要实验NodeSelector，首先得给node节点加上label标签 kubectl label nodes node1 nodetag=node1 配置文件内容如下 apiVersion: v1 版本号kind: Pod 资源类型metadata: name: pod-namenamespace: devspec: containers: - image: nginx:1.17.1name: nginx-containernodeSelector: nodetag: node1 调度到具有nodetag=node1标签的节点上本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_27184497/article/details/121765387。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-29 09:08:28

422

转载

转载文章

[转载]转发SQLSERVER数据库索引实现

...一种特殊类型的数据库对象，它与表有着密切的联系。索引是为检索而存在的。如一些书籍的末尾就专门附有索引，指明了某个关键字在正文中的出现的页码位置，方便我们查找，但大多数的书籍只有目录，目录不是索引，只是书中内容的排序，并不提供真正的检索功能。可见建立索引要单独占用空间；索引也并不是必须要建立的，它们只是为更好、更快的检索和定位关键字而存在。再进一步说，我们要在图书馆中查阅图书，该怎么办呢？图书馆的前台有很多叫做索引卡片柜的小柜子，里面分了若干的类别供我们检索图书，比如你可以用书名的笔画顺序或者拼音顺序作为查找的依据，你还可以从作者名的笔画顺序或拼音顺序去查询想要的图书，反正有许多检索方式，但有一点很明白，书库中的书并没有按照这些卡片柜中的顺序排列——虽然理论上可以这样做，事实上，所有图书的脊背上都人工的粘贴了一个特定的编号①，它们是以这个顺序在排列。索引卡片中并没有指明这本书摆放在书库中的第几个书架的第几本，仅仅指明了这个特定的编号。管理员则根据这一编号将请求的图书返回到读者手中。这是很形象的例子，以下的讲解将会反复用到它。 SQLS在安装完成之后，安装程序会自动创建master、model、tempdb等几个特殊的系统数据库，其中master是SQLS的主数据库，用于保存和管理其它系统数据库、用户数据库以及SQLS的系统信息，它在SQLS中的地位与WINDOWS下的注册表相当。 master中有一个名为sysindexes的系统表，专门管理索引。SQLS查询数据表的操作都必须用到它，毫无疑义，它是本文主角之一。查看一张表的索引属性，可以在查询分析器中使用以下命令：select from sysindexes where id=object_id(‘tablename’) ；而要查看表的索引所占空间的大小，可以使用系统存储过程命令：sp_spaceused tablename，其中参数tablename为被索引的表名。三、平衡树如果你通过书后的索引知道了一个关键字所在的页码，你有可能通过随机的翻寻，最终到达正确的页码。但更科学更快捷的方法是：首先把书翻到大概二分之一的位置，如果要找的页码比该页的页码小，就把书向前翻到四分之一处，否则，就把书向后翻到四分之三的地方，依此类推，把书页续分成更小的部分，直至正确的页码。这叫“两分法”，微软在官方教程MOC里另有一种说法：叫B树（B-Tree，Balance Tree），即平衡树。一个表索引由若干页面组成，这些页面构成了一个树形结构。B树由“根”（root）开始，称为根级节点，它通过指向另外两个页，把一个表的记录从逻辑上分成两个部分：“枝”—--非叶级节点（Non-Leaf Level）；而非叶级节点又分别指向更小的部分：“叶”——叶级节点（Leaf Level）。根节点、非叶级节点和叶级节点都位于索引页中，统称为索引节点，属于索引页的范筹。这些“枝”、“叶”最终指向了具体的数据页（Page）。在根级节点和叶级节点之间的叶又叫数据中间页。 “根”（root）对应了sysindexes表的Root字段，其中记载了非叶级节点的物理位置（即指针）；非叶级节点位于根节点和叶节点之间，记载了指向叶级节点的指针；而叶级节点则最终指向数据页。这就是“平衡树”。四、聚集索引和非聚集索引从形式上而言，索引分为聚集索引（Clustered Indexes）和非聚集索引（NonClustered Indexes）。聚集索引相当于书籍脊背上那个特定的编号。如果对一张表建立了聚集索引，其索引页中就包含着建立索引的列的值（下称索引键值），那么表中的记录将按照该索引键值进行排序。比如，我们如果在“姓名”这一字段上建立了聚集索引，则表中的记录将按照姓名进行排列；如果建立了聚集索引的列是数值类型的，那么记录将按照该键值的数值大小来进行排列。非聚集索引用于指定数据的逻辑顺序，也就是说，表中的数据并没有按照索引键值指定的顺序排列，而仍然按照插入记录时的顺序存放。其索引页中包含着索引键值和它所指向该行记录在数据页中的物理位置，叫做行定位符（RID：Row ID）。好似书后面的的索引表，索引表中的顺序与实际的页码顺序也是不一致的。而且一本书也许有多个索引。比如主题索引和作者索引。 SQL Server在默认的情况下建立的索引是非聚集索引，由于非聚集索引不对表中的数据进行重组，而只是存储索引键值并用一个指针指向数据所在的页面。一个表如果没有聚集索引时,理论上可以建立249个非聚集索引。每个非聚集索引提供访问数据的不同排序顺序。五、数据是怎样被访问的若能真正理解了以上索引的基础知识，那么再回头来看索引的工作原理就简单和轻松多了。（一）SQLS怎样访问没有建立任何索引数据表： Heap译成汉语叫做“堆”，其本义暗含杂乱无章、无序的意思，前面提到数据值被写进数据页时，由于每一行记录之间并没地有特定的排列顺序，所以行与行的顺序就是随机无序的，当然表中的数据页也就是无序的了，而表中所有数据页就形成了“堆”，可以说，一张没有索引的数据表，就像一个只有书柜而没有索引卡片柜的图书馆，书库里面塞满了一堆乱七八糟的图书。当读者对管理员提交查询请求后，管理员就一头钻进书库，对照查找内容从头开始一架一柜的逐本查找，运气好的话，在第一个书架的第一本书就找到了，运气不好的话，要到最后一个书架的最后一本书才找到。 SQLS在接到查询请求的时候，首先会分析sysindexes表中一个叫做索引标志符(INDID: Index ID)的字段的值，如果该值为0，表示这是一张数据表而不是索引表，SQLS就会使用sysindexes表的另一个字段——也就是在前面提到过的FirstIAM值中找到该表的IAM页链——也就是所有数据页集合。这就是对一个没有建立索引的数据表进行数据查找的方式，是不是很没效率？对于没有索引的表，对于一“堆”这样的记录，SQLS也只能这样做，而且更没劲的是，即使在第一行就找到了被查询的记录，SQLS仍然要从头到尾的将表扫描一次。这种查询称为“遍历”，又叫“表扫描”。可见没有建立索引的数据表照样可以运行，不过这种方法对于小规模的表来说没有什么太大的问题，但要查询海量的数据效率就太低了。（二）SQLS怎样访问建立了非聚集索引的数据表：如前所述，非聚集索引可以建多个,具有B树结构，其叶级节点不包含数据页，只包含索引行。假定一个表中只有非聚集索引，则每个索引行包含了非聚集索引键值以及行定位符（ROW ID,RID），他们指向具有该键值的数据行。每一个RID由文件ID、页编号和在页中行的编号组成。当INDID的值在2-250之间时，意味着表中存在非聚集索引页。此时，SQLS调用ROOT字段的值指向非聚集索引B树的ROOT，在其中查找与被查询最相近的值，根据这个值找到在非叶级节点中的页号，然后顺藤摸瓜，在叶级节点相应的页面中找到该值的RID，最后根据这个RID在Heap中定位所在的页和行并返回到查询端。例如：假定在Lastname上建立了非聚集索引，则执行Select From Member Where Lastname=’Ota’时，查询过程是：①SQLS查询INDID值为2；②立即从根出发，在非叶级节点中定位最接近Ota的值“Martin”，并查到其位于叶级页面的第61页；③仅在叶级页面的第61页的Martin下搜寻Ota的RID，其RID显示为N∶706∶4，表示Lastname字段中名为Ota的记录位于堆的第707页的第4行，N表示文件的ID值，与数据无关；④根据上述信息，SQLS立马在堆的第 707页第4行将该记录“揪”出来并显示于前台（客户端）。视表的数据量大小，整个查询过程费时从百分之几毫秒到数毫秒不等。在谈到索引基本概念的时候，我们就提到了这种方式：图书馆的前台有很多索引卡片柜，里面分了若干的类别，诸如按照书名笔画或拼音顺序、作者笔画或拼音顺序等等，但不同之处有二：① 索引卡片上记录了每本书摆放的具体位置——位于某柜某架的第几本——而不是“特殊编号”；② 书脊上并没有那个“特殊编号”。管理员在索引柜中查到所需图书的具体位置（RID）后，根据RID直接在书库中的具体位置将书提出来。显然，这种查询方式效率很高，但资源占用极大，因为书库中书的位置随时在发生变化，必然要求管理员花费额外的精力和时间随时做好索引更新。（三）SQLS怎样访问建立了聚集索引的数据表：在聚集索引中，数据所在的数据页是叶级，索引数据所在的索引页是非叶级。查询原理和上述对非聚集索引的查询相似，但由于记录是按照聚集索引中索引键值进行排序，换句话说，聚集索引的索引键值也就是具体的数据页。这就好比书库中的书就是按照书名的拼音在排序，而且也只按照这一种排序方式建立相应的索引卡片，于是查询起来要比上述只建立非聚集索引的方式要简单得多。仍以上面的查询为例：假定在Lastname字段上建立了聚集索引，则执行Select From Member Where Lastname=’Ota’时，查询过程是：①SQLS查询INDID值为1，这是在系统中只建立了聚集索引的标志；②立即从根出发，在非叶级节点中定位最接近Ota的值“Martin”，并查到其位于叶级页面的第120页；③在位于叶级页面第120页的Martin下搜寻到Ota条目，而这一条目已是数据记录本身；④将该记录返回客户端。这一次的效率比第二种方法更高，以致于看起来更美，然而它最大的优点也恰好是它最大的缺点——由于同一张表中同时只能按照一种顺序排列，所以在任何一种数据表中的聚集索引只能建立一个；并且建立聚集索引需要至少相当于源表120%的附加空间，以存放源表的副本和索引中间页！难道鱼和熊掌就不能兼顾了吗？办法是有的。（四）SQLS怎样访问既有聚集索引、又有非聚集索引的数据表：如果我们在建立非聚集索引之前先建立了聚集索引的话，那么非聚集索引就可以使用聚集索引的关键字进行检索，就像在图书馆中，前台卡片柜中的可以有不同类别的图书索引卡，然而每张卡片上都载明了那个特殊编号——并不是书籍存放的具体位置。这样在最大程度上既照顾了数据检索的快捷性，又使索引的日常维护变得更加可行，这是最为科学的检索方法。也就是说，在只建立了非聚集索引的情况下，每个叶级节点指明了记录的行定位符（RID）；而在既有聚集索引又有非聚集索引的情况下，每个叶级节点所指向的是该聚集索引的索引键值，即数据记录本身。假设聚集索引建立在Lastname上，而非聚集索引建立在Firstname上，当执行Select From Member Where Firstname=’Mike’时，查询过程是：①SQLS查询INDID值为2；②立即从根出发，在Firstname的非聚集索引的非叶级节点中定位最接近Mike的值“Jose”条目；③从Jose条目下的叶级页面中查到Mike逻辑位置——不是RID而是聚集索引的指针；④根据这一指针所指示位置，直接进入位于Lastname的聚集索引中的叶级页面中到达Mike数据记录本身；⑤将该记录返回客户端。这就完全和我们在“索引的基本概念”中讲到的现实场景完全一样了，当数据发生更新的时候，SQLS只负责对聚集索引的健值驾以维护，而不必考虑非聚集索引，只要我们在ID类的字段上建立聚集索引，而在其它经常需要查询的字段上建立非聚集索引，通过这种科学的、有针对性的在一张表上分别建立聚集索引和非聚集索引的方法，我们既享受了索引带来的灵活与快捷，又相对规避了维护索引所导致的大量的额外资源消耗。六、索引的优点和不足索引有一些先天不足：1：建立索引，系统要占用大约为表的1.2倍的硬盘和内存空间来保存索引。2：更新数据的时候，系统必须要有额外的时间来同时对索引进行更新，以维持数据和索引的一致性——这就如同图书馆要有专门的位置来摆放索引柜，并且每当库存图书发生变化时都需要有人将索引卡片重整以保持索引与库存的一致。当然建立索引的优点也是显而易见的：在海量数据的情况下，如果合理的建立了索引，则会大大加强SQLS执行查询、对结果进行排序、分组的操作效率。实践表明，不恰当的索引不但于事无补，反而会降低系统性能。因为大量的索引在进行插入、修改和删除操作时比没有索引花费更多的系统时间。比如在如下字段建立索引应该是不恰当的：1、很少或从不引用的字段；2、逻辑型的字段，如男或女(是或否)等。综上所述，提高查询效率是以消耗一定的系统资源为代价的，索引不能盲目的建立，必须要有统筹的规划，一定要在“加快查询速度”与“降低修改速度”之间做好平衡，有得必有失，此消则彼长。这是考验一个DBA是否优秀的很重要的指标。至此，我们一直在说SQLS在维护索引时要消耗系统资源，那么SQLS维护索引时究竟消耗了什么资源？会产生哪些问题？究竟应该才能优化字段的索引？在上篇中，我们就索引的基本概念和数据查询原理作了详细阐述，知道了建立索引时一定要在“加快查询速度”与“降低修改速度”之间做好平衡，有得必有失，此消则彼长。那么，SQLS维护索引时究竟怎样消耗资源？应该从哪些方面对索引进行管理与优化？以下就从七个方面来回答这些问题。一、页分裂微软MOC教导我们：当一个数据页达到了8K容量，如果此时发生插入或更新数据的操作，将导致页的分裂(又名页拆分)： 1、有聚集索引的情况下：聚集索引将被插入和更新的行指向特定的页，该页由聚集索引关键字决定； 2、只有堆的情况下：只要有空间就可以插入新的行，但是如果我们对行数据的更新需要更多的空间，以致大于了当前页的可用空间，行就被移到新的页中，并且在原位置留下一个转发指针，指向被移动的新行，如果具有转发指针的行又被移动了，那么原来的指针将重新指向新的位置； 3、如果堆中有非聚集索引，那么尽管插入和更新操作在堆中不会发生页分裂，但是在非聚集索引上仍然产生页分裂。无论有无索引，大约一半的数据将保留在老页面，而另一半将放入新页面，并且新页面可能被分配到任何可用的页。所以，频繁页分裂，后果很严重，将使物理表产生大量数据碎片，导致直接造成I/O效率的急剧下降，最后，停止SQLS的运行并重建索引将是我们的唯一选择! 二、填充因子然而在“混沌之初”，就可以在一定程度上避免不愉快出现：在创建索引时，可以为这个索引指定一个填充因子，以便在索引的每个叶级页面上保留一定百分比的空间，将来数据可以进行扩充和减少页分裂。填充因子是从0到100的百分比数值，设为100时表示将数据页填满。只有当不会对数据进行更改时(例如只读表中)才用此设置。值越小则数据页上的空闲空间越大，这样可以减少在索引增长过程中进行页分裂的需要，但这一操作需要占用更多的硬盘空间。填充因子只在创建索引时执行，索引创建以后，当表中进行数据的添加、删除或更新时，是不会保持填充因子的，如果想在数据页上保持额外的空间，则有悖于使用填充因子的本意，因为随着数据的输入，SQLS必须在每个页上进行页拆分，以保持填充因子指定的空闲空间。因此，只有在表中的数据进行了较大的变动，才可以填充数据页的空闲空间。这时，可以从容的重建索引，重新指定填充因子，重新分布数据。反之，填充因子指定不当，就会降低数据库的读取性能，其降低量与填充因子设置值成反比。例如，当填充因子的值为50时，数据库的读取性能会降低两倍！所以，只有在表中根据现有数据创建新索引，并且可以预见将来会对这些数据进行哪些更改时，设置填充因子才有意义。三、两道数学题假定数据库设计没有问题，那么是否象上篇中分析的那样，当你建立了众多的索引，在查询工作中SQLS就只能按照“最高指示”用索引处理每一个提交的查询呢？答案是否定的！上篇“数据是怎样被访问的”章节中提到的四种索引方案只是一种静态的、标准的和理论上的分析比较，实际上，将在外，军令有所不从，SQLS几乎完全是“自主”的决定是否使用索引或使用哪一个索引！这是怎么回事呢？让我们先来算一道题：如果某表的一条记录在磁盘上占用1000字节(1K)的话，我们对其中10字节的一个字段建立索引，那么该记录对应的索引大小只有10字节(0.01K)。上篇说过，SQLS的最小空间分配单元是“页（Page）”，一个页面在磁盘上占用8K空间，所以一页只能存储8条“记录”，但可以存储800条“索引”。现在我们要从一个有8000条记录的表中检索符合某个条件的记录(有Where子句)，如果没有索引的话，我们需要遍历8000条×1000字节/8K字节=1000个页面才能够找到结果。如果在检索字段上有上述索引的话，那么我们可以在8000条×10字节/8K字节=10个页面中就检索到满足条件的索引块，然后根据索引块上的指针逐一找到结果数据块，这样I/O访问量肯定要少得多。然而有时用索引还不如不用索引快！同上，如果要无条件检索全部记录(不用Where子句)，不用索引的话，需要访问8000条×1000字节/8K字节=1000个页面；而使用索引的话，首先检索索引，访问8000条×10字节/8K字节=10个页面得到索引检索结果，再根据索引检索结果去对应数据页面，由于是检索全部数据，所以需要再访问8000条×1000字节/8K字节=1000个页面将全部数据读取出来，一共访问了1010个页面，这显然不如不用索引快。 SQLS内部有一套完整的数据索引优化技术，在上述情况下，SQLS会自动使用表扫描的方式检索数据而不会使用任何索引。那么SQLS是怎么知道什么时候用索引，什么时候不用索引的呢？因为SQLS除了维护数据信息外，还维护着数据统计信息！四、统计信息打开企业管理器，单击“Database”节点，右击Northwind数据库→单击“属性”→选择“Options”选项卡，观察“Settings”下的各项复选项，你发现了什么？从Settings中我们可以看到，在数据库中，SQLS将默认的自动创建和更新统计信息，这些统计信息包括数据密度和分布信息，正是它们帮助SQLS确定最佳的查询策略：建立查询计划和是否使用索引以及使用什么样的索引。在创建索引时，SQLS会创建分布数据页来存放有关索引的两种统计信息：分布表和密度表。查询优化器使用这些统计信息估算使用该索引进行查询的成本(Cost)，并在此基础上判断该索引对某个特定查询是否有用。随着表中的数据发生变化，SQLS自动定期更新这些统计信息。采样是在各个数据页上随机进行。从磁盘读取一个数据页后，该数据页上的所有行都被用来更新统计信息。统计信息更新的频率取决于字段或索引中的数据量以及数据更改量。比如，对于有一万条记录的表，当1000个索引键值发生改变时，该表的统计信息便可能需要更新，因为1000 个值在该表中占了10%，这是一个很大的比例。而对于有1千万条记录的表来说，1000个索引值发生更改的意义则可以忽略不计，因此统计信息就不会自动更新。至于它们帮助SQLS建立查询计划的具体过程，限于篇幅，这里就省略了，请有兴趣的朋友们自己研究。顺便多说一句，SQLS除了能自动记录统计信息之外，还可以记录服务器中所发生的其它活动的详细信息，包括I/O 统计信息、CPU 统计信息、锁定请求、T-SQL 和 RPC 统计信息、索引和表扫描、警告和引发的错误、数据库对象的创建/除去、连接/断开、存储过程操作、游标操作等等。这些信息的读取、设置请朋友们在SQLS联机帮助文档(SQL Server Books Online)中搜索字符串“Profiler”查找。五、索引的人工维护上面讲到,某些不合适的索引将影响到SQLS的性能,随着应用系统的运行,数据不断地发生变化,当数据变化达到某一个程度时将会影响到索引的使用。这时需要用户自己来维护索引。随着数据行的插入、删除和数据页的分裂，有些索引页可能只包含几页数据，另外应用在执行大量I/O的时候，重建非聚聚集索引可以维护I/O的效率。重建索引实质上是重新组织B树。需要重建索引的情况有： 1) 数据和使用模式大幅度变化； 2)排序的顺序发生改变； 3)要进行大量插入操作或已经完成； 4)使用I/O查询的磁盘读次数比预料的要多； 5)由于大量数据修改，使得数据页和索引页没有充分使用而导致空间的使用超出估算； 6)dbcc检查出索引有问题。六、索引的使用原则接近尾声的时候，让我们再从另一个角度认识索引的两个重要属性----唯一性索引和复合性索引。在设计表的时候，可以对字段值进行某些限制，比如可以对字段进行主键约束或唯一性约束。主键约束是指定某个或多个字段不允许重复，用于防止表中出现两条完全相同的记录，这样的字段称为主键，每张表都可以建立并且只能建立一个主键，构成主键的字段不允许空值。例如职员表中“身份证号”字段或成绩表中“学号、课程编号”字段组合。而唯一性约束与主键约束类似，区别只在于构成唯一性约束的字段允许出现空值。建立在主键约束和唯一性约束上的索引，由于其字段值具有唯一性，于是我们将这种索引叫做“唯一性索引”，如果这个唯一性索引是由两个以上字段的组合建立的，那么它又叫“复合性索引”。注意，唯一索引不是聚集索引，如果对一个字段建立了唯一索引，你仅仅不能向这个字段输入重复的值。并不妨碍你可以对其它类型的字段也建立一个唯一性索引，它们可以是聚集的，也可以是非聚集的。唯一性索引保证在索引列中的全部数据是唯一的，不会包含冗余数据。如果表中已经有一个主键约束或者唯一性约束，那么当创建表或者修改表时，SQLS自动创建一个唯一性索引。但出于必须保证唯一性，那么应该创建主键约束或者唯一性键约束，而不是创建一个唯一性索引。当创建唯一性索引时，应该认真考虑这些规则：当在表中创建主键约束或者唯一性键约束时， SQLS钭自动创建一个唯一性索引；如果表中已经包含有数据，那么当创建索引时，SQLS检查表中已有数据的冗余性，如果发现冗余值，那么SQLS就取消该语句的执行，并且返回一个错误消息，确保表中的每一行数据都有一个唯一值。复合索引就是一个索引创建在两个列或者多个列上。在搜索时，当两个或者多个列作为一个关键值时，最好在这些列上创建复合索引。当创建复合索引时，应该考虑这些规则：最多可以把16个列合并成一个单独的复合索引，构成复合索引的列的总长度不能超过900字节，也就是说复合列的长度不能太长；在复合索引中，所有的列必须来自同一个表中，不能跨表建立复合列；在复合索引中，列的排列顺序是非常重要的，原则上，应该首先定义最唯一的列，例如在（COL1，COL2）上的索引与在（COL2，COL1）上的索引是不相同的，因为两个索引的列的顺序不同；为了使查询优化器使用复合索引，查询语句中的WHERE子句必须参考复合索引中第一个列；当表中有多个关键列时，复合索引是非常有用的；使用复合索引可以提高查询性能，减少在一个表中所创建的索引数量。综上所述，我们总结了如下索引使用原则： 1)逻辑主键使用唯一的成组索引，对系统键（作为存储过程）采用唯一的非成组索引，对任何外键列采用非成组索引。考虑数据库的空间有多大，表如何进行访问，还有这些访问是否主要用作读写。 2)不要索引memo/note 字段，不要索引大型字段（有很多字符），这样作会让索引占用太多的存储空间。 3)不要索引常用的小型表 4)一般不要为小型数据表设置过多的索引，假如它们经常有插入和删除操作就更别这样作了，SQLS对这些插入和删除操作提供的索引维护可能比扫描表空间消耗更多的时间。七、大结局查询是一个物理过程，表面上是SQLS在东跑西跑，其实真正大部分压马路的工作是由磁盘输入输出系统(I/O)完成，全表扫描需要从磁盘上读表的每一个数据页，如果有索引指向数据值，则I/O读几次磁盘就可以了。但是，在随时发生的增、删、改操作中，索引的存在会大大增加工作量，因此，合理的索引设计是建立在对各种查询的分析和预测上的，只有正确地使索引与程序结合起来,才能产生最佳的优化方案。一般来说建立索引的思路是： (1)主键时常作为where子句的条件，应在表的主键列上建立聚聚集索引，尤其当经常用它作为连接的时候。 (2)有大量重复值且经常有范围查询和排序、分组发生的列，或者非常频繁地被访问的列，可考虑建立聚聚集索引。　　 (3)经常同时存取多列，且每列都含有重复值可考虑建立复合索引来覆盖一个或一组查询，并把查询引用最频繁的列作为前导列，如果可能尽量使关键查询形成覆盖查询。 (4)如果知道索引键的所有值都是唯一的，那么确保把索引定义成唯一索引。 (5)在一个经常做插入操作的表上建索引时，使用fillfactor(填充因子)来减少页分裂，同时提高并发度降低死锁的发生。如果在只读表上建索引，则可以把fillfactor置为100。 (6)在选择索引字段时，尽量选择那些小数据类型的字段作为索引键，以使每个索引页能够容纳尽可能多的索引键和指针，通过这种方式，可使一个查询必须遍历的索引页面降到最小。此外，尽可能地使用整数为键值，因为它能够提供比任何数据类型都快的访问速度。 SQLS是一个很复杂的系统，让索引以及查询背后的东西真相大白，可以帮助我们更为深刻的了解我们的系统。一句话，索引就象盐，少则无味多则咸。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_28052907/article/details/75194926。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-30 23:10:07

转载

转载文章

[转载]报表打印系统

...捷的解决方案。在云计算、大数据快速发展的今天，报表系统的技术革新对于提升企业信息管理水平至关重要。这款基于现代浏览器技术和JSON数据交换标准的新型报表打印系统，无疑为企业信息化建设开辟了新的可能，也为行业标准的制定和完善提供了有力支撑。随着更多企业和机构开始重视数据驱动决策的重要性，类似这样的高效、易用且具有前瞻性的报表工具将迎来更为广阔的应用前景。

2023-04-01 18:34:12

234

转载

建站模板下载

魅力女性时尚多页面网站HTML5模板

...元素而设计，尤其适合面向现代女性群体的网站构建。采用先进的HTML5技术，它拥有丰富的多页面布局，充分展现了魅力女性的生活方式和品味。模板兼顾内容多样性和视觉吸引力，让用户在浏览过程中体验更多元、更生动的时尚信息，是打造独特女性时尚平台的理想选择。点我下载文件大小：1.53 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-08-11 14:46:31

本站

建站模板下载

蓝色宽屏公有云云计算公司网站模板

...这款蓝色宽屏公有云云计算公司网站模板专为科技公司设计，采用HTML5技术构建，具备响应式布局，适应多种设备访问。模板以深邃蓝色为主调，展现专业科技感，适用于展示云计算服务、服务器解决方案的公司官网。页面宽屏设计大气且信息丰富，能够全面呈现企业产品特点与优势，助力提升品牌形象和客户体验。点我下载文件大小：789.08 KB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-01-24 10:05:48

108

本站

建站模板下载

通用简洁IT技术在线教育响应式模板下载

...聚焦于在线IT教育、计算机教育和网上课程功能展示，提供全面的教育网站模板下载服务。用户可以便捷地搭建专业且富有吸引力的在线教育网站，实现课程发布、学习互动等功能，满足广大互联网学习者的需求。点我下载文件大小：5.40 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-04-21 17:02:48

125

本站

建站模板下载

质感黑科技主题HTML5通用模板下载

...适应设计与智能处理器计算优化，适用于电脑端及云端展示。该模板以芯片、研发、云服务为核心元素，展现科技企业的先进技术和新闻动态，同时适用于企业产品介绍与技术解析。扁平化设计风格与质感黑色调彰显个性与高端，拥有广泛通用性和个性化定制潜力，是打造科技感十足网站的优质选择。基于HTML5开发，确保在不同设备上都能实现良好的响应式体验。点我下载文件大小：4.53 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-12-29 16:05:39

本站

建站模板下载

深蓝色计算机网络工程师培训网站模板

资源介绍 “深蓝色计算机网络工程师培训网站模板”是一款专为IT教育与培训机构打造的企业级响应式HTML5静态网站模板。设计风格以深蓝色为主调，营造专业、科技感的氛围。该模板涵盖了计算机网络、编程等相关领域，特别适用于展示计算机网络工程师培训课程内容及企业服务信息。具有高度自适应性，能在多种设备上呈现优秀视觉效果，助力提升品牌形象和吸引潜在学员。点我下载文件大小：2.09 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-05-12 22:26:44

108

本站

建站模板下载

简洁大方珠宝钻石收藏网站模板下载

...高品质网页模板，专门面向珠宝首饰和钻石收藏领域打造。它以其简洁明快的设计语言展现高端大气风格，不仅适用于展示各类珠宝钻石商品，还能完美呈现收藏品详情及专业资讯。无缝适配PC端与移动端浏览，实现跨设备的一致优秀用户体验，便于用户随时随地欣赏和了解珍贵珠宝藏品。只需简单修改内容即可快速搭建专业且极具吸引力的珠宝钻石收藏网站。点我下载文件大小：5.90 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-06-20 20:44:54

126

本站

JQuery插件下载

jQuery倒计时插件TimeTo

...其精确到毫秒级的时间计算和独特的翻页式动画效果而受到开发者青睐。这款插件提供了便捷的方式来实现网页中各类动态倒计时功能，不仅适用于活动促销、限时抢购等场景，还可应用于诸如赛事计时、任务截止日期提醒等多种场合。通过TimeTo，开发者能够轻松配置并启动多个独立且精确的倒计时实例，同时保持代码的简洁与高效。该插件兼顾实用性和视觉体验，使得网页中的倒计时元素既信息明确又富有吸引力，从而有效提升用户交互体验。点我下载文件大小：81.05 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-08-28 12:59:01

122

本站

JQuery插件下载

纯js页面平滑滚动插件

...展浏览器window对象的功能，使得开发者能够便捷地实现页面滚动的平滑过渡效果，告别了原生滚动条瞬间跳转的生硬感。用户在调用相关方法时，无需依赖jQuery等大型库，只需引入SmoothScroll.js文件，即可在网页中启用平滑滚动功能。无论是点击锚点链接自动滚动到目标位置，还是响应鼠标滚轮事件进行动态平滑滚动，都能轻松实现，从而极大地提升了网站的交互性和用户的舒适度。这款插件具有良好的兼容性和易用性，是现代网页开发优化滚动行为的理想选择之一。点我下载文件大小：15.23 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-07-08 10:30:22

347

本站

JQuery插件下载

基本的轻量级响应式jQuery幻灯片插件

...该插件以其极小的文件体积、易于使用的特性以及全面的功能集脱颖而出，特别适合用于构建各类网站中的图片或内容滑动展示模块。通过集成此插件，开发者能够快速创建出具备典型幻灯片所有必备功能的组件，如自动播放、导航按钮、指示点等，并确保在桌面、平板和手机等各种终端上都能呈现出完美的响应式布局效果。其轻量化设计使得网页加载更为迅速，同时保持了良好的用户体验，是现代Web开发中的一款实用工具。点我下载文件大小：748.84 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-12-05 20:39:26

358

本站

JQuery插件下载

将具体时间转换为模糊相对时间的jQuery工具

...，无需频繁手动更新或计算时间差值。点我下载文件大小：44.64 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-11-07 15:55:27

本站

JQuery插件下载

可通过拖动鼠标进行页面滚动的js插件

...minified版本体积小巧，仅有410字节，保证了在不影响网页加载速度的前提下提供高效能的用户体验。使用Dragscroll插件后，用户只需在页面或自定义容器上按住鼠标并移动，即可轻松实现内容的平滑滚动，打破了传统的滚动条限制，为用户提供了一种直观且新颖的交互方式。这款插件尤其适用于那些追求创新展示效果和提升用户体验的网页设计项目中，例如全景图像浏览、长图滚动阅读、全屏滚动网站等场合。通过简单配置和集成，开发者可以快速将任意页面或指定div元素转化为支持拖拽滚动的区域，显著提高用户在大信息量或无限滚动场景下的浏览便捷性与舒适度。点我下载文件大小：311.33 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-12-16 20:03:50

本站

JQuery插件下载

纯js跨浏览器响应式消息通知插件

...吸引人。由于其小巧的体积和丰富的功能，iziToast.js成为了许多开发者在项目中集成消息通知功能的首选工具。无论是用于提示用户操作结果，还是展示动态更新的数据，iziToast.js都能完美胜任，为用户提供了一个既实用又美观的通知体验。点我下载文件大小：82.63 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2025-01-08 21:17:20

本站

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

yum check-update && yum upgrade (适用于基于RPM的系统如CentOS) - 同上，用于RPM包管理器。