...标签相似，点击反馈等方法将手机助手的搜索转化率提升了数个百分点。除了用技术提升业务以外，我还结合工作中的问题进行了很多的深度技术思考。如有一次我们自己维护了一个线上的redis（当时工程部还没有redis平台，redis服务要业务自己维护）。为了优化性能，我把后端的请求由短连接改成了长连接。虽然看效果性能确实是优化了，但是我的思考并没有停止。我们所有的后端机都会连接这个redis。这样在这个redis实例上可能得有6000多条并发连接存在。我就开始疑惑，Linux 最多能有多少个TCP连接呢，我这 6000 条长连接会不会把这个服务器玩坏？再比如，我们组的服务器遭遇过几次连接相关的线上问题。其中一次是因为端口紧张而导致 CPU 消耗飙升。后来我又深入研究了一下。最近，由于 Docker 的广泛应用。底层的网络工作方式已经在悄悄地发生变化了。所以我又开辟了一个网络虚拟化的坑，来一点一点地填。现在我们的「开发内功修炼」公众号和 Github 就是在作为一个我和大家分享我的技术思考的一个窗口。 04 重回腾讯时隔 7 年，我又以一种奇特的方式变回了腾讯人的身份。腾讯再一次收购了搜狗的股份，这一次不再是控股，而是全资。在离开腾讯的这 7 年多的时间里，腾讯的内部技术工作方式已经发生了翻天覆地的变化。所以在刚转回腾讯的这一段时间里，我花了大量的精力来熟悉腾讯基于 tRPC 的各种技术生态。除了工作日，也投入了不少周末的精力。 05 再叨叨几句最后，水文里挤干货，通过我今天的文章我想给大家分享这么几点经验。第一，是要学会抬头看路，选择一个好的赛道进去。我非常庆幸我当年从广电赛道切换到了互联网，获得了更大的舞台。不过其实我自己在这点上做的也不是特别好，2013年底入职搜狗前拒绝了字节大把期权的offer，要不然我我早就财务自由了。第二，不要光被动接收领导的指令干活。要主动积极思考项目中哪些地方是待改进的，想到了你就去做。领导都非常喜欢积极主动的员工。我自己也是喜欢招一些能主动思考，积极推进的同学。这些人能创造意外的价值。第三，工作中除了业务以外还要主动技术的深度思考。毕竟技术仍然是开发的立命之本。在晋升考核的时候，业务数据做的再好也代替不了技术实力的核心位置。把工作中的技术点总结一下，在公司内分享出来。不涉及机密的话在外网分享一下更好。对你自己，对你的团队，都是好事。技术交流群最近有很多人问，有没有读者交流群，想知道怎么加入。最近我创建了一些群，大家可以加入。交流群都是免费的，只需要大家加入之后不要随便发广告，多多交流技术就好了。目前创建了多个交流群，全国交流群、北上广杭深等各地区交流群、面试交流群、资源共享群等。有兴趣入群的同学，可长按扫描下方二维码，一定要备注：全国 Or 城市 Or 面试 Or 资源，根据格式备注，可更快被通过且邀请进群。 ▲长按扫描往期推荐武大94年博士年薪201万入职华为！学霸日程表曝光，简直降维打击！腾讯三面：40亿个QQ号码如何去重？我被开除了。。只因为看了骂公司的帖子如果你喜欢本文, 请长按二维码，关注 Hollis. 转发至朋友圈，是对我最大的支持。点个在看喜欢是一种感觉在看是一种支持 ↘↘↘ 本篇文章为转载内容。原文链接：https://blog.csdn.net/hollis_chuang/article/details/121738393。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-06 11:38:24

232

转载

转载文章

[转载]三维坐标系与几何学

...形平滑着色的一个简单方法是首先计算与顶点相关联的每个多边形表面的表面法向量。可以这样计算顶点法向，使顶点法向与顶点所属的每个表面的法向的夹角相等。但是，对复杂图元来说这种方法可能不够有效。这种方法如下图所示。图中有两个表面，S1与S2，它们的邻边在上方。S1与S2的法向量用蓝色显示。顶点的法向量用红色显示。顶点法向量与S1表面法向的夹角和顶点法向量与S2表面法向的夹角相同。当对这两个表面进行光照计算和高洛德着色时，得到结果是中间的边被平滑着色，看起来像是弧形的（而不是有棱角的）。如果顶点法向偏向与它相关联的某个面，那么会导致那个面上的点光强度的增加或减少。下图显示了一个例子。这些面的邻边依然朝上。顶点法向倾向S1，与顶点法向与表面法向有相同的夹角相比，这使顶点法向与光源间的夹角变小。可以用高洛德着色在三维场景中显示一些有清晰边缘的物体。要达到这个目的，只要在需要产生清晰边缘的表面交线处，把表面法向复制给交线处顶点的法向，如下图所示。如果使用DrawPrimitive方法渲染场景，要将有锋利边缘的物体定义为三角形表，而非三角形带。当将物体定义为三角形带时，Direct3D会将它作为由多个三角形组成的单个多边形处理。高洛德着色被同时应用于多边形每个表面的内部和表面之间。结果产生表面之间平滑着色的物体。因为三角形表由一系列不相连的三角形面组成，所以Direct3D对多边形每个面的内部使用高洛德着色。但是，没有在表面之间应用高洛德着色。如果三角形表的两个或更多的三角形是相邻的，那么在它们之间看起来会有一条锋利边缘。另一种可选的方法是在渲染具有锋利边缘的物体时改变到平面着色模式。这在计算上是最有效的方法，但它可能导致场景中的物体不如用高洛德着色渲染的物体真实。三角形光栅化法则顶点指定的点经常不能精确地对应到屏幕上的像素。此时，Microsoft® Direct3D®使用三角形光栅化法则决定对于给定三角形使用哪个像素。三角形光栅化法则点、线光栅化法则点精灵光栅化法则三角形光栅化法则 Direct3D在填充几何图形时使用左上填充约定（top-left filling convention）。这与Microsoft Windows®的图形设备接口（GUI）和OpenGL中的矩形使用的约定相同。Direct3D中，像素的中心是决定点。如果中心在三角形内，那么该像素就是三角形的一部分。像素中心用整数坐标表示。这里描述的Direct3D使用的三角形光栅化法则不一定适用于所有可用的硬件。测试可以发现这些法则的实现间的细微变化。下图显示了一个左上角为（0，0），右下角为（5，5）的矩形。正如大家想象的那样，此矩形填充25个像素。矩形的宽度由right减left定义。高度由bottom减top定义。在左上填充约定中，上表示水平span在垂直方向上的位置，左表示span中的像素在水平方向上的位置。一条边除非是水平的，否则不可能是顶边——一般来说，大多数三角形只有左边或右边。左上填充约定确定当一个三角形穿过像素的中心时Direct3D采取的动作。下图显示了两个三角形，一个在（0，0），（5，0）和（5，5），另一个在（0，5），（0，0）和（5，5）。在这种情况下第一个三角形得到15个像素（显示为黑色），而第二个得到10个像素（显示为灰色），因为公用边是第一个三角形的左边。如果应用程序定义一个左上角为（0.5，0.5），右下角为（2.5，4.5）的矩形，那么这个矩形的中心在（1.5，2.5）。当Direct3D光栅化器tessellate这个矩形时，每个像素的中心都毫无异义地分别位于四个三角形中，此时就不需要左上填充约定。下图显示了这种情况。矩形内的像素根据在Direct3D中被哪个三角形包含做了相应的标注。如果将上例中的矩形移动，使之左上角为（1.0，1.0），右下角为（3.0，5.0），中心为（2.0，3.0），那么Direct3D使用左上角填充约定。这个矩形中大多数的像素跨越两个或更多的三角形的边界，如下图所示。这两个矩形会影响到相同的像素。点、线光栅化法则点和点精灵一样，都被渲染为与屏幕边缘对齐的四边形，因此它们使用与多边形同样的渲染法则。非抗锯齿线段的渲染法则与GDI使用的法则完全相同。更多有关抗锯齿线段的渲染，请参阅ID3DXLine。点精灵光栅化法则对点精灵和patch图元的渲染，就好像先把图元tessellate成三角形，然后将得到的三角形进行光栅化。更多信息，请参阅点精灵。矩形贯穿Microsoft® Direct3D®和Microsoft Windows®编程，都是用术语包围矩形来讨论屏幕上的物体。由于包围矩形的边总是与屏幕的边平行，因此矩形可以用两个点描述，左上角和右下角。当在屏幕上进行位块传输（Blit = Bit block transfer）或命中检测时，大多数应用程序使用RECT结构保存包围矩形的信息。 C++中，RECT结构有如下定义。 typedef struct tagRECT { LONG left; // 这是左上角的x坐标。 LONG top; // 这是左上角的y坐标。 LONG right; // 这是右下角的x坐标。 LONG bottom; // 这是右下角的y坐标。 } RECT, PRECT, NEAR NPRECT, FAR LPRECT; 在上例中，left和top成员是包围矩形左上角的x-和y-坐标。类似地，right和bottom成员组成右下角的坐标。下图直观地显示了这些值。为了效率、一致性及易用性， Direct3D所有的presentation函数都使用矩形。三角形插值对象（interpolants）在渲染时，流水线会贯穿每个三角形的表面进行顶点数据插值。有五种可能的数据类型可以进行插值。顶点数据可以是各种类型的数据，包括（但不限于）：漫反射色、镜面反射色、漫反射阿尔法（三角形透明度）、镜面反射阿尔法、雾因子（固定功能流水线从镜面反射的阿尔法分量中取得，可编程顶点流水线则从雾寄存器中取得）。顶点数据通过顶点声明定义。对一些顶点数据的插值取决于当前的着色模式，如下表所示。着色模式描述平面在平面着色模式下只对雾因子进行插值。对所有其它的插值对象，整个面都使用三角形第一个顶点的颜色。高洛德在所有三个顶点间进行线性插值。根据不同的颜色模型，对漫反射色和镜面反射色的处理是不同的。在RGB颜色模型中，系统在插值时使用红、绿和蓝颜色分量。颜色的阿尔法成员作为单独的插值对象对待，因为设备驱动程序可以以两种不同的方法实现透明：使用纹理混合或使用点画法（stippling）。可以用D3DCAPS9结构的ShadeCaps成员确定设备驱动程序支持何种插值。向量、顶点和四元数贯穿Microsoft® Direct3D®，顶点用于描述位置和方向。图元中的每个顶点由指定其位置的向量、颜色、纹理坐标和指定其方向的法向量描述。四元数给三元素向量的[ x, y, z]值增加了第四个元素。用于三维旋转的方法，除了典型的矩阵以外，四元数是另一种选择。四元数表示三维空间中的一根轴及围绕该轴的一个旋转。例如，一个四元数可能表示轴(1,1,2)和1度的旋转。四元数包含了有价值的信息，但它们真正的威力源自可对它们执行的两种操作：合成和插值。对四元数进行插值与合成它们类似。两个四元数的合成如下表示：将两个四元数的合成应用于几何体意味着“把几何体绕axis2轴旋转rotation2角度，然后绕axis1轴旋转rotation1角度”。在这种情况下，Q表示绕单根轴的旋转，该旋转是先后将q2和q1应用于几何体的结果。使用四元数，应用程序可以计算出一条从一根轴和一个方向到另一根轴和另一个方向的平滑、合理的路径。因此，在q1和q2间插值提供了一个从一个方向变化到另一个方向的简单方法。当同时使用合成与插值时，四元数提供了一个看似复杂而实际简单的操作几何体的方法。例如，设想我们希望把一个几何体旋转到某个给定方向。我们已经知道希望将它绕axis2轴旋转r2度，然后绕axis1轴旋转r1度，但是我们不知道最终的四元数。通过使用合成，我们可以在几何体上合成两个旋转并得到最终单个的四元数。然后，我们可以在原始四元数和合成的四元数间进行插值，得到两者之间的平滑转换。 Direct3D扩展（D3DX）工具库包含了帮助用户使用四元数的函数。例如，D3DXQuaternionRotationAxis函数给一个定义旋转轴的向量增加一个旋转值，并在由D3DXQUTERNION结构定义的四元数中返回结果。另外，D3DXQuaternionMultiply函数合成四元数，D3DXQuaternionSlerp函数在两个四元数间进行球面线性插值（spherical linear interpolation）。 Direct3D应用程序可以使用下列函数简化对四元数的使用。 D3DXQuaternionBaryCentric D3DXQuaternionConjugate D3DXQuaternionDot D3DXQuaternionExp D3DXQuaternionIdentity D3DXQuaternionInverse D3DXQuaternionIsIdentity D3DXQuaternionLength D3DXQuaternionLengthSq D3DXQuaternionLn D3DXQuaternionMultiply D3DXQuaternionNormalize D3DXQuaternionRotationAxis D3DXQuaternionRotationMatrix D3DXQuaternionRotationYawPitchRoll D3DXQuaternionSlerp D3DXQuaternionSquad D3DXQuaternionToAxisAngle Direct3D应用程序可以使用下列函数简化对三成员向量的使用。 D3DXVec3Add D3DXVec3BaryCentric D3DXVec3CatmullRom D3DXVec3Cross D3DXVec3Dot D3DXVec3Hermite D3DXVec3Length D3DXVec3LengthSq D3DXVec3Lerp D3DXVec3Maximize D3DXVec3Minimize D3DXVec3Normalize D3DXVec3Project D3DXVec3Scale D3DXVec3Subtract D3DXVec3Transform D3DXVec3TransformCoord D3DXVec3TransformNormal D3DXVec3Unproject D3DX工具库提供的数学函数中包含了许多辅助函数，可以简化对二成员和四成员向量的使用 http://www.gesoftfactory.com/developer/3DCS.htm 本篇文章为转载内容。原文链接：https://blog.csdn.net/okvee/article/details/3438011。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-10-24 12:49:42

271

转载

转载文章

[转载]调用阿里云API实现证件照生成

...度学习是一种机器学习方法，通过模仿人脑神经网络结构进行复杂数据建模与分析，能够实现对图像、语音、文本等多种类型数据的高级抽象和理解。在本文语境下，深度学习被应用于证件照生成任务中的图像分割算法，如U-Net网络和SeedNet网络，以精确提取人物轮廓并替换背景。图像分割算法 , 图像分割是指将图像划分为多个具有特定含义的区域或对象的过程，在计算机视觉领域是一项基础且关键的技术。在本文中，深度学习技术下的图像分割算法用于证件照生成，能智能识别并分离出照片中的人物主体，以便于后续对背景进行更换或编辑，保证证件照的专业性和规范性。 SeedNet网络 , SeedNet是《BiHand: Recovering Hand Mesh with Multi-stage Bisected Hourglass Networks》一文中提出的多阶段分割网络模型，该模型采用了多任务学习策略，旨在提高对图像中特定区域（例如手部）的分割精度和整体效果。在本文研究中，作者选取了SeedNet网络的第一阶段进行实验，并展示了其在证件照生成背景分割上的应用效果。

2023-07-11 23:36:51

131

转载

转载文章

[转载]饿了么：云端调度，饭来张口

...数据、抗网络攻击的好方法。 3）高可用性挑战：众所周知，IDC自建系统运维要承担从底层硬件到上层应用的“全栈运维”运营能力与维修能力，当2015年夏天上海数据中心故障发生，主核心交换机宕机时，备核心交换机Bug同时被触发，从事故发生到硬件厂商携维修设备打车赶往现场维修的整个过程中，饥饿的消费者无法订餐吃饭，技术团队第一次经历业务中断而束手无策，才下定决心大笔投入混合云灾备的建设，“吃一堑，长一智”，持续向淘宝学习电商云生产与灾备架构，以自动化运维替代人肉运维，从灾备向多活演进，成为饿了么企业架构转型的必经之路。 4）大数据精益运营：不论网络打车还是网络订餐，共享服务平台脱颖而出的关键成功要素是智能调度算法，以大数据训练算法提升调度效率，饿了么在高峰时段内让百万“骑士”（送餐快递员）完成更多订单是算法持续优化的目标，而这背后隐藏着诸多复杂因素，包括考虑餐厅、骑士、消费者三者的实时动态位置关系，把新订单插入现有“骑士”的行进路线中，估计每家餐厅出餐时间，每个骑手的行进速度、道路熟悉程度各不相同，新老消费者获客成本、高价低价订单的优先级皆不相同。种种考量因素合并到一起，对于人类调度员来说，每天中午和晚上的高峰都是巨大的挑战。以上海商城路配送站为例，一个调度员每6秒钟就要调度1单，他需要考虑骑手已有订单量、路线熟悉度等。因此可以说，这份工作已经完全不适合人类。但对人工智能而言，阿里云ET则非常擅长处理这类超复杂、大规模、实时性要求高的“非人”问题。饿了么是中国最大的在线外卖和即时配送平台，日订单量900万单、180万骑手、100万家餐饮店，既是史无前例的计算存储挑战，又是人无我有的战略发展机遇。饿了么携手阿里云人工智能团队，通过海量数据训练优化全球最大实时智能调度系统。在基础架构层，云计算解决弹性支撑业务量波动的基础生存问题，在数据智能层，利用大数据训练核心调度算法、提升餐饮店的商业价值，才是业务决胜的“技术神器”。在针对大数据资源的“专家+机器”运营分析中，不断发现新的特征： 1）区域差异性：饿了么与阿里云联合研发小组测试中发现有2个配送站点出现严重超时问题。后来才知道：2个站点均在成都，当地人民喜欢早、中餐一起吃，高峰从11点就开始了。习惯了北上广节奏的ET到成都就懵了。据阿里云人工智能专家闵万里分析：“不存在一套通用的算法可以适配所有站点，所以我们需要让ET自己学习或者向人类运营专家请教当地的风土人情、饮食习惯”。除此之外，饿了么覆盖的餐厅不仅有高大上的连锁店，还有大街小巷的各类难以琢磨的特色小吃，难度是其他智能调度业务的数倍。 2）复杂路径规划：吃一口热饭有多难？送餐路径规划比驾车出行路径规划难度更高，要考虑“骑士”地图熟悉程度、天气状况、拼单效率、送餐顺序、时间对客户满意度影响、送达写字楼电梯等待时间等各种实际情况，究竟ET是如何实现智能派单并确保效率最优的呢？简单来说，ET会将配送站新接订单插入到每个骑手已有的任务中，重新规划一轮最短配送路径，对比哪个骑手新增时间最短。为了能够准确预估新增时间，ET需要知道全国100万家餐厅的出餐速度、超过180万骑手各自的骑行速度、每个顾客坐电梯下楼取餐的时间。一般来说，餐厅出餐等待时间占到了整个送餐时间的三分之一。ET要想提高骑手效率，必须准确预估出餐时间以减少骑手等待，但又不能让餐等人，最后饭凉了。饿了么旗下蜂鸟配送“准时达”服务单均配送时长缩短至30分钟以内。 3）天气特殊影响：天气等环境因素对送餐响应时间影响显著，要想计算骑手的送餐路程时间，ET需要知道每个骑手在不同区域、不同天气下的送餐速度。如果北京雾霾，ET能看见吗？双方研发团队为ET内置了恶劣天气的算法模型。通常情况下，每逢恶劣天气，外卖订单将出现大涨，对应的餐厅出餐速度和骑手骑行速度都将受到影响，这些ET都会考虑在内。如果顾客在下雪天点个火锅呢？ET也知道，将自动识别其为大单，锁定某一个骑手专门完成配送。 4）餐饮营销顾问：饿了么整体业务涉及C端（消费者）、B端（餐饮商户）、D端（物流配送）、BD端（地推营销），以往区域业务开拓考核新店数量，现在会重点关注餐饮外卖“健康度”，对于营业额忽高忽低、在线排名变化的餐饮店，都需要BD专家根据大数据帮助餐饮店经营者找出原因并给出解决建议，避免新店外卖刚开始就淹没在区域竞争中，销量平平的新店会离开平台，通过机器学习把餐饮运营专家的经验、以及人看不到的隐含规律固化下来，以数据决策来发现餐饮店经营问题、产品差异定位，让餐饮商户尝到甜头，才愿意继续经营。举个例子，饿了么员工都喜欢楼下一家鸡排店的午餐，但大数据发现这家店的外卖营收并不如实体店那么火爆，9元“鸡排+酸梅汁”是所有人都喜欢的爆款产品，可为什么同样菜品遭遇“线下火、线上冷”呢？数据预警后，BD顾问指出线上外卖鸡排产品没有写明“含免费酸梅汁一杯”的关键促销内容，导致大多数外卖消费者订一份鸡排一杯酸梅汁，却收到一份鸡排两杯酸梅汁，体验自然不好。饿了么是数据驱动、智能算法调度的自动化生活服务平台，通过O2O数据的在线实时分析，与阿里云人工智能团队不断改进算法，以“全局最优”取代“局部最优”，保证平台上所有餐饮商户都能享受到数据智能的科技红利。 “上云用数”的外部价值诸多，从饿了么内部反馈来看，上云不仅没有让运维团队失去价值，反而带来了“云原生应用”(Cloud Native Application)、“云上多活”、“CDN云端压测”、“安全风控一体化”等创新路径与方案，通过敏捷基础设施(IaaS)、微服务架构(PaaS和SaaS)、持续交付管理、DevOps等云最佳实践，摆脱“人肉”支撑的种种困境，进而实现更快的上线速度、细致的故障探测和发现、故障时能自动隔离、故障时能够自动恢复、方便的水平扩容。饿了么CTO张雪峰先生说：“互联网平台型组织，业务量涨数倍，企业人数稳定降低，才是技术驱动的正确商业模式。” 在不久的将来，你每天订餐、出行、娱乐、工作留下的大数据，会“驯养”出无处不在、无所不能的智能机器人管家，家庭助理帮你点菜，无人机为你送餐，聊天机器人接受你的投诉……当然这个无比美妙的“未来世界”背后，皆有阿里云的数据智能母体“ET”。本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_34126557/article/details/90592502。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-01-31 14:48:26

343

转载

转载文章

[转载]史上最通俗，彻底搞懂字符乱码问题的本质

...本确保IM消息时序的方法探讨》《IM开发基础知识补课(六)：数据库用NoSQL还是SQL？读这篇就够了！》《IM里“附近的人”功能实现原理是什么？如何高效率地实现它？》《IM开发基础知识补课(七)：主流移动端账号登录方式的原理及设计思路》《IM开发基础知识补课(八)：史上最通俗，彻底搞懂字符乱码问题的本质》（本文） 4、正文概述字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题。当遇到纷繁复杂的字符集，各种火星文和乱码时，问题的定位往往变得非常困难。本文内容就将会从原理方面对字符集和编码做个简单的科普介绍，同时也会介绍一些通用的乱码故障定位的方法以方便读者以后能够更从容的定位相关问题。在正式介绍之前，先做个小申明：如果你希望非常精确的理解各个名词的解释，那么可以详细阅读这篇《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》。本文是博主通过自己理解消化后并转化成易懂浅显的表述后的介绍，会尽量以简单明了的文字来从要源讲解字符集、字符编码的概念，以及在遭遇乱码时的一些常用诊断技巧，希望能助你对于“乱码”问题有更深地理解。 5、什么是字符集在介绍字符集之前，我们先了解下为什么要有字符集。我们在计算机屏幕上看到的是实体化的文字，而在计算机存储介质中存放的实际是二进制的比特流。那么在这两者之间的转换规则就需要一个统一的标准，否则把我们的U盘插到老板的电脑上，文档就乱码了；小伙伴QQ上传过来的文件，在我们本地打开又乱码了。于是为了实现转换标准，各种字符集标准就出现了。简单的说：字符集就规定了某个文字对应的二进制数字存放方式（编码）和某串二进制数值代表了哪个文字（解码）的转换关系。那么为什么会有那么多字符集标准呢？这个问题实际非常容易回答。问问自己为什么我们的插头拿到英国就不能用了呢？为什么显示器同时有DVI、VGA、HDMI、DP这么多接口呢？很多规范和标准在最初制定时并不会意识到这将会是以后全球普适的准则，或者处于组织本身利益就想从本质上区别于现有标准。于是，就产生了那么多具有相同效果但又不相互兼容的标准了。说了那么多我们来看一个实际例子，下面就是“屌”这个字在各种编码下的十六进制和二进制编码结果，怎么样有没有一种很屌的感觉？ 6、什么是字符编码字符集只是一个规则集合的名字，对应到真实生活中，字符集就是对某种语言的称呼。例如：英语，汉语，日语。对于一个字符集来说要正确编码转码一个字符需要三个关键元素： 1）字库表（character repertoire）：是一个相当于所有可读或者可显示字符的数据库，字库表决定了整个字符集能够展现表示的所有字符的范围； 2）编码字符集（coded character set）：即用一个编码值code point来表示一个字符在字库中的位置； 3）字符编码（character encoding form）：将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。例如在ASCII中“A”在表中排第65位，而编码后A的数值是 0100 0001 也即十进制的65的二进制转换结果。看到这里，可能很多读者都会有和我当初一样的疑问：字库表和编码字符集看来是必不可少的，那既然字库表中的每一个字符都有一个自己的序号，直接把序号作为存储内容就好了。为什么还要多此一举通过字符编码把序号转换成另外一种存储格式呢？其实原因也比较容易理解：统一字库表的目的是为了能够涵盖世界上所有的字符，但实际使用过程中会发现真正用的上的字符相对整个字库表来说比例非常低。例如中文地区的程序几乎不会需要日语字符，而一些英语国家甚至简单的ASCII字库表就能满足基本需求。而如果把每个字符都用字库表中的序号来存储的话，每个字符就需要3个字节（这里以Unicode字库为例），这样对于原本用仅占一个字符的ASCII编码的英语地区国家显然是一个额外成本（存储体积是原来的三倍）。算的直接一些，同样一块硬盘，用ASCII可以存1500篇文章，而用3字节Unicode序号存储只能存500篇。于是就出现了UTF-8这样的变长编码。在UTF-8编码中原本只需要一个字节的ASCII字符，仍然只占一个字节。而像中文及日语这样的复杂字符就需要2个到3个字节来存储。关于字符编码知识的详细讲解请见：《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》。 7、UTF-8和Unicode的关系看完上面两个概念解释，那么解释UTF-8和Unicode的关系就比较简单了。 Unicode就是上文中提到的编码字符集，而UTF-8就是字符编码，即Unicode规则字库的一种实现形式。随着互联网的发展，对同一字库集的要求越来越迫切，Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字，并将为他们编号。详见：Unicode百科介绍。 Unicode的编号从 0000 开始一直到10FFFF 共分为17个Plane，每个Plane中有65536个字符。而UTF-8则只实现了第一个Plane，可见UTF-8虽然是一个当今接受度最广的字符集编码，但是它并没有涵盖整个Unicode的字库，这也造成了它在某些场景下对于特殊字符的处理困难（下文会有提到）。 8、UTF-8编码简介为了更好的理解后面的实际应用，我们这里简单的介绍下UTF-8的编码实现方法。即UTF-8的物理存储和Unicode序号的转换关系。 UTF-8编码为变长编码，最小编码单位（code unit）为一个字节。一个字节的前1-3个bit为描述性部分，后面为实际序号部分： 1）如果一个字节的第一位为0，那么代表当前字符为单字节字符，占用一个字节的空间。0之后的所有部分（7个bit）代表在Unicode中的序号； 2）如果一个字节以110开头，那么代表当前字符为双字节字符，占用2个字节的空间。110之后的所有部分（5个bit）加上后一个字节的除10外的部分（6个bit）代表在Unicode中的序号。且第二个字节以10开头； 3）如果一个字节以1110开头，那么代表当前字符为三字节字符，占用3个字节的空间。110之后的所有部分（5个bit）加上后两个字节的除10外的部分（12个bit）代表在Unicode中的序号。且第二、第三个字节以10开头； 4）如果一个字节以10开头，那么代表当前字节为多字节字符的第二个字节。10之后的所有部分（6个bit）和之前的部分一同组成在Unicode中的序号。具体每个字节的特征可见下表，其中“x”代表序号部分，把各个字节中的所有x部分拼接在一起就组成了在Unicode字库中的序号。如下图所示。我们分别看三个从一个字节到三个字节的UTF-8编码例子：细心的读者不难从以上的简单介绍中得出以下规律： 1）3个字节的UTF-8十六进制编码一定是以E开头的； 2）2个字节的UTF-8十六进制编码一定是以C或D开头的； 3）1个字节的UTF-8十六进制编码一定是以比8小的数字开头的。 9、为什么会出现乱码乱码也就是英文常说的mojibake（由日语的文字化け音译）。简单的说乱码的出现是因为：编码和解码时用了不同或者不兼容的字符集。对应到真实生活中：就好比是一个英国人为了表示祝福在纸上写了bless（编码过程）。而一个法国人拿到了这张纸，由于在法语中bless表示受伤的意思，所以认为他想表达的是受伤（解码过程）。这个就是一个现实生活中的乱码情况。在计算机科学中一样：一个用UTF-8编码后的字符，用GBK去解码。由于两个字符集的字库表不一样，同一个汉字在两个字符表的位置也不同，最终就会出现乱码。我们来看一个例子，假设我们用UTF-8编码存储“很屌”两个字，会有如下转换：于是我们得到了E5BE88E5B18C这么一串数值，而显示时我们用GBK解码进行展示，通过查表我们获得以下信息：解码后我们就得到了“寰堝睂”这么一个错误的结果，更要命的是连字符个数都变了。 10、如何识别乱码的本来想要表达的文字要从乱码字符中反解出原来的正确文字需要对各个字符集编码规则有较为深刻的掌握。但是原理很简单，这里用以MySQL数据库中的数据操纵中最常见的UTF-8被错误用GBK展示时的乱码为例，来说明具体反解和识别过程。 10.1 第1步：编码假设我们在页面上看到“寰堝睂”这样的乱码，而又得知我们的浏览器当前使用GBK编码。那么第一步我们就能先通过GBK把乱码编码成二进制表达式。当然查表编码效率很低，我们也可以用以下SQL语句直接通过MySQL客户端来做编码工作： mysql [localhost] {msandbox} > selecthex(convert('寰堝睂'using gbk)); +-------------------------------------+ | hex(convert('寰堝睂'using gbk)) | +-------------------------------------+ | E5BE88E5B18C | +-------------------------------------+ 1 row inset(0.01 sec) 10.2 第2步：识别现在我们得到了解码后的二进制字符串E5BE88E5B18C。然后我们将它按字节拆开。然后套用之前UTF-8编码介绍章节中总结出的规律，就不难发现这6个字节的数据符合UTF-8编码规则。如果整个数据流都符合这个规则的话，我们就能大胆假设乱码之前的编码字符集是UTF-8。 10.3 第3步：解码然后我们就能拿着 E5BE88E5B18C 用UTF-8解码，查看乱码前的文字了。当然我们可以不查表直接通过SQL获得结果： mysql [localhost] {msandbox} ((none)) > selectconvert(0xE5BE88E5B18C using utf8); +------------------------------------+ | convert(0xE5BE88E5B18C using utf8) | +------------------------------------+ | 很屌 | +------------------------------------+ 1 row inset(0.00 sec) 11、常见的IM乱码问题处理之MySQL中的Emoji字符所谓Emoji就是一种在Unicode位于 \u1F601-\u1F64F 区段的字符。这个显然超过了目前常用的UTF-8字符集的编码范围 \u0000-\uFFFF。Emoji表情随着IOS的普及和微信的支持越来越常见。下面就是几个常见的Emoji（IM聊天软件中经常会被用到）：那么Emoji字符表情会对我们平时的开发运维带来什么影响呢？最常见的问题就在于将他存入MySQL数据库的时候。一般来说MySQL数据库的默认字符集都会配置成UTF-8（三字节），而utf8mb4在5.5以后才被支持，也很少会有DBA主动将系统默认字符集改成utf8mb4。那么问题就来了，当我们把一个需要4字节UTF-8编码才能表示的字符存入数据库的时候就会报错：ERROR 1366: Incorrect string value: '\xF0\x9D\x8C\x86' for column 。如果认真阅读了上面的解释，那么这个报错也就不难看懂了：我们试图将一串Bytes插入到一列中，而这串Bytes的第一个字节是 \xF0 意味着这是一个四字节的UTF-8编码。但是当MySQL表和列字符集配置为UTF-8的时候是无法存储这样的字符的，所以报了错。那么遇到这种情况我们如何解决呢？有两种方式： 1）升级MySQL到5.6或更高版本，并且将表字符集切换至utf8mb4； 2）在把内容存入到数据库之前做一次过滤，将Emoji字符替换成一段特殊的文字编码，然后再存入数据库中。之后从数据库获取或者前端展示时再将这段特殊文字编码转换成Emoji显示。第二种方法我们假设用 --1F601-- 来替代4字节的Emoji，那么具体实现python代码可以参见Stackoverflow上的回答。 12、参考文献 [1] 如何配置Python默认字符集 [2] 字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8 [3] Unicode中文编码表 [4] Emoji Unicode Table [5] Every Developer Should Know About The Encoding 附录：更多IM开发方面的文章 [1] IM开发综合文章：《新手入门一篇就够：从零开发移动端IM》《移动端IM开发者必读(一)：通俗易懂，理解移动网络的“弱”和“慢”》《移动端IM开发者必读(二)：史上最全移动弱网络优化方法总结》《从客户端的角度来谈谈移动端IM的消息可靠性和送达机制》《现代移动端网络短连接的优化手段总结：请求速度、弱网适应、安全保障》《腾讯技术分享：社交网络图片的带宽压缩技术演进之路》《小白必读：闲话HTTP短连接中的Session和Token》《IM开发基础知识补课：正确理解前置HTTP SSO单点登陆接口的原理》《移动端IM开发需要面对的技术问题》《开发IM是自己设计协议用字节流好还是字符流好？》《请问有人知道语音留言聊天的主流实现方式吗？》《一个低成本确保IM消息时序的方法探讨》《完全自已开发的IM该如何设计“失败重试”机制？》《通俗易懂：基于集群的移动端IM接入层负载均衡方案分享》《微信对网络影响的技术试验及分析（论文全文）》《即时通讯系统的原理、技术和应用（技术论文）》《开源IM工程“蘑菇街TeamTalk”的现状：一场有始无终的开源秀》《QQ音乐团队分享：Android中的图片压缩技术详解（上篇）》《QQ音乐团队分享：Android中的图片压缩技术详解（下篇）》《腾讯原创分享(一)：如何大幅提升移动网络下手机QQ的图片传输速度和成功率》《腾讯原创分享(二)：如何大幅压缩移动网络下APP的流量消耗（上篇）》《腾讯原创分享(三)：如何大幅压缩移动网络下APP的流量消耗（下篇）》《如约而至：微信自用的移动端IM网络层跨平台组件库Mars已正式开源》《基于社交网络的Yelp是如何实现海量用户图片的无损压缩的？》《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》《全面掌握移动端主流图片格式的特点、性能、调优等》《子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践》《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》《自已开发IM有那么难吗？手把手教你自撸一个Andriod版简易IM (有源码)》《融云技术分享：解密融云IM产品的聊天消息ID生成策略》《适合新手：从零开发一个IM服务端（基于Netty，有完整源码）》《拿起键盘就是干：跟我一起徒手开发一套分布式IM系统》 >> 更多同类文章 …… [2] 有关IM架构设计的文章：《浅谈IM系统的架构设计》《简述移动端IM开发的那些坑：架构设计、通信协议和客户端》《一套海量在线用户的移动端IM架构设计实践分享(含详细图文)》《一套原创分布式即时通讯(IM)系统理论架构方案》《从零到卓越：京东客服即时通讯系统的技术架构演进历程》《蘑菇街即时通讯/IM服务器开发之架构选择》《腾讯QQ1.4亿在线用户的技术挑战和架构演进之路PPT》《微信后台基于时间序的海量数据冷热分级架构设计实践》《微信技术总监谈架构：微信之道——大道至简(演讲全文)》《如何解读《微信技术总监谈架构：微信之道——大道至简》》《快速裂变：见证微信强大后台架构从0到1的演进历程（一）》《17年的实践：腾讯海量产品的技术方法论》《移动端IM中大规模群消息的推送如何保证效率、实时性？》《现代IM系统中聊天消息的同步和存储方案探讨》《IM开发基础知识补课(二)：如何设计大量图片文件的服务端存储架构？》《IM开发基础知识补课(三)：快速理解服务端数据库读写分离原理及实践建议》《IM开发基础知识补课(四)：正确理解HTTP短连接中的Cookie、Session和Token》《WhatsApp技术实践分享：32人工程团队创造的技术神话》《微信朋友圈千亿访问量背后的技术挑战和实践总结》《王者荣耀2亿用户量的背后：产品定位、技术架构、网络方案等》《IM系统的MQ消息中间件选型：Kafka还是RabbitMQ？》《腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面》《以微博类应用场景为例，总结海量社交系统的架构设计步骤》《快速理解高性能HTTP服务端的负载均衡技术原理》《子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践》《知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路》《IM开发基础知识补课(五)：通俗易懂，正确理解并用好MQ消息队列》《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》《微信技术分享：微信的海量IM聊天消息序列号生成实践（容灾方案篇）》《新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践》《一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践》《阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史》《阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路》《社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等》《社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进》《社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节》《社交软件红包技术解密(四)：微信红包系统是如何应对高并发的》《社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的》《社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践》《社交软件红包技术解密(七)：支付宝红包的海量高并发技术实践》《社交软件红包技术解密(八)：全面解密微博红包技术方案》《社交软件红包技术解密(九)：谈谈手Q红包的功能逻辑、容灾、运维、架构等》《即时通讯新手入门：一文读懂什么是Nginx？它能否实现IM的负载均衡？》《即时通讯新手入门：快速理解RPC技术——基本概念、原理和用途》《多维度对比5款主流分布式MQ消息队列，妈妈再也不担心我的技术选型了》《从游击队到正规军(一)：马蜂窝旅游网的IM系统架构演进之路》《从游击队到正规军(二)：马蜂窝旅游网的IM客户端架构演进和实践总结》《IM开发基础知识补课(六)：数据库用NoSQL还是SQL？读这篇就够了！》《瓜子IM智能客服系统的数据架构设计（整理自现场演讲，有配套PPT）》《阿里钉钉技术分享：企业级IM王者——钉钉在后端架构上的过人之处》 >> 更多同类文章 …… （本文同步发布于：http://www.52im.net/thread-2868-1-1.html）本篇文章为转载内容。原文链接：https://blog.csdn.net/hellojackjiang2011/article/details/103586305。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-04-29 12:29:21

522

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

uniq file.txt - 移除连续重复行。