...于企业级应用和Web服务同样构成威胁。例如，某知名社交媒体平台曾报告过一起利用Unicode同形异义字符进行的攻击事件，导致部分用户账户信息泄露。这起事件引发了业界对URL安全性的广泛关注，各大科技公司纷纷加强了对输入验证和异常处理机制的审查，以防止类似事件再次发生。此外，随着区块链技术和加密货币的普及，与之相关的URL安全问题也日益凸显。黑客常常利用复杂的URL构造，诱导用户访问恶意网站，盗取加密货币钱包的私钥。为此，许多加密货币钱包服务商开始引入更高级别的身份验证机制，并加强对URL的过滤和监控，以保护用户的资产安全。在防范这类新型攻击方面，除了依赖技术手段外，用户自身的安全意识同样重要。专家建议，用户在点击任何链接前，应仔细检查URL的拼写和格式，尽量避免访问来源不明的网站。同时，定期更新操作系统和浏览器，安装最新的安全补丁，也是抵御此类攻击的有效措施之一。对于开发者而言，不仅要关注基础的URL格式校验，还需加强对异常字符和恶意链接的检测能力，确保应用程序在面对复杂攻击时依然能够保持稳定和安全。

2024-12-19 15:45:26

素颜如水

转载文章

[转载]第六计 / Explosive City (2004)

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。昨天看了这部片子，感觉一般，但还是一部可看的片子，不闷。女杀手失忆之前挺酷的，之后感觉太柔弱了。三个男主角都不错，不过方中信的形象应该更强悍一些才好，而千叶真一象极了邻居家的老大伯。《孙子兵法》第六计虚实计 …… 攻而必取者，攻其所不守也。守而必固者，守其所必攻也。故善攻者，敌不知其所守；善守者，敌不知其所攻。 …… 进而不可御者，冲其虚也；退而不可追者，速而不可及也。故我欲战，敌虽高垒深沟，不得不与我战者，攻其所必救也；我不欲战，虽画地而守之，敌不得与我战者，乖其所之也。故形人而我无形，则我专而敌分。 …… 附录：中文名称：第六计英文名称：Explosive City 资源类型：DVDScr 发行时间：2004年11月04日电影导演：梁德森电影演员：任达华方中信千叶真一白田久子彭敬慈萧正楠地区：香港语言：普通话简介：转自TLF论坛片名：Explosive City 译名：第六计（又名爆裂都市）导演：梁德森主演：任达华方中信千叶真一白田久子彭敬慈萧正楠时间：90分钟类型：动作上映日期：2004-11-4 官方网站：http://www.bakuretsu.jp/ 语言：国语字幕：外挂中/英剧情：（转自世纪环球在线）某国际机场，来参加国际会议的邻埠高级官员容大刚正在与众多记者畅谈参会感想，突然，一个神情冷漠的美貌女子从人群中闪出，只见她拔出手枪，对准容大刚连开三枪，场内一片大乱。机场刺杀案引起了警方极大的震惊，派来高级警务人员姚天明（方中信饰）协助特警队张志诚(任达华饰)警司侦破此案。经过排查，行刺者是某国际恐怖组织的成员，名叫北条真理（白田久子饰）。材料显示：北条真理生于日本的一个幸福的家庭，三岁时被某国际恐怖组织首领“奥多桑”（千叶真一饰）看中，把她掳走，通过洗脑、训练，使她成为恐怖组织的高级杀手。这次行动，她以记者身份潜入机场，射伤了目标，自己也因此受伤被俘。就在警方全力破案的同时，某国际恐怖组织的首领“奥多桑”带领部下悄悄潜入该城，显然，他对上一次行的刺杀行动很不满意，准备亲自上阵了。在他的指挥下，恐怖分子残忍的杀死了姚天明的太太，并绑架了他的儿子，借此要挟姚天明杀死北条真理，姚天明在万般无奈中，执行了“奥多桑”的命令，“击毙”、劫持了北条真理，一步步走进“奥多桑”精心设下的圈套，并因此被警方通缉。姚天明一边躲避着警方的追捕，一边苦苦寻找“奥多桑”的足迹，寻机解救被绑架的儿子；幸免于难的北条真理与姚天明从对立变成唇齿相依；在追击中渐渐恢复了记忆，认出了“奥多桑”安插在警务队伍中的亲信——张志诚警司；令他们百思不得其解的是，张警司本身就是负责保护容大刚的警卫人员，由他执行刺杀活动，不是更稳妥吗？为什麼还要派遣北条真理进行明目张胆的刺杀活动？随着事态的发展，无意中，姚天明在“奥多桑”钟爱的《孙子兵法》一书中发现了更大的秘密——可怕的第六计…… 转载于:https://www.cnblogs.com/Silence/archive/2004/11/08/61332.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_30240349/article/details/98266532。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-05-10 09:20:27

618

转载

Shell

Shell脚本中的内存泄漏现象：Linux系统环境下变量管理、无限循环与文件描述符的影响及监控与优化策略

...Shell脚本的内存管理其实大多时候是悄无声息地被操作系统内核一手包办了。不过呢，有些特殊情况下，如果咱们编程时不注意养成好习惯，或者让Shell脚本去处理那种耗时特别长的任务，就可能把系统资源紧紧拽在手里不肯放，这就跟内存泄漏带来的效果差不多，会让系统觉得“我怎么老觉得内存不够用啊”。本文将深入探讨这一现象，并通过实例代码进行剖析。 2. Shell脚本与内存管理首先，澄清一点：严格意义上，Shell脚本本身并不直接分配和释放内存，其变量、数组等存储结构的生命周期一般仅限于执行过程，退出脚本后这些内容理论上会被自动回收。不过呢，Shell这个家伙是个解释型的语言，每当你给变量赋个新值，它就屁颠屁颠地创建出一个新的字符串对象。假如你在脚本里头频繁地生成临时变量，又没把握好度，特别是在那些要跑很久的脚本中，可就要小心了。这么搞下去，系统内存可能就像被小偷一点点顺走一样，慢慢就被榨干喽！ 3. 示例一无限循环导致的内存累积 bash !/bin/bash 这是一个看似无害的无限循环 while true do 每次循环都创建一个局部变量并赋值 local test="This is a large string that keeps growing the memory footprint." done 上述脚本中，虽然local关键字使得变量仅在当前作用域有效，但在每一次循环迭代中，系统仍会为新创建的字符串分配内存空间。若该脚本持续运行，将不断积累内存消耗，类似于内存泄漏的现象。 4. 示例二未关闭的文件描述符与内存泄漏在Shell脚本中，打开文件而不关闭也会间接引发内存问题，尽管这更多是因为资源泄露而非纯粹的内存泄漏。 bash !/bin/bash 打开多个文件但不关闭 for i in {1..1000}; do exec 3<> /path/to/large_file.txt done 此处并未执行"exec 3>&-"关闭文件描述符每个未关闭的文件描述符都会占用一定内存资源，尤其是当文件较大时，缓冲区的占用将更加显著。因此，确保在使用完文件后正确关闭它们至关重要。 5. 如何检测和避免Shell脚本中的“内存泄漏” - 监控内存使用：编写脚本定期检查系统内存使用情况，如利用free -m命令获取内存使用量，并结合阈值判断是否异常增长。 - 优化代码逻辑：尽量减少不必要的变量创建和重复计算，尤其在循环结构中。 - 资源清理：确保打开的文件、网络连接等资源在使用完毕后及时关闭。 - 压力测试与调试：对长期运行或复杂逻辑的Shell脚本进行负载测试，观察系统资源消耗情况，如有异常增长，应进一步排查原因。 6. 结语 Shell脚本中的“内存泄漏”问题虽不像C/C++这类手动管理内存的语言那么常见，但也值得每一位脚本开发者警惕。只有理解了问题的本质，才能在实践中防微杜渐，写出既高效又稳健的Shell脚本。下次你写脚本的时候，不妨多花点心思琢磨一下，怎么才能更巧妙地管理和释放那些隐藏在代码背后的宝贵资源。毕竟，真正牛掰的程序员不仅要会妙手生花地创造，更要懂得像呵护自家花园一样，精心打理他们所依赖着的每一份“土壤”。 --- 以上只是一个初步的框架和示例，实际撰写时可针对每个部分展开详细讨论，增加更多的代码示例以及实战技巧，以满足不少于1000字的要求。同时呢，咱得保持大白话交流，时不时丢出自己的独特想法和一些引发思考的小问题，这样更能帮助读者更好地get到重点，也能让他们更乐意参与进来，像朋友聊天一样。

2023-01-25 16:29:39

月影清风

Kibana

如何在Kibana中利用搜索栏、时间过滤器和索引模式进行数据切片

...片，成功优化了其库存管理系统。通过对历史销售数据进行深入分析，该平台发现某些商品在特定季节的销量激增，而另一些商品则面临长期积压的风险。基于这些洞察，该平台调整了库存策略，减少了滞销品的采购量，增加了热销商品的备货量，从而显著提升了运营效率和盈利能力。此外，他们还利用Kibana的时间过滤器功能，对过去一年的销售数据进行了季度和月度分析，识别出节假日前后销售高峰的特点，进一步优化了促销活动的时间安排和资源分配。这项成功的案例不仅展示了Kibana在数据切片方面的强大功能，也为企业在实际业务中应用大数据技术提供了宝贵的参考。与此同时，另一家大型连锁超市也在Kibana的帮助下实现了顾客行为分析的突破。通过分析顾客购物篮中的商品组合，超市发现了多个潜在的交叉销售机会。例如，当顾客购买某种饮料时，他们往往也会选择同品牌的零食。基于这一发现，超市在Kibana的可视化工具支持下，设计了一系列有针对性的促销方案，不仅提高了单次交易金额，还增强了顾客的购物体验。这些举措使得超市的整体业绩有了显著提升，同时也为其他零售商提供了借鉴经验。这两项案例不仅证明了Kibana在商业领域的广泛应用前景，也为其他企业如何利用大数据技术优化业务流程提供了宝贵的经验和启示。随着更多企业的加入，Kibana将发挥更大的作用，帮助企业从海量数据中挖掘出更多的价值。

2024-10-28 15:42:51

飞鸟与鱼

转载文章

[转载]bzoj #4827 礼物（FFT）（HNOI2017）

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。标签：FFT Description 我的室友最近喜欢上了一个可爱的小女生。马上就要到她的生日了，他决定买一对情侣手环，一个留给自己，一个送给她。每个手环上各有 n 个装饰物，并且每个装饰物都有一定的亮度。但是在她生日的前一天，我的室友突然发现他好像拿错了一个手环，而且已经没时间去更换它了！他只能使用一种特殊的方法，将其中一个手环中所有装饰物的亮度增加一个相同的自然数 c（即非负整数）。并且由于这个手环是一个圆，可以以任意的角度旋转它，但是由于上面装饰物的方向是固定的，所以手环不能翻转。需要在经过亮度改造和旋转之后，使得两个手环的差异值最小。在将两个手环旋转且装饰物对齐了之后，从对齐的某个位置开始逆时针方向对装饰物编号 1,2,…,n，其中 n 为每个手环的装饰物个数，第 1 个手环的 i 号位置装饰物亮度为 xi，第 2 个手环的 i 号位置装饰物亮度为 yi，两个手环之间的差异值为(参见输入输出样例和样例解释)： ∑ni=1(xi−yi)2∑i=1n(xi−yi)2 麻烦你帮他计算一下，进行调整（亮度改造和旋转），使得两个手环之间的差异值最小，这个最小值是多少呢？ Input 输入数据的第一行有两个数n, m，代表每条手环的装饰物的数量为n，每个装饰物的初始亮度小于等于m。接下来两行，每行各有n个数，分别代表第一条手环和第二条手环上从某个位置开始逆时针方向上各装饰物的亮度。 1≤n≤50000, 1≤m≤100, 1≤ai≤m Output 输出一个数，表示两个手环能产生的最小差异值。注意在将手环改造之后，装饰物的亮度可以大于 m。不妨设第一个手环为S，第二个手环为T，则题意变为求∑(Si−Ti+k+C)2∑(Si−Ti+k+C)2 的最小值我们将上式展开，可以得到 ∑(S2i+T2i+k+C2+2∗C(Si−Ti+k)−2∗SiTi+k)∑(Si2+Ti+k2+C2+2∗C(Si−Ti+k)−2∗SiTi+k) 进一步得到 ∑S2i+∑T2i+n∗C2+2∗c∗∑(Si−Ti)−2∗∑SiTi+k∑Si2+∑Ti2+n∗C2+2∗c∗∑(Si−Ti)−2∗∑SiTi+k 先抛开CC 不看，我们发现只有∑SiTi+k ∑ S i T i + k 不是常数如何求∑SiTi+k∑SiTi+k 最大值呢？标准套路：将T数组反转，求出S与T的卷积，不难发现，∑SiTi+k∑SiTi+k 对应每一个k的取值，都是卷积中两个相差n次的项的系数之和，这里可以用FFT，将复杂度降到O(nlogn)。求完∑SiTi+k∑SiTi+k 最大值后，我们发现只有关于C的二次项与一次项，直接用二次函数求最值的方法即可，注意C只能为整数。 /Problem: 4827User: P1atformLanguage: C++Result: AcceptedTime:592 msMemory:9108 kb/include<cstdio>include<algorithm>include<cstring>include<iostream>include<cmath>define N 200000define INF 1000000000define pi acos(-1.0)using namespace std;typedef long long ll;ll n,m,M,p=0ll,q=0ll,z=0ll,ans=INF,r[N+50],x,l;struct com{double x,y;inline com operator +(com b){com ret;ret.x=x+b.x,ret.y=y+b.y;return ret;}inline com operator -(com b){com ret;ret.x=x-b.x,ret.y=y-b.y;return ret;}inline com operator (com b){com ret;ret.x=xb.x-yb.y,ret.y=xb.y+yb.x;return ret;} }s[N+50],t[N+50]; template<class _T> inline void read(_T &x){x=0;char ch=getchar();int f=0;while (!isdigit(ch)) {if (ch=='-') f=1;ch=getchar();}while (isdigit(ch)) x=(x<<3)+(x<<1)+ch-'0',ch=getchar();if (f) x=-x; } inline void fft(com a[],int k){for (int i=1;i<n;i++) if (i<r[i]) swap(a[i],a[r[i]]);for (int i=1;i<n;i<<=1){com w,wn,X,Y;wn.x=cos(pi/i),wn.y=ksin(pi/i);for (int j=0;j<n;j+=(i<<1)){w.x=1,w.y=0;for (int _=0;_<i;_++,w=wwn){X=a[j+_],Y=wa[j+_+i];a[j+_]=X+Y,a[j+_+i]=X-Y;} } }if (k==-1) for (int i=0;i<n;i++) a[i].x/=n;}int main(){read(n),n--,read(M),memset(s,0,sizeof(s)),memset(t,0,sizeof(t));for (int i=0;i<=n;i++) read(x),p+=xx,q+=x,s[i].x=x;for (int i=0;i<=n;i++) read(x),p+=xx,q-=x,t[n-i].x=x;for (m=2n,n=1;n<=m;n<<=1) l++;for (int i=1;i<n;i++) r[i]=(r[i>>1]>>1)|((i&1)<<(l-1));fft(s,1),fft(t,1);for (int i=0;i<=n;i++) s[i]=s[i]t[i];fft(s,-1),n=m/2,z=(ll)(s[n].x+0.5);for (int i=1;i<=n;i++) z=max(z,(ll)(s[i-1].x+0.5)+(ll)(s[i+n].x+0.5));for (int i=-M;i<=M;i++) ans=min(ans,p-2z+i((n+1)i+2q));printf("%lld\n",ans);} 本篇文章为转载内容。原文链接：https://blog.csdn.net/P1atform/article/details/79324409。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-01-20 17:51:37

524

转载

转载文章

[转载]用Python进行数据分析之金融和经济数据应用

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。金融经济数据方面应用Python非常广泛，也可以算是用Python进行数据分析的一个实际应用。数据规整化方面的应用时间序列与截面对齐在处理金融数据时，最费神的一个问题就是所谓的“数据对齐” （data alignment）问题。两个相关的时间序列的索引可能没有很好的对齐，或两个DataFrame对象可能含有不匹配的列或行。 Pandas可以在算术运算中自动对齐数据。在实际工作中，这不仅能为你带来极大自由度，而且还能提升工作效率。如下，看这个两个DataFrame分别含有股票价格和成交量的时间序列：假设你想要用所有有效数据计算一个成交量加权平均价格（为了简单起见，假设成交量数据是价格数据的子集）。由于pandas会在算术运算过程中自动将数据对齐，并在sum这样的函数中排除缺失数据，所以我们只需编写下面这条简洁的表达式即可：由于SPX在volume中找不到，所以你随时可以显式地将其丢弃。如果希望手工进行对齐，可以使用DataFrame的align方法，它返回的是一个元组，含有两个对象的重索引版本：另一个不可或缺的功能是，通过一组索引可能不同的Series构建一个DataFrame。跟前面一样，这里也可以显式定义结果的索引（丢弃其余的数据）：时间和“最当前”数据选取假设你有一个很长的盘中市场数据时间序列，现在希望抽取其中每天特定时间的价格数据。如果数据不规整（观测值没有精确地落在期望的时间点上），该怎么办？在实际工作当中，如果不够小心仔细的话，很容易导致错误的数据规整化。看看下面这个例子：利用Python的datetime.time对象进行索引即可抽取出这些时间点上的值：实际上，该操作用到了实例方法at_time（各时间序列以及类似的DataFrame对象都有）：还有一个between_time方法，它用于选取两个Time对象之间的值：正如之前提到的那样，可能刚好就没有任何数据落在某个具体的时间上（比如上午10点）。这时，你可能会希望得到上午10点之前最后出现的那个值：如果将一组Timestamp传入asof方法，就能得到这些时间点处（或其之前最近）的有效值（非NA）。例如，我们构造一个日期范围（每天上午10点），然后将其传入asof：拼接多个数据源在金融或经济领域中，还有几个经常出现的合并两个相关数据集的情况： ·在一个特定的时间点上，从一个数据源切换到另一个数据源。 ·用另一个时间序列对当前时间序列中的缺失值“打补丁”。 ·将数据中的符号（国家、资产代码等）替换为实际数据。第一种情况：其实就是用pandas.concat将两个TimeSeries或DataFrame对象合并到一起：其他：假设data1缺失了data2中存在的某个时间序列： combine_first可以引入合并点之前的数据，这样也就扩展了‘d’项的历史： DataFrame也有一个类似的方法update，它可以实现就地更新。如果只想填充空洞，则必须传入overwrite=False才行：上面所讲的这些技术都可实现将数据中的符号替换为实际数据，但有时利用DataFrame的索引机制直接对列进行设置会更简单一些：收益指数和累计收益在金融领域中，收益（return）通常指的是某资产价格的百分比变化。一般计算两个时间点之间的累计百分比回报只需计算价格的百分比变化即可：对于其他那些派发股息的股票，要计算你在某只股票上赚了多少钱就比较复杂了。不过，这里所使用的已调整收盘价已经对拆分和股息做出了调整。不管什么样的情况，通常都会先算出一个收益指数，它是一个表示单位投资（比如1美元）收益的时间序列。从收益指数中可以得出许多假设。例如，人们可以决定是否进行利润再投资。我们可以利用cumprod计算出一个简单的收益指数：得到收益指数之后，计算指定时期内的累计收益就很简单了：当然了，就这个简单的例子而言（没有股息也没有其他需要考虑的调整），上面的结果也能通过重采样聚合（这里聚合为时期）从日百分比变化中计算得出：如果知道了股息的派发日和支付率，就可以将它们计入到每日总收益中，如下所示：本篇文章为转载内容。原文链接：https://blog.csdn.net/geerniya/article/details/80534324。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-16 19:15:59

323

转载

转载文章

[转载]斯大林格勒拖拉机厂LCA项目研制成功

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。什么是LCA? 话不多说,同志们先来康康LCA是什么东西.(逃 LCA“光辉”是印度斯坦航空公司(HAL)为满足印度空军需要研制的单座单发轻型全天候超音速战斗攻击机，主要任务是争夺制空权、近距支援，是印度自行研制的第一种高性能战斗机。------摘自百度百科当然,同志们认识的LCA可不是那个研制了三十年的烂玩意. 在信息学竞赛中,LCA指的是"Lowest Common Ancestors",即"最近公共祖先".算法目的是在一颗有根树中,求出结点\(x\)和\(y\)最近的公共祖先. 那么什么是最近的公共祖先呢?斯大林格勒的拖拉机工人们给出了这样一幅图: 首先我们得理解祖先的概念.对与任意一个树上的结点,与它有亲缘关系,且深度比它小的结点都是它的祖先. 在这幅图中,3号结点的祖先为2和1,6号结点的祖先为5和1,所以它们有公共的祖先1,所以说3和6的LCA为1. 再举一个例子,3结点的祖先为2和1,4号结点的祖先为2和1,它们有公共祖先2和1,但是2是距离它们最近的祖先,所以说3和4的LCA为2. 怎样建设求出LCA? 求LCA一般可用到倍增,Tarjan(不是用于缩点那个Tarjan)这两种算法,在这里一一讲解. 倍增版LCA 主体思想(请勿联想到某金姓领导人) 倍增是一种二进制拆分的思想,其已广泛应用于ST表,求解LCA等算法,为我国生产力的发展,推进共产主义的早日实现做出了巨大贡献. 实现方式类比ST表的实现方式,同志们可以设\(path[i][j]\)为结点i向上跳\(2^j\)后到达的结点.显然,\(path[i][0]\)就是\(i\)结点的父亲. 那么如何进行二进制拆分呢?显然,\(path[i][j-1]\)向上再跳\(2^{j-1}\)次后到达的结点就是\(path[i][j]\). 于是同志们可以这样预处理: path[i][j]=path[f[i][j-1]][j-1]; 意为:\(i\)号结点向上跳\(2^j\)个长度到达的结点,等于\(i\)号结点向上跳\(2^{j-1}\)个结点到达的结点再向上跳\(2^{j-1}\)个结点. 然后将两个结点提至同一深度,不断地向上跳即可求出它们的LCA. 建设求出LCA的具体步骤进行预处理. 把结点x和y调整至同一高度. 将结点x和y同时向上调整,保持深度一致且二点不相会.具体地说,就是将\(x\)和\(y\)以此向上走\(k\)=\(2^{logn}\),...,\(2^1\),\(2^0\)步,如果\(path[x][k]\)!=\(path[y][k]\)(即两点还未相会),就令\(x\)=\(path[x][k]\),\(y\)=\(path[y][k]\). 这时\(x\)与\(y\)只差一步就相会了,返回\(path[x][0]\),即\(x\)的父亲,即为\(x\)和\(y\)的LCA. 该算法的时间复杂度为\(O(log2(Depth))\) 模板题代码: include<cstdio>include<cstring>include<algorithm>include<iomanip>include<vector>using namespace std;struct edge{int next,to;}e[1000010];int n,m,s,size;int head[500010],depth[500010],path[500010][51];void EdgeAdd(int,int);int LCA(int,int);void DFS(int,int);int main(){memset(head,-1,sizeof(head));scanf("%d%d%d",&n,&m,&s);for(int _=1;_<=n-1;_++){int father,son;scanf("%d%d",&father,&son);EdgeAdd(father,son);EdgeAdd(son,father);}DFS(s,0);for(int _=1;_<=m;_++){int a,b;scanf("%d%d",&a,&b);printf("%d\n",LCA(a,b));}return 0;}void EdgeAdd(int from,int to){e[++size].to=to;e[size].next=head[from];head[from]=size;}void DFS(int from,int father){depth[from]=depth[father]+1;path[from][0]=father;for(int _=1;(1<<_)<=depth[from];_++){path[from][_]=path[path[from][_-1]][_-1];}for(int _=head[from];_!=-1;_=e[_].next){int to=e[_].to;if(to!=father){DFS(to,from);} }}int LCA(int a,int b){if(depth[a]>depth[b]){swap(a,b);}for(int _=20;_>=0;_--){if(depth[a]<=depth[b]-(1<<_)){b=path[b][_];} }if(a==b){return a;}for(int _=20;_>=0;_--){if(path[a][_]==path[b][_]){continue;}else{a=path[a][_];b=path[b][_];} }return path[a][0];} Tarjan版LCA Tarjan版的LCA是离线的,而上文介绍的倍增版LCA是在线的,所以说如果不是直接输出LCA的话,需要一个数组来记录它. 主体思想从根结点遍历这棵树,遍历到每个结点并使用并查集记录父子关系. 实现方式用并查集记录父子关系,将遍历过的点合并为一颗树. 若两个结点\(x\),\(y\)分别位于结点\(a\)的左右子树中,那么结点\(a\)就为\(x\)与\(y\)的LCA. 考虑到该结点本身就是自己的LCA的情况,做出如下修改: 若\(a\)是\(x\)和\(y\)的祖先之一,且\(x\)和\(y\)分别在\(a\)的左右子树中,那么\(a\)便是\(x\)和\(y\)的LCA. 这个定理便是Tarjan版LCA的实现基础. 具体步骤当遍历到一个结点\(x\)时,有以下步骤: 把这个结点标记为已访问. 遍历这个结点的子结点\(y\),并在回溯时用并查集合并\(x\)和\(y\). 遍历与当前结点有查询关系的结点\(z\),如果\(z\)已被访问,则它们的LCA就为\(find(z)\). 需要同志们注意的是,存查询关系的时候是要双向存储的. 该算法的时间复杂度为\(O(n+m)\) Tarjan版的LCA很少用到,但为了方便理解,这里引用了参考文献2里的代码,望原博主不要介意. 代码: include<bits/stdc++.h>using namespace std;int n,k,q,v[100000];map<pair<int,int>,int> ans;//存答案int t[100000][10],top[100000];//存储查询关系struct node{int l,r;};node s[100000];/并查集/int fa[100000];void reset(){for (int i=1;i<=n;i++){fa[i]=i;} }int getfa(int x){return fa[x]==x?x:getfa(fa[x]);}void marge(int x,int y){fa[getfa(y)]=getfa(x);}/------/void tarjan(int x){v[x]=1;//标记已访问node p=s[x];//获取当前结点结构体if (p.l!=-1){tarjan(p.l);marge(x,p.l);}if (p.r!=-1){tarjan(p.r);marge(x,p.r);}//分别对l和r结点进行操作for (int i=1;i<=top[x];i++){if (v[t[x][i]]){cout<<getfa(t[x][i])<<endl;}//输出} }int main(){cin>>n>>q;for (int i=1;i<=n;i++){cin>>s[i].l>>s[i].r;}for (int i=1;i<=q;i++){int a,b;cin>>a>>b;t[a][++top[a]]=b;//存储查询关系t[b][++top[b]]=a;}reset();//初始化并查集tarjan(1);//tarjan 求 LCA} 参考文献参考文献1 参考文献2 参考文献3 转载于:https://www.cnblogs.com/Lemir3/p/11112663.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_30736301/article/details/96105162。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-09 23:03:55

154

转载

Apache Atlas

Apache Atlas：利用元数据管理、标签体系与策略引擎强化数据隐私保护和合规性执行

...一款超级给力的元数据管理神器啊！它在数据治理方面的能力堪称全面，就像是企业的“数据守护神”，实实在在地为企业在应对数据隐私保护和合规性策略落地这些棘手问题时，提供了强大无比的支持。 1. Apache Atlas简介 Apache Atlas是一个开源、可扩展的企业级元数据管理系统，它构建于Hadoop生态系统之上，能够集中管理和分析跨系统、跨平台的海量数据元数据。使用Atlas，企业能够像侦探一样追踪数据的来龙去脉，给数据贴上各种分类标签，严格执行数据安全规矩，并且时刻盯着数据使用情况，这样一来，就能轻轻松松地把数据隐私和合规性管得妥妥的。 1.1 数据隐私保护 Apache Atlas通过精细的标签体系（如PII, PHI等）来标识敏感数据，并结合角色和权限控制，确保只有授权用户才能访问特定类型的数据。例如： java // 创建一个表示个人身份信息(PII)的标签定义 EntityDefinition piiTagDef = new EntityDefinition(); piiTagDef.setName("PII"); piiTagDef.setDataType(Types.STRING_TYPE); // 添加描述并保存标签定义 AtlasTypeDefStore.createOrUpdateTypeDef(piiTagDef); // 将某个表标记为包含PII Entity entity = atlasClient.getEntityByGuid(tableGuid); entity.addTrait(new Trait("PII", Collections.emptyMap())); atlasClient.updateEntity(entity); 这段代码首先创建了一个名为"PII"的标签定义，然后将此标签应用到指定表实体，表明该表存储了个人身份信息。这样，在后续的数据查询或处理过程中，可以通过标签筛选机制限制非授权用户的访问。 1.2 合规性策略执行 Apache Atlas的另一大优势在于其支持灵活的策略引擎，可根据预设规则自动执行合规性检查。例如，我们可以设置规则以防止未经授权的地理位置访问敏感数据： java // 创建一个策略定义 PolicyDefinition policyDef = new PolicyDefinition(); policyDef.setName("LocationBasedAccessPolicy"); policyDef.setDescription("Restrict access to PII data based on location"); policyDef.setModule("org.apache.atlas.example.policies.LocationPolicy"); // 设置策略条件与动作 Map config = new HashMap<>(); config.put("restrictedLocations", Arrays.asList("CountryA", "CountryB")); policyDef.setConfiguration(config); // 创建并激活策略 AtlasPolicyStore.createPolicy(policyDef); AtlasPolicyStore.activatePolicy(policyDef.getName()); 这个策略会基于用户所在的地理位置限制对带有"PII"标签数据的访问，如果用户来自"CountryA"或"CountryB"，则不允许访问此类数据，从而帮助企业在数据操作层面满足特定的地域合规要求。 2. 深入理解和探索在实际运用中，Apache Atlas不仅提供了一套强大的API供开发者进行深度集成，还提供了丰富的可视化界面以直观展示数据的流动、关联及合规状态。这种能让数据“亮晶晶”、一目了然的数据治理体系，就像给我们的数据世界装上了一扇大窗户，让我们能够更直观、更全面地掌握数据的全貌。它能帮我们在第一时间发现那些潜藏的风险点，仿佛拥有了火眼金睛。这样一来，我们就能随时根据实际情况，灵活调整并不断优化咱们的数据隐私保护措施和合规性策略，让它们始终保持在最佳状态。总结来说，Apache Atlas凭借其强大的元数据管理能力和灵活的策略执行机制，成为了企业在大数据环境下实施数据隐私和合规性策略的理想选择。虽然机器代码乍一看冷冰冰的，感觉不带一丝情感，但实际上它背后却藏着咱们对企业和组织数据安全、合规性的一份深深的关注和浓浓的人文关怀。在这个处处都靠数据说话的时代，咱们就手拉手，带上Apache Atlas这位好伙伴，一起为数据的价值和尊严保驾护航，朝着更合规、更安全的数据新天地大步迈进吧！

2023-11-04 16:16:43

453

诗和远方

CSS

JavaScript函数未定义问题探析：作用域、定义与命名规范，以及CSS样式表基础介绍

...封装，这无疑对理解和管理作用域提出了新的要求。与此同时，为了提升代码质量和团队协作效率，遵循模块化编程理念愈发关键。Node.js生态下的CommonJS和ES6的import/export语法已成为主流模块加载方式，它们在很大程度上能够帮助开发者更好地组织代码结构，明确函数的作用域范围，从而有效避免“函数未定义”等问题的发生。此外，对于大型项目或团队开发，Linting工具如ESLint不仅可以实时检测出潜在的函数未定义错误，还能强制执行编码规范，包括命名规则、作用域使用等，从而降低代码维护成本，提高整体项目的健壮性。深入学习JavaScript运行机制，理解其背后的原型链、闭包以及异步编程模型，将有助于开发者更全面地应对各类函数调用异常，切实提升实际开发过程中的问题解决能力。同时，关注前端社区最新动态，紧跟技术发展趋势，也是每个前端开发者持续精进、防范类似“函数未定义”这类问题的有效途径。

2023-08-12 12:30:02

429

岁月静好_t

Apache Lucene

在Lucene中利用索引和TF-IDF算法生成文本自动摘要

...摘要技术应用于其文献管理系统，旨在帮助用户更快地找到最相关的研究资料。这些案例表明，文本自动摘要技术不仅在理论层面具有重要意义，而且在实际应用中也展现出巨大的潜力。随着算法的不断优化和应用场景的拓展，我们有理由相信，文本自动摘要将在更多领域发挥重要作用，为人们的生活和工作带来便利。

2024-11-13 16:23:47

夜色朦胧

转载文章

[转载]半自动化批量下载专利全文pdf傻瓜攻略

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。半自动化批量下载专利全文pdf傻瓜攻略写在前面适合人群使用前提基本思路键鼠记录器脚本前期准备脚本原理注意事项检查下载效果写在前面整理专利的时候，在专利引擎上只能一条条的下载，很是烦人。我比较讨厌这种重复性劳动，所以每次碰上都得想想办法怎么自动化操作，虽然上每次研究自动化办法的时间把都足够把活干完了哈哈。可惜的是每次搞完都没有把文档保留下来，下次有点什么事情又得从头开始。因此准备开始写写文档记录一些思路，同时如果能帮到有需要的人就更好了！适合人群不会爬虫的都可以来看看！能大概看明白python就够了。使用前提 python环境配好有梯子不排斥键鼠记录器读取键鼠记录基本思路现在的专利搜索引擎大概都有批量下载库，如果只要摘要的话直接下载就可以了。但是下载全文的时候，大部分引擎都不支持批量下载，只能一个一个点，还得输验证码。这里就不得不提到google patent了，这是我目前找到的唯一一个不需要验证码就能下载的专利引擎了（其实主要是还不会用python识别验证码）。那么有了google patent这个神器，就可以用自动办法来进行下载了。我这里使用的是按键精灵，傻瓜式操作。（没用python爬虫的原因是requests不能挂梯子。。。这里我不是很确定是什么问题，希望有大佬指点一下。anyway，主要思路就是用键鼠记录器点点点，我用的是按键精灵，理论上什么记录器都可以。 ps. 听说poxoq能批量下载，但是新版本只能下载前十页，因此我没有尝试，如果能直接下载全文的话请评论区告诉我。键鼠记录器脚本前期准备按格式排好公开号或者申请号，在编辑器中打开；把google patent搜索页面和文本编辑器分屏显示，便于操作。脚本原理以edge浏览器为例，按键精灵双击全选文本中第一行的公开号，ctrl+c复制，鼠标转到网页搜索框，ctrl+v粘贴，点搜索。等搜索完成右键download PDF，选链接另存为并确定，之后点击网页关闭下载栏，一次下载完成。返回编辑器，删除第一行的文本，把第二行提到第一行，完成复位。这样就形成了完整的一次过程，只要重复运行脚本就可以把所有专利全文下载下来。注意事项实际操作中，可能遇到两大问题：网页反馈问题这里指的是搜索后没有来到我们想象中的专利页，可能是没有搜索到专利，或该专利google patent没有pdf文档，这时如果脚本还在运行，那么显然就会错误运行。脚本运行问题主要要考虑的是命令之间的延时。延时调小确实运行速度会变快，但是如果电脑运行速度不够或者网速/服务器慢了，就会错误执行命令。我的建议是文本操作可以适当删减延时，涉及网页的部分适量增加延时，保证脚本的容错率。由此可以看出来这个脚本还是离不开人的，在跑的时候还是需要盯着点，如果有错误可以及时处理。检查下载效果看了上面的注意事项，想必你也知道这个脚本不太靠谱。那么解决这个问题的方法就是负反馈。下载完了检查一遍就好了。由于google patent下载的文件是以公开号命名的，所以对照要下载的和已下载的公开号就能看出哪些专利没有下载成功。我这里写了一个python小脚本。 import pandas as pdimport os读取待下载专利的公开号，地址修改成你自己存放的位置df = pd.read_excel("target.xlsx",header= 0, usecols= "B").drop_duplicates()取前11位作为对比（以中国专利作为参考）PublicNumber_tgt = list(map(lambda x: x[0:11],df["公开（公告）号"].to_list()))读取已下载专利的公开号，地址修改成你自己存放的位置filelist=os.listdir(r'C:\Users\mornthx\Desktop\专利全文')取前11位作为对比PublicNumber_dl = list(map(lambda x: x[0:11],filelist))比较两者差值diff = set(PublicNumber_tgt).difference(set(PublicNumber_dl))print(diff) 没下载的专利具体问题具体解决就好了。希望能帮到大家！本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_38688347/article/details/124000919。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-21 12:55:28

274

转载

转载文章

[转载]海贼王动漫全集目录分章节精彩打斗剧集

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。本文内容为海贼王全集的分章节目录介绍,还有本人在观看时候记录的精彩打斗剧集,可以方便大家直接定位想看的章节和精彩内容, 源文件已经上传到我的资源中,有需要的可以去看看, 我主页中的思维导图中内容大多从我的笔记中整理而来,相应技巧可在笔记中查找原题, 有兴趣的可以去我的主页了解更多计算机学科和考研的精品思维导图整理本文可以转载，但请注明来处，觉得整理的不错的小伙伴可以点赞关注支持一下哦！博客中思维导图的高清PDF版本,可关注公众号一起学计算机点击资源获取获得目录 0.精彩打斗剧集 0.剧场版 1.东海冒险篇1-60 2.阿拉巴斯坦篇61-130 3.TV原创篇131-143 4.空岛篇144-195 5.海军要塞G8196-206 6.长链岛篇207-226 7.司法岛篇227-325 8.旗帜猎人篇326-336 9.恐怖三桅帆船篇337-383 10.香波地群岛篇384-407 11.女儿岛篇408-421 12.海底监狱篇422-456 13.大事件篇457-504 14.新世界前篇505-516 15.鱼人岛篇517-574 16.Z的野心篇575-578 17.庞克哈萨德篇579-628 18.德雷斯罗萨篇629-746 19.银之要塞篇747-750 20.佐乌篇751-782 21.托特兰篇783-877 22.世界会议篇878-889 23.和之国篇890-至今我的更多精彩文章链接, 欢迎查看经典动漫全集目录精彩剧集海贼王动漫全集目录分章节精彩打斗剧集思维导图整理火影忍者动漫全集目录分章节精彩打斗剧集思维导图整理死神动漫全集目录分章节精彩打斗剧集思维导图整理计算机专业知识思维导图整理 Python 北理工慕课课程知识点常用代码/方法/库/数据结构/常见错误/经典思想思维导图整理 C++ 知识点清华大学郑莉版东南大学软件工程初试906 思维导图整理计算机网络王道考研经典5层结构中英对照框架思维导图整理算法分析与设计北大慕课课程知识点思维导图整理数据结构王道考研知识点经典题型思维导图整理人工智能导论王万良慕课课程知识点思维导图整理红黑树一张导图解决红黑树全部插入和删除问题包含详细操作原理情况对比各种常见排序算法的时间/空间复杂度是否稳定算法选取的情况改进思维导图整理人工智能课件算法分析课件 Python课件数值分析课件机器学习课件图像处理课件考研相关科目知识点思维导图整理考研经验--东南大学软件学院软件工程东南大学软件工程 906 数据结构 C++ 历年真题思维导图整理东南大学软件工程复试3门科目历年真题思维导图整理高等数学做题技巧易错点知识点（张宇，汤家凤）思维导图整理考研线性代数惯用思维做题技巧易错点（张宇，汤家凤）思维导图整理高等数学中值定理一张思维导图解决中值定理所有题型考研思修知识点做题技巧同类比较重要会议 1800易错题思维导图整理考研近代史知识点做题技巧同类比较重要会议 1800易错题思维导图整理考研马原知识点做题技巧同类比较重要会议 1800易错题思维导图整理考研数学课程笔记考研英语课程笔记考研英语单词词根词缀记忆考研政治课程笔记 Python相关技术知识点思维导图整理 Numpy常见用法全部OneNote笔记全部笔记思维导图整理 Pandas常见用法全部OneNote笔记全部笔记思维导图整理 Matplotlib常见用法全部OneNote笔记全部笔记思维导图整理 PyTorch常见用法全部OneNote笔记全部笔记思维导图整理 Scikit-Learn常见用法全部OneNote笔记全部笔记思维导图整理 Java相关技术/ssm框架全部笔记 Spring springmvc Mybatis jsp 科技相关小米手机小米红米历代手机型号大全发布时间发布价格常见手机品牌的各种系列划分及其特点历代CPU和GPU的性能情况和常见后缀的含义思维导图整理本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_43959833/article/details/115670535。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-12 18:13:21

740

转载

转载文章

[转载]人人网发布啵啵: 带语音滤镜的语音社交产品

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。 1月19日，人人网发布一款语音产品，名字与啪啪非常类似，叫啵啵，并号称是中国首款带语音滤镜的语音社交产品。目前其首页已经放出安卓版本，iOS版暂时还未上线。雷锋网进行了试用，跟大家介绍。从官方的介绍来看，啵啵这个应用主要有三个特色，最大的特点是声音滤镜。另外，还可以在应用内使用声音、图片和文字等元素进行信息表达。最后当然就是社交分享功能。打开应用，首先是类似Path或者啪啪那样一片红色的开始界面。界面中从下部飘起三个气泡，分别是人人登录、新浪微博登录以及直接进入使用。啵啵可以无需注册直接进入应用进行发布消息。进入主界面后，主界面以时间线的形式把用户所关注的人发的声音图片信息。每条信息中，表示声音的大图标覆盖在图片显眼位置，意味着啵啵想让用户知道声音才是这个应用的主要元素，图片是作为背景图的辅助元素出现的。另外，在背景图右边有表示喜欢和评论的按钮。主界面下方中心有十分突出显眼的声音按钮，点击后首先进入录音界面。录音完成后，应用立刻列出表示声音滤镜的各种可爱图标。选择了某种滤镜效果后，声音生成完毕。进入发布界面，此时可以选择是否添加图片。可选择把信息分享到人人网或者新浪微博。添加图片完成后，同时下方还可以添加文字描述，果然是声音、图片和文字三位一体全方位出击之应用。虽然这里主打声音，但声音、图片和文字分离的形式才更为符合人们对信息介质的认知习惯，小编一直认为啪啪中的所谓声音图片的概念只是一个伪概念。对于新用户来说，可以选择添加人人网好友或者新浪微博好友，当然，应用本身会推荐优质应用建议新用户进行关注。另外，用户的关注、喜欢等信息会出现在用户的消息中心中。这是一个同样基于信息分享的移动社交产品，其本质其实与Instagram等图片分享社区、啪啪等语音分享社区一样。啪啪本来是最先进行声音信息分享的社区，但啪啪把声音与图片混合在一起生硬造出了一个声音图片的概念，反而留下了主打声音信息分享的切入点，现在人人就抓住了这个切入点推出啵啵这个产品。事实上，从目前已经存在啵啵社区中的用户发的消息来看，其性质与啪啪并无很大区别。啵啵主打的声音滤镜功能，有一个非常非常严重的缺陷。图片分享社区的滤镜功能对图片的改造是美化，图片滤镜可以把一张普通的图片改的看上去非常的优美和文艺，因而大大增强了用户的分享欲望，让人人都有当一回摄影师的感觉。但声音滤镜做不到这样的效果，至少从啵啵中看来达不到美化的效果，目前从社区中声音信息可知，声音经过滤镜处理之后变得非常怪异。本身声音美的用户尤其女孩子必然受不了这样的声音变化，声音不好听的用户，经过处理后，结果是更加的不堪回首。所以，从实际情况来看，大多数人都会直接发布不加滤镜的原音。另外，应用中有个设置奇特的地方在于，如果发布信息时只发布声音不附加图片，这条信息的背景会有一大片的空白，效果比较差。别说应用制作者，用户们都会觉得很有违和感，因而绝大多数用户都会添加图片。这时候，啵啵变得非常类似啪啪，虽然本身，其与啪啪就相差不大。是的，这是啪啪披着声音滤镜的外衣，事实上笔者怀疑啪啪不做声音滤镜就是有声音滤镜反而丑化声音的考虑。据了解，这是本周重组后的人人公司新的无线事业部推出的两款移动应用之一。但如果说这就是一个上市大公司在移动端发力所能做到的全部，这无疑是稍让人失望的。而且，人人网能不能不要这么马虎对待自己的产品？所谓的@啵啵官博就只在1月18日发布了一条消息，之后这个微博账号再无动静。如果按照许朝军解释啪啪名字的来源：啪=口+拍，声音加图片。那啵啵又作何解？好吧，其实人人网解释是这样的：“语音产品，所以取拟声名字，明确定位”。参考：http://www.hooxiao.com/index.php?m=content&c=index&a=show&catid=19&id=14864（2013-01-21 10:04:03）本篇文章为转载内容。原文链接：https://blog.csdn.net/prairie79/article/details/8546911。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-08-17 12:49:28

487

转载

转载文章

[转载]数学与编程——概率论与数理统计

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。 D(x)=E{[x−E(x)]2} ：相对于平均数差距的平方的期望；数理统计一词的理解：mathematical stats，也即用数学的观点审视统计，为什么没有数理概率，因为概率本身即为数学，而对于统计，random variable 的性质并不全然了解，所以数理统计在一些书里又被称作：stats in inference（统计推论，已知 ⇒ 未知）概率与统计的中心问题，都是random variable， PMF与PDF PMF：probability mass function，概率质量函数，是离散型随机变量在各特定取值上的概率。与概率密度函数（PDF：probability density function）的不同之处在于：概率质量函数是对离散型随机变量定义的，本身代表该值的概率；概率密度函数是针对连续型随机变量定义的，本身不是概率（连续型随机变量单点测度为0），只有在对连续随机变量的pdf在某一给定的区间内进行积分才是概率。 notation 假设X 是一个定义在可数样本空间S 上的离散型随机变量S⊆R ，则其概率质量函数PMF为： fX(x)={Pr(X=x),0,x∈Sx∈R∖S 注意这在所有实数上，包括那些X 不可能等于的实数值上，都定义了pmf，只不过在这些X 不可能取的实数值上，fX(x) 取值为0(x∈R∖S,Pr(X=x)=0 )。离散型随机变量概率质量函数（pmf）的不连续性决定了其累积分布函数（cdf）也不连续。共轭先验（conjugate prior）所谓共轭（conjugate），描述刻画的是两者之间的关系，单独的事物不构成共轭，举个通俗的例子，兄弟这一概念，只能是两者才能构成兄弟。所以，我们讲这两个人是兄弟关系，A是B的兄弟，这两个分布成共轭分布关系，A是B的共轭分布。 p(θ|X)=p(θ)p(X|θ)p(x) p(X|θ) ：似然（likelihood） p(θ) ：先验（prior） p(X) ：归一化常数（normalizing constant）我们定义：如果先验分布（p(θ) ）和似然函数（p(X|θ) ）可以使得先验分布（p(θ) ）和后验分布（p(θ|X) ）有相同的形式（如，Beta(a+k, b+n-k)=Beta(a, b)binom(n, k)），那么就称先验分布与似然函数是共轭的（成Beta分布与二项分布是共轭的）。几个常见的先验分布与其共轭分布先验分布共轭分布伯努利分布 beta distribution Multinomial Dirichlet Distribution Gaussian, Given variance, mean unknown Gaussian Distribution Gaussian, Given mean, variance unknown Gamma Distribution Gaussian, both mean and variance unknown Gaussian-Gamma Distribution 最大似然估计（MLE）首先来看，大名鼎鼎的贝叶斯公式： p(θ|X)=p(θ)p(X|θ)p(X) 可将θ 看成欲估计的分布的参数，X 表示样本，p(X|θ) 则表示似然。现给定样本集\mathcal{D}=\{x_1,x_2,\ldots,x_N\}D={x1,x2,…,xN} ，似然函数为： p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta) p(D|θ)=∏n=1Np(xn|θ) 为便于计算，再将其转换为对数似然函数形式： \ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta) lnp(D|θ)=∑n=1Nlnp(xn|θ) 我们不妨以伯努利分布为例，利用最大似然估计的方式计算其分布的参数（pp ），伯努利分布其概率密度函数（pdf）为： f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right. fX(x)=px(1−p)1−x=⎧⎩⎨⎪⎪p,q≡1−p,0,x=1,x=0,otherwise 整个样本集的对数似然函数为： \ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta) lnp(D|θ)=∑n=1Nlnp(xn|θ)=∑n=1Nln(θxn(1−θ)1−xn)=∑n=1Nxnlnθ+(1−xn)ln(1−θ) 等式两边对\thetaθ 求导： \frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta} ∂ln(D|θ)∂θ=∑Nn=1xnθ−N1−θ+∑Nn=1xn1−θ 令其为0，得： θml=∑Nn=1xnN Beta分布 f(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1=1B(a,b)μa−1(1−μ)b−1 Beta 分布的峰值在a−1b+a−2 处取得。其中Γ(x)≡∫∞0ux−1e−udu 有如下性质： Γ(x+1)=xΓ(x)Γ(1)=1andΓ(n+1)=n! 我们来看当先验分布为 Beta 分布时的后验分布： p(θ)=1B(a,b)θa−1(1−θ)b−1p(X|θ)=(nk)θk(1−θ)n−kp(θ|X)=1B(a+k,b+n−k)θa+k−1(1−θ)b+n−k−1 对应于python中的math.gamma()及matlab中的gamma()函数（matlab中beta(a, b)=gamma(a)gamma(b)/gamma(a+b)）。条件概率（conditional probability） P(X|Y) 读作： P of X given Y ，下划线读作given X ：所关心事件 Y ：条件（观察到的，已发生的事件），conditional 条件概率的计算仍然从样本空间（sample space）的角度出发。此时我们需要定义新的样本空间（给定条件之下的样本空间）。所以，所谓条件（conditional），本质是对样本空间的进一步收缩，或者叫求其子空间。比如一个人答题，有A,B,C,D 四个选项，在答题者对题目一无所知的情况下，他答对的概率自然就是 14 ，而是如果具备一定的知识，排除了 A,C 两个错误选项，此时他答对的概率简单计算就增加到了 12 。本质是样本空间从S={A,B,C,D} ，变为了S′={B,D} 。新样本空间下P(A|排除A/C)=0,P(C|排除A/C)=0 ，归纳出来，也即某实验结果（outcome，oi ）与某条件Y 不相交，则： P(oi|Y)=0 最后我们得到条件概率的计算公式： P(oi|Y)=P(oi)P(o1)+P(o2)+⋯+P(on)=P(oi)P(Y)Y={o1,o2,…,on} 考虑某事件X={o1,o2,q1,q2} ，已知条件Y={o1,o2,o3} 发生了，则： P(X|Y)=P(o1|Y)+P(o2|Y)+0+0=P(o1)P(Y)+P(o2)P(Y)=P(X∩Y)P(Y) 条件概率与贝叶斯公式条件概率： P(X|Y)=P(X∩Y)P(Y) 贝叶斯公式： P(X|Y)=P(X)P(Y|X)P(Y) 其实是可从条件概率推导贝叶斯公式的： P(A|B)=P(B|A)=P(A|B)P(B)===P(B|A)=P(A∩B)P(B)P(A∩B)P(A)P(A∩B)P(B)P(B)P(A∩B)P(A)P(B|A)P(A|B)P(B)P(A) 证明：P(B,p|D)=P(B|p,D)P(p|D) P(B,p|D)====P(B,p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p|D) References [1] 概率质量函数本篇文章为转载内容。原文链接：https://blog.csdn.net/lanchunhui/article/details/49799405。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-02-26 12:45:04

517

转载

转载文章

[转载]快来看看啊

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。一、最新活动 1.安卓巴士诚招版主 http://www.apkbus.com/android-48399-1-1.html 2.积分商城好礼兑换 http://www.apkbus.com/plugin.php?id=auction 3.新浪官博之【创业者大会送票】活动 http://e.weibo.com/2975543812/zqr1yeSCe 4.安卓巴士项目小组 http://www.apkbus.com/group.php?gid=3 二、视频教程汇总 1.老罗Android开发视频教程 http://www.apkbus.com/Android-246-1.html 2. mars安卓开发视频教程 http://www.apkbus.com/Android-248-1.html 3.ios开发视频教程 http://iphone.apkbus.com/ 三、论坛经典内容汇总 1.美女象棋源码 http://www.apkbus.com/android-106605-1-1.html 2.Adnroid 安全卫士源码 http://www.apkbus.com/android-83653-1-1.html 3.百度地图SDK for Android 2.1版下载 http://www.apkbus.com/android-105237-1-1.html 4.eclipse不自定弹出提示（alt+/快捷键失效） http://www.apkbus.com/android-104663-1-1.html 5.Android即时通信系统的实现 http://www.apkbus.com/android-104564-1-1.html 6.Android编程14个很有用的代码片段 http://www.apkbus.com/android-104070-1-1.html 7.音乐播放器频谱绘制 http://www.apkbus.com/android-98147-1-1.html 8.Android开发手册（离线版）与（在线版）谭东编写 http://www.apkbus.com/android-97714-1-1.html 9.Sqlite+listview 的实例 http://www.apkbus.com/android-96910-1-1.html 10.iReader,QQ阅读书架效果的实现(附源码) http://www.apkbus.com/android-99130-1-1.html 11.Android 对话框(Dialog)大全 http://www.apkbus.com/android-98097-1-1.html 12.九宫格密码解锁（修正版） http://www.apkbus.com/android-97699-1-1.html 13.Android Chart图开源库AChartEngine教程 http://www.apkbus.com/android-94575-1-1.html 14.基于Socket的Android手机视频实时传输 http://www.apkbus.com/android-91517-1-1.html 15. 喷泉粒子系统源码 http://www.apkbus.com/android-106463-1-1.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/m_3251388/article/details/8888970。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-15 17:53:42

321

转载

Apache Lucene

Lucene实战：精确到模糊——编辑距离驱动的全文搜索优化与查询性能提升

...ransformer架构，如ANCE和ANCE-R，能够捕捉文档间的全局关系，提供更高质量的搜索结果，尤其在处理复杂的模糊查询时，性能优越。个性化推荐 , 根据用户的个人历史行为、偏好和上下文信息，为用户提供定制化搜索结果的过程。现代搜索引擎通过结合模糊查询和用户行为分析，提供更符合用户需求的搜索体验。

2024-06-11 10:54:39

497

时光倒流

Kotlin

Kotlin：重塑编程体验 —— 简洁性、安全性与面向对象+功能性编程的融合

...还将扩展至 Web、服务器端等更多领域。 3. 社区驱动的发展：Kotlin 社区将继续推动语言的演进，通过收集开发者反馈、引入新特性和改进现有机制，保持其在编程语言市场中的领先地位。 4. 教育与培训：随着 Kotlin 在企业中的普及，针对 Kotlin 的在线课程、书籍和教程将更加丰富，有助于更多开发者快速掌握这门语言。总之，Kotlin 作为一门高效、安全且功能丰富的编程语言，已经在开源社区和现代应用开发中占据了重要地位。随着技术的不断进步和社区的持续发展，Kotlin 有望在未来继续引领编程语言的趋势，为开发者提供更强大、更便捷的工具，促进软件开发的创新与发展。

2024-07-25 00:16:35

266

风轻云淡

转载文章

[转载]每个字符旋转随机角度的图象验证码 V2.0

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。根据jeff377 的话，竹子将这验证码改进了一下，请大家讨论看看。 -------jeff377-------------------------------------------- 我研究所的论文就是在做类神经网络处理文字辨识，以你的例子而言，旋转随意角度对辨识来说并不会有太大影响，只要抓字的重心，360度旋转抓取特微值，还是可以辨识的出来。通常文字辨识的有一个重要的动作，就是要把个别文字分割，你只要把文字弄的难分割就有不错的安全性。 --------------------------------------------------- 代码比较粗糙，而且比较菜，其中遇到一个问题，未对 Graphics 填充底色，那么文字的 ClearType 效果没有了，文字毛边比较明显，不知道为什么，谁能告诉竹子？代码相对粗糙，没有考虑更多的情况，在测试过程中，以20px 字体呈现，效果感觉还不错，只是 ClearType 效果没有了。帖几张看看 ------------ ------------ ------------ ------------ 有一些随机的不好，象下面这张相关链接: 查看 V1.0 .NET 2.0 代码如下： using System; using System.Drawing; using System.Web; namespace Oran.Image { /// <summary> /// 旋转的可视验证码图象 /// </summary> public class RotatedVlidationCode { public enum RandomStringMode { /// <summary> /// 小写字母 /// </summary> LowerLetter, /// <summary> /// 大写字母 /// </summary> UpperLetter, /// <summary> /// 混合大小写字母 /// </summary> Letter, /// <summary> /// 数字 /// </summary> Digital, /// <summary> /// 混合数字与大小字母 /// </summary> Mix } public static string GenerateRandomString(int length, RandomStringMode mode) { string rndStr = string.Empty; if (length == 0) return rndStr; //以数组方式候选字符，可以更方便的剔除不要的字符，如数字 0 与字母 o char[] digitals = new char[10] { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9' }; char[] lowerLetters = new char[26] { 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z' }; char[] upperLetters = new char[26] { 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z' }; char[] letters = new char[52]{ 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z' }; char[] mix = new char[62]{ '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z' }; int[] range = new int[2] { 0, 0 }; Random random = new Random(); switch (mode) { case RandomStringMode.Digital: for (int i = 0; i < length; ++i) rndStr += digitals[random.Next(0, digitals.Length)]; break; case RandomStringMode.LowerLetter: for (int i = 0; i < length; ++i) rndStr += lowerLetters[random.Next(0, lowerLetters.Length)]; break; case RandomStringMode.UpperLetter: for (int i = 0; i < length; ++i) rndStr += upperLetters[random.Next(0, upperLetters.Length)]; break; case RandomStringMode.Letter: for (int i = 0; i < length; ++i) rndStr += letters[random.Next(0, letters.Length)]; break; default: for (int i = 0; i < length; ++i) rndStr += mix[random.Next(0, mix.Length)]; break; } return rndStr; } /// <summary> /// 显示验证码 /// </summary> /// <param name="seed">随机数辅助种子</param> /// <param name="strLen">验证码字符长度</param> /// <param name="fontSize">字体大小</param> /// <param name="mode">随机字符模式</param> /// <param name="clrFont">字体颜色</param> /// <param name="clrBg">背景颜色</param> public static void ShowValidationCode(ref int seed, int strLen, int fontSize, RandomStringMode mode, Color clrFont, Color clrBg) { int tmpSeed; unchecked { tmpSeed = (int)(seed DateTime.Now.Ticks); ++seed; } Random rnd = new Random(tmpSeed); string text = GenerateRandomString(strLen, mode); int height = fontSize 2; // 因为字体旋转后每个字体所占宽度会所有加大，所以要加一点补偿宽度 int width = fontSize text.Length + fontSize / (text.Length - 2); Bitmap bmp = new Bitmap(width, height); Graphics graphics = Graphics.FromImage(bmp); Font font = new Font("Courier New", fontSize, FontStyle.Bold); Brush brush = new SolidBrush(clrFont); Brush brushBg = new SolidBrush(clrBg); graphics.FillRectangle(brushBg, 0, 0, width, height); Bitmap tmpBmp = new Bitmap(height, height); Graphics tmpGph = null; int degree = 40; Point tmpPoint = new Point(); for (int i = 0; i < text.Length; i++) { tmpBmp = new Bitmap(height, height); tmpGph = Graphics.FromImage(tmpBmp); // tmpGph.TextRenderingHint = System.Drawing.Text.TextRenderingHint.SingleBitPerPixelGridFit; // 不填充底色，文字 ClearType 效果不见了，why?! // tmpGph.FillRectangle(brushBg, 0, 0, tmpBmp.Width, tmpBmp.Height); degree = rnd.Next(20, 51); // [20, 50]随机角度 if (rnd.Next(0, 2) == 0) { tmpPoint.X = 12; // 调整文本坐标以适应旋转后的图象 tmpPoint.Y = -6; } else { degree = ~degree + 1; // 逆时针旋转 tmpPoint.X = -10; tmpPoint.Y = 6; } tmpGph.RotateTransform(degree); tmpGph.DrawString(text[i].ToString(), font, brush, tmpPoint); graphics.DrawImage(tmpBmp, i fontSize, 0); // 拼接图象 } //输出图象 System.IO.MemoryStream memoryStream = new System.IO.MemoryStream(); bmp.Save(memoryStream, System.Drawing.Imaging.ImageFormat.Gif); HttpContext.Current.Response.Cache.SetCacheability(HttpCacheability.NoCache); HttpContext.Current.Response.ClearContent(); HttpContext.Current.Response.ContentType = "image/gif"; HttpContext.Current.Response.BinaryWrite(memoryStream.ToArray()); HttpContext.Current.Response.End(); //释放资源 font.Dispose(); brush.Dispose(); brushBg.Dispose(); tmpGph.Dispose(); tmpBmp.Dispose(); graphics.Dispose(); bmp.Dispose(); memoryStream.Dispose(); } } } 转载于:https://www.cnblogs.com/iRed/archive/2008/06/22/1227687.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_30600197/article/details/96672619。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-05-27 09:38:56

249

转载

转载文章

[转载]机器学习经典算法决策树原理详解（简单易懂）

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。 ↑ 点击上方【计算机视觉联盟】关注我们最经典的决策树算法有ID3、C4.5、CART，其中ID3算法是最早被提出的，它可以处理离散属性样本的分类，C4.5和CART算法则可以处理更加复杂的分类问题，本文重点介绍ID3算法。 1、决策树基本流程决策树 (decision tree) 是一类常见的机器学习方法。它是对给定的数据集学到一个模型对新示例进行分类的过程。下图所示为一个流程图的决策树，长方形代表判断模块（decision block），椭圆形代表终止模块（terminating block），表示已经得出结论，可以终止运行。从判断模块引出的左右箭头称作分支（branch），可以达到另一个判断模块或终止模块。决策过程是基于树结构来进行决策的。如下图，首先检查邮件域名地址，如果地址为myEmployer.com，则将其分类为“无聊时需要阅读的邮件”。否则，则检查邮件内容里是否包含单词“曲棍球”，如果包含则归类为“需要及时处理的朋友邮件”，如果不包含则归类到“无需阅读的垃圾邮件” 流程图形式的决策树显然，决策过程的最终结论对应了我们所希望的判定结果，例如"需要阅读"或"不需要阅读”。决策过程中提出的每个判定问题都是对某个属性的"测试"，如邮件地址域名为？是否包含“曲棍球”？每个测试的结果或是导出最终结论，或是导出进一步的判定问题，其考虑范围是在上次决策结果的限定范围之内，例如若邮件地址域名不是myEmployer.com之后再判断是否包含“曲棍球”。一般的，决策树包含一个根节点、若干个内部节点和若干个叶节点。根节点包含样本全集；叶节点对应于决策结果，例如“无聊时需要阅读的邮件”。其他每个结点则对应于一个属性测试；每个节点包含的样本集合根据属性测试的结果被划分到子结点中。决策树学习基本算法显然，决策树的生成是一个递归过程.在决策树基本算法中，有三种情形会导致递归返回: (1)当前结点包含的样本全属于同一类别，无需划分; (2)当前属性集为空，或是所有样本在所有属性上取值相同，无法划分; (3)当前结点包含的样本集合为空，不能划分。 2、划分选择决策树算法的关键是如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的"纯度" (purity)越来越高。（1）信息增益信息熵 "信息熵" (information entropy)是度量样本集合纯度最常用的一种指标，定义为信息的期望。假定当前样本集合 D 中第 k 类样本所占的比例为 ,则 D 的信息熵定义为： H(D)的值越小，则D的纯度越高。信息增益一般而言，信息增益越大，则意味着使周属性来进行划分所获得的"纯度提升"越大。因此，我们可用信息增益来进行决策树的划分属性选择，信息增益越大，属性划分越好。以西瓜书中表 4.1 中的西瓜数据集 2.0 为例，该数据集包含17个训练样例，用以学习一棵能预测设剖开的是不是好瓜的决策树.显然，。在决策树学习开始时，根结点包含 D 中的所有样例，其中正例占，反例占信息熵计算为：我们要计算出当前属性集合{色泽，根蒂，敲声，纹理，脐部，触感}中每个属性的信息增益。以属性"色泽"为例，它有 3 个可能的取值: {青绿，乌黑，浅自}。若使用该属性对 D 进行划分，则可得到 3 个子集，分别记为：D1 (色泽=青绿)， D2 (色泽2=乌黑)， D3 (色泽=浅白)。子集 D1 包含编号为 {1，4，6，10，13，17} 的 6 个样例，其中正例占 p1=3/6 ，反例占p2=3/6； D2 包含编号为 {2，3，7，8， 9，15} 的 6 个样例，其中正例占 p1=4/6 ，反例占p2=2/6； D3 包含编号为 {5，11，12，14，16} 的 5 个样例，其中正例占 p1=1/5 ，反例占p2=4/5；根据信息熵公式可以计算出用“色泽”划分之后所获得的3个分支点的信息熵为：根据信息增益公式计算出属性“色泽”的信息增益为（Ent表示信息熵）：类似的，可以计算出其他属性的信息增益：显然，属性"纹理"的信息增益最大，于是它被选为划分属性。图 4.3 给出了基于"纹理"对根结点进行划分的结果，各分支结点所包含的样例子集显示在结点中。然后，决策树学习算法将对每个分支结点做进一步划分。以图 4.3 中第一个分支结点( "纹理=清晰" )为例，该结点包含的样例集合 D 1 中有编号为 {1, 2, 3, 4, 5, 6, 8, 10, 15} 的 9 个样例，可用属性集合为{色泽，根蒂，敲声，脐部，触感}。基于 D1计算出各属性的信息增益： "根蒂"、 "脐部"、 "触感" 3 个属性均取得了最大的信息增益，可任选其中之一作为划分属性.类似的，对每个分支结点进行上述操作，最终得到的决策树如圈 4.4 所示。 3、剪枝处理剪枝 (pruning)是决策树学习算法对付"过拟合"的主要手段。决策树剪枝的基本策略有"预剪枝" (prepruning)和"后剪枝 "(post" pruning) [Quinlan, 1993]。预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。往期回顾 ● 带你详细了解机器视觉竞赛—ILSVRC竞赛 ● 到底什么是“机器学习”？机器学习有哪些基本概念？（简单易懂） ● 带你自学Python系列（一）：变量和简单数据类型（附思维导图） ● 带你自学Python系列（二）：Python列表总结-思维导图 ● 2018年度最强的30个机器学习项目！ ● 斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能（附195页PDF） ● 一文详解计算机视觉的广泛应用：网络压缩、视觉问答、可视化、风格迁移本篇文章为转载内容。原文链接：https://blog.csdn.net/Sophia_11/article/details/113355312。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-08-27 21:53:08

284

转载

转载文章

[转载]重学音视频？认识 MP4 视频（下）

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。接上一篇文章：重学音视频？认识 MP4 视频（上）文章的提到的资料都放在知识星球了，后续的内容更新还是以星球为主，也会放出一些干货在公众号的，现在加入星球还是优惠价，后面干货越多，涨价的可能性就越大了。一个关于音视频领域专业问答的小圈子！！为了方便大家的检索，我把专栏内容放在网页上了，地址如下： https://glumes.com/player_book/ 如图所示，就能访问专栏啦。以下就是专栏的内容：在前文介绍了 MP4 标准的缘由，现在要详细了解一下它的格式。还是回到这张图：重点看这里：第十四部分（ISO/IEC 14496-14）：MPEG-4（即MP4）文件格式：定义基于第十二部分的用于存储MPEG-4内容的视频文档格式。也就是说 MP4 文件格式是定义在 MPEG-4 第 12 部分基础之上的，而第 12 部分的内容描述如下：第十二部分（ISO/IEC 14496-12）：基于ISO的媒体文件格式：定义一个存储媒体内容的文件格式。所以，要学习 MP4 文件格式，要先了解第 12 部分的内容，关于 MPEG-4 第 12 部分的文档，我也同步放在知识星球里面了，有需要的可以去下载。网上关于 MP4 文件格式的文章内容，基本都可以在第 12 部分中找到，可以说它才是学习知识的源头，当做教科书来学肯定没问题。有官方文档的情况下，会尽量根据文档来学习，而不是盲目的参考网络博客，那样得到的知识体系太零散了。 MP4 文件组成摘录一段官方文档的内容：关于 MP4 文件格式，参照文档说明：文件是由一系列叫做 Box 的对象组成的，所有的数据都存储在 Box 中。官方文档中把这些由对象结构组成的文件叫做 Object-structured File ，算是一个比较广义的概念，但我们就当做 MP4 格式好了，狭义地理解一下，并且这种文件格式必须要包含 File Type 类型的 Box 。 MP4 中的 Box MP4 中的 Box 有很多类型，每个类型中的 Box 代表的含义还不相同，但他们的基础结构还是相同的，继续往下看文档：每个 Box 是由 Header 和 Data 两部分组成的，Header 中包含了很多标识信息，而 Data 可以是纯数据也可以是其他的子 Box 。参照文档内容，Header 中包含了 Box 的大小 Size 和类型 Type。关于 Size 的说明，参考文档： size 字段包含了 Box 和子 Box 的大小，如果 size 为 1 ，说明实际的大小在 largesize 字段中，如果 size 为 0 ，说明这是文件最后一个 Box 了。关于 Type 的说明，参考文档： type 字段表示该 Box 的类型，标准的 Box 类型都是用四个字母来表示的，如果是用户自定义的类型，就用 uuid 来表示。另外，要强调一下 Box 的字节序是网络字节序，也就是大端序，关于 Box 结构的伪代码文档中也给出了：根据伪代码再看 Box 的结构定义就一目了然了。 MP4 中的 FullBox Box 可以说是所有 Box 类型的基类，接下来要了解它的第一个子类 FullBox 。 FullBox 在 Box 的基础上多了 version 和 flags 字段。其中 version 字段表示 Box 的版本，flags 字段是标志位。如果 Box 遇到了无法识别的 version 或者 type 字段，就应该跳过或者忽略。 MP4 中更多的 Box MP4 中还有很多类型的 Box ，其实有些 Box 相当重要，甚至面试中还会经常问到，下面从文档中给大家摘录一下所有的 Box 类型。这些内容在文档中都有，自行下载了，网络的一些资料可能还没有文档全面呢。后面我们也会继续讲解这些 Box 类型的，以及使用工具来查看 Box 信息，这节就先到这里啦！！！众所周知，开通了知识星球，邀请了一些在头条、快手等知名IT企业从事过音视频研发的朋友们做专业咨询，涉及的范围比较广，包括 Android/iOS 开发、Camera 开发、视频编辑、在线直播、WebRTC、播放器、OpenGL、C++ 等等，基本上涵盖了音视频工程领域的绝大部分内容。关于音视频入门如何学习，学习了 FFmpeg 之后又该怎么办，跳槽选择哪个方向比较好，程序员职业软技能等等之类的问题，更是会以行业一线开发人员的角度帮你认真分析，出谋划策。力求做到有问必答。在知识范围内，认真地对待每一个提问，不一定所有的问题都能答案，但每一个答案都是详细思考过的。更多开发资料、博客源码、文档教程都会在星球内给出，白菜价即可加入，iOS 用户可以加我微信 ezglumes 拉你进去！！！一个音视频领域专业问答的小圈子！加我微信 ezglumes 拉你入技术交流群推荐阅读：音视频开发工作经验分享 || 视频版 OpenGL ES 学习资源分享开通专辑 | 细数那些年写过的技术文章专辑 Android NDK 免费视频在线学习！！！你想要的音视频开发资料库来了推荐几个堪称教科书级别的 Android 音视频入门项目觉得不错，点个在看呗~ 本篇文章为转载内容。原文链接：https://blog.csdn.net/zhying719/article/details/124464016。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-21 17:43:21

437

转载

转载文章

[转载]一份关于机器学习中线性代数学习资源的汇总

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。摘要：本文是一份关于机器学习中线性代数学习指南，所给出的资源涵盖维基百科网页、教材、视频等，机器学习从业者可以从中选择合适的资源进行学习。对于机器学习而言，要学习的特征大多数是以矩阵的形式表示。线性代数是一门关于矩阵的数学，也是机器学习领域中的一个重要支柱。对初学者来说，线性代数可能是一个富有挑战性的难点。那么通过这篇文章，你会收获如何学习与机器学习相关的线性代数内容的相关建议与帮助。读完这篇文章，你就会了解：可以参考维基百科上的文章和线性代数教材可以学习或复习线性代数的大学课程和在线课程一些关于线性代数主题讨论的问答网站维基百科上的线性代数解释维基百科是一个伟大的网站，所有的重要主题的描述大多都是简洁、正确的。但存在的不足就是缺少更多人性化的描述，如类比等。然而，当你对线性代数有一些疑问时，我建议你首先不要从维基百科上面寻找答案。维基百科上面一些关于线性代数好的网页有以下几个：线性代数矩阵矩阵分解线性代数相关的主题列表线性代数教材强烈建议手头上有一本好的线性代数教材，并将其作为参考教材。一本好教材的好处就是书上内容的解释都应该是相一致，而缺点可以是非常昂贵的。那么如何去寻找一本好的教材呢？答案很简单，就是一些顶尖大学的本科或研究生课程所需的线性代数教材。我建议的一些基础性的教材包括一下几本（仅供参考）： Gilbert Strang，2016·第五版·线性代数概述 Sheldon Alex，2015·第三版·线性代数应该这样学 Ivan Savov，2017·没有废话的线性代数指南此外，建议的一些更高层次的教材如下： Gene Golub 和 Charles Van Loan，2012·矩阵计算 Lloyd Trefethen 和 David Bau，1997·数值线性代数另外推荐一些关于多元统计的好教材，这是线性代数和数值统计方法的集合。 Richard Johnson 和 Dean Wichern，2012·应用多元统计分析 Wolfgang Karl Hardle 和 Leopold Simar，2015·应用多元统计分析也有一些在线的书籍，这些书籍可以在维基百科线性代数词条的最后一部分内容中可以看到。线性代数大学课程大学的线性代数课程是有用的，这使得本科生学习到他们应该掌握的线性代数内容。而作为一名机器学习实践者，大学的线性代数课程内容可能超过你所需掌握的内容，但这也能为你学习机器学习相关线性代数内容打下坚实的基础。现在许多大学课程提供幻灯片的讲义、笔记等PDF电子版内容。有些大学甚至提供了预先录制的讲座视频，这无疑是珍贵的。我鼓励你通过使用大学课程教材，深入学习相关课程来加深对机器学习中特定主题的理解。而不需要完全从头学到尾，这对于机器学习从业者来说太费时间了。美国顶尖学校推荐的课程如下： Gilbert Strang·麻省理工学院·线性代数 Philip Klein·布朗大学·计算科学中的矩阵 Rachel Thomas·旧金山大学·针对编程者的线性代数计算线性代数在线课程与线性代数大学课程不同，在线课程作为远程教育而言显得不是那么完整，但这对于机器学习从业者而言学起来相当的快。推荐的一些在线课程如下：可汗学院·线性代数 edX·线性代数：前沿基础问答平台目前网络上存在大量的问答平台，读者们可以在上面进行相关话题的讨论。以下是我推荐的一些问答平台，在这里要注意，一定要记得定期访问之前发布的问题及坛友的解答。数学栈交换中的线性代数标记交叉验证的线性代数标记堆栈溢出的线性代数标记 Quora上的线性代数主题 Reddit上的数学主题 Numpy资源如果你是用Python实现相关的机器学习项目，那么Numpy对你而言是非常有帮助的。 Numpy API文档写得很好，以下是一些参考资料，读者可以阅读它们来了解更多关于Numpy的工作原理及某些特定的功能。 Numpy参考 Numpy数组创建例程 Numpy数组操作例程 Numpy线性代数 Scipy线性代数如果你同时也在寻找关于Numpy和Scipy更多的资源，下面有几个好的参考教材： 2017·用Python进行数据分析 2017·Elegant Scipy 2015·Numpy指南作者信息 Jason Brownlee，机器学习专家，专注于机器学习教育文章原标题《Top Resources for Learning Linear Algebra for Machine Learning》，作者：Jason Brownlee，译者：海棠，审阅：袁虎。原文链接干货好文，请关注扫描以下二维码：本篇文章为转载内容。原文链接：https://blog.csdn.net/yunqiinsight/article/details/79722954。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-14 09:21:43

326

转载

转载文章

[转载]采集下拉词数据

...，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。采集下拉词数据闲来无事，采集一下百度下拉数据 1 进行对应的网页分析下拉数据属于动态的数据，鼠标点击输入框出现，划出输入框消失所以先找到对应的数据包就要进行抓包操作 1.1 抓包操作发现其中的关键词，并复制打开浏览器的开发者模式（快捷键F12）并点击这个搜索按钮打开这个搜索按钮以后，进行粘贴操作并且按下回车！由图可知，只搜索到一个包，在查看这个包内容之前，应该就有90%的把握就是这个包了点开查看（没错就是这个包了）小细节：Preview是渲染之后的结果 Response是写代码请求的结果接下来我们就上代码 -- coding: UTF-8 --import jsonimport requestsfrom faker import Fakerdef get_aim(file_name):"""从文件里获取想要的关键词"""with open(file_name, mode='r', encoding='utf-8') as file:keys = file.read()return keysdef aim_letter(aim):"""获取到网页的json数据并保存到txt文件"""url = f'https://m.baidu.com/sugrec?pre=1&p=3&ie=utf-8&json=1&prod=wise&from=wise_web&sugsid=128699,138809,114177,135846,141002,138945,140853,141677,138878,137978,141200,140173,131246,132552,137743,138165,107315,138883,140259,141754,140201,138585,141650,138253,140114,136196,140325,140579,133847,140793,140066,134046,131423,137703,110085,127969,140957,141581,140593,140865,139886,138426,138941,141190,140596&net=&os=&sp=null&rm_brand=0&callback=jsonp1&wd{aim}&sugmode=2&lid=12389568409845924354&sugid=1990018821100998871&preqy=java&_=1580993331416'headers = {'User-Agent': Faker().user_agent(),'Host': 'm.baidu.com','Referer': 'https://m.baidu.com/ssid=4348023d/s?word={aim}&ts=3254538&t_kt=0&ie=utf-8&rsv_iqid=2845402975&rsv_t=daabpEKSG2wGueEO%252FnXSVz2dj3oGTk5cF1suYK9xduVIBAnyA5yo&sa=ib&rsv_pq=2845402975&rsv_sug4=5130&tj=1&inputT=2405&sugid=1990018821100998871&ss=100'}res = requests.get(url, headers=headers) 由于获取到的数据不是标准的json数据要进行字符串的删减result = json.loads(res.text.replace('jsonp1', '').strip('()')) 保存到txt文件with open(f'百度下拉词.txt', mode='a', encoding='utf-8') as file:for key in result['g']:file.write(key + '\n')def main():"""进行整合，并捕捉错误"""name = input('请输入文件的名字：')start_time = time.time()try:letter = get_aim(name).split('\n') 利用线程池加快爬取速度with concurrent.futures.ThreadPoolExecutor(max_workers=100) as executor:for l in letter:executor.submit(get_data, l)except:print('请检查文件名是否存在或者文件名是否错误！！')else: 提示用户完成并打印运行时间时间print('' 30 + f'<{name}> 百度相关词已完成' + '' 30)finally:print(time.time() - start_time)if __name__ == '__main__':main() 在此要感谢我的晨哥!!!哈哈本篇文章为转载内容。原文链接：https://blog.csdn.net/Result_Sea/article/details/104201970。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-21 12:59:26

490

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

getent passwd username - 从passwd数据库获取用户信息。