...域，尤其是大规模数据处理项目中，如使用Apache Spark构建的分布式计算框架，日志记录成为了不可或缺的一部分。哎呀，这些家伙可真是帮了大忙了！它们就像是你编程时的私人侦探，随时盯着你的代码，一有风吹草动就给你报信。特别是当你遇上疑难杂症，它们能迅速揪出问题所在，就像医生找病因一样专业。有了它们，找bug、修bug的过程变得快捷又高效，简直就像开了挂一样爽快！哎呀，咱们这篇文章啊，就是要好好聊聊在Spark这个超级棒的大数据处理工具里，咱们可能会遇到的各种小麻烦，还有呢，怎么用那些日志记录来帮咱们找到问题的根儿。你想象一下，就像你在厨房里做饭，突然发现菜炒糊了，这时候你就会看看锅底，找找是火开太大了还是调料放多了，对吧？这文章呢，就是想教你用同样的方法，在大数据的世界里，通过查看日志，找出你的Spark程序哪里出了问题，然后迅速解决它，让一切恢复正常。是不是听起来既实用又有趣？咱们这就开始吧！二、Spark错误类型概述 Spark应用程序可能遭遇多种错误类型，从内存溢出、任务失败到网络通信异常等。这些错误通常由日志系统捕获并记录下来，为后续分析提供依据。下面，我们将通过几个具体的错误示例来了解如何阅读和解析Spark日志文件。三、实例代码简单的Spark Word Count应用首先，让我们构建一个简单的Spark Word Count应用作为起点。这个应用旨在统计文本文件中单词的频率。 scala import org.apache.spark.SparkConf import org.apache.spark.SparkContext object WordCount { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Word Count").setMaster("local") val sc = new SparkContext(conf) val textFile = sc.textFile("file:///path/to/your/textfile.txt") val counts = textFile.flatMap(line => line.split(" ")) .map(word => (word, 1)) .reduceByKey(_ + _) counts.saveAsTextFile("output") sc.stop() } } 四、错误日志分析内存溢出问题在实际运行上述应用时，如果输入文本文件过大，可能会导致内存溢出错误。日志文件中可能会出现类似以下的信息： org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 37.0 failed 1 times, most recent failure: Lost task 0.3 in stage 37.0 (TID 208, localhost): java.lang.OutOfMemoryError: Java heap space 这段日志信息清晰地指出错误原因（OutOfMemoryError: Java heap space），并提供了关键细节，包括任务编号、所在节点以及错误类型。针对这一问题，可以通过增加Spark集群的内存资源或者优化数据处理逻辑来解决。五、调试策略与最佳实践 1. 使用日志级别调整日志级别（如INFO、DEBUG）可以帮助开发者在日志中获取更多详细信息。 2. 定期检查日志通过自动化工具定期检查日志文件，可以及时发现潜在问题。 3. 利用Spark UI Spark自带的Web UI提供了详细的作业监控界面，直观显示任务状态和性能指标。 4. 错误重试机制合理配置Spark任务的重试策略，避免因一次失败而影响整体进程。 5. 性能监控工具集成性能监控工具（如Prometheus、Grafana）有助于实时监控系统性能，预防内存泄漏等严重问题。六、总结与展望日志记录是Spark应用程序开发和维护过程中的关键环节。哎呀，你知道吗？程序员们在遇到bug（小错误）的时候，那可是得使出浑身解数了！他们可不是对着电脑屏幕发呆，而是会仔细地分析问题，就像侦探破案一样。找到问题的源头后，他们就开始了他们的“调试大作战”，就像是医生给病人开药一样精准。通过这些努力，他们能优化代码，让程序跑得更顺畅，就像给汽车加了润滑剂，不仅跑得快，还稳当当的。这样，我们的应用就能更加可靠，用户用起来也更舒心啦！哎呀，你懂的，随着咱们每天产生的数据就像自来水一样哗哗流，那处理这些数据的大数据工具就得越来越厉害才行。特别是那些记录我们操作痕迹的日志管理系统，不仅要快得跟闪电一样，操作起来还得像玩手机游戏一样简单，最好还能自己动脑筋分析出点啥有价值的信息来。这样，未来日志记录这事儿就不仅仅是记录，还能帮我们找到问题、优化流程，简直就是一大神器嘛！所以，你看，这发展方向就是越来越智能、好用、高效，让科技真正服务于人，而不是让人被科技牵着鼻子走。 --- 通过本文的探讨，我们不仅学习了如何理解和利用Spark的日志信息来诊断问题，还了解了一些实用的调试技巧和最佳实践。希望这些内容能帮助你更有效地管理你的Spark应用程序，确保其在复杂的数据处理场景下稳定运行。

2024-09-07 16:03:18

141

秋水共长天一色

HessianRPC

HessianRPC数据库连接池回收策略配置错误导致性能优化失败，动态调整解决之道

...连接池故障，导致订单处理延迟甚至部分服务中断。这一事件再次提醒我们，即使是最基础的技术模块，一旦配置不当或监控缺失，也可能成为系统瓶颈。据内部人士透露，此次故障的主要原因在于连接池的回收策略设置过于保守，未能及时释放空闲连接，加之高峰时段请求激增，使得可用连接迅速耗尽。尽管该公司事后紧急调整了相关参数，并引入了更智能的负载均衡算法，但损失的用户体验和经济成本已难以挽回。这起事故引发了业内对数据库连接池最佳实践的重新审视。实际上，类似的案例并非孤例。早在2022年，某大型金融科技公司也因连接池配置不当导致交易系统瘫痪。事后调查显示，其问题根源同样在于对连接池生命周期管理的忽视。专家指出，现代分布式系统的设计应更加注重自动化运维能力，例如通过AI驱动的监控平台实时检测连接池状态，预测潜在风险，并提前采取措施。此外，开源社区也在积极完善相关工具，如HikariCP等高性能连接池库，提供了更为精细的配置选项和诊断功能。对于开发者而言，除了掌握基本的连接池配置知识外，还需要结合实际业务场景进行压力测试，模拟各种极端情况，从而制定更具弹性的策略。同时，定期回顾和优化系统架构也是必不可少的一环。正如一位资深架构师所言：“技术迭代日新月异，但安全与稳定始终是底线。”在未来，随着更多智能化技术的应用，相信这类问题将逐步得到缓解，为企业创造更大的价值。

2025-05-14 16:14:51

风轻云淡

Mongo

MongoDB大规模数据集并行处理：键值对与NoSQL技术实操

...们要是碰上一堆数据要处理，那些老一套的查询方法啊，那可真是不够用，捉襟见肘。就像你手头一堆零钱，想买个大蛋糕，结果发现零钱不够，还得再跑一趟银行兑换整钞。那时候，你就得琢磨琢磨，是不是有啥更省力、效率更高的办法了。哎呀，你知道的，MapReduce就像一个超级英雄，专门在大数据的世界里解决难题。它就像个大厨，能把一大堆食材快速变成美味佳肴。以前，处理海量数据就像是给蜗牛搬家，慢得让人着急。现在有了MapReduce，就像给搬家公司装了涡轮增压，速度嗖嗖的，效率那叫一个高啊！无论是分析市场趋势、优化业务流程还是挖掘用户行为，MapReduce都成了我们的好帮手，让我们的工作变得更轻松，效率也蹭蹭往上涨！本文将带你深入了解MongoDB中的MapReduce，从基础概念到实际应用，再到优化策略，一步步带你掌握这门技术。 1. MapReduce的基础概念 MapReduce是一种编程模型，用于大规模数据集的并行运算。在MongoDB中，我们可以通过map()和reduce()函数实现数据的分组、转换和聚合。基本流程如下： - Map阶段：数据被分割成多个分片，每个分片经过map()函数处理，产生键值对形式的数据流。 - Shuffle阶段：键相同的数据会被合并在一起，为reduce()阶段做准备。 - Reduce阶段：针对每个键，执行reduce()函数，合并所有相关值，产生最终的结果集。 2. MongoDB中的MapReduce实践为了让你更好地理解MapReduce在MongoDB中的应用，下面我将通过一个具体的例子来展示如何使用MapReduce处理数据。示例代码：假设我们有一个名为sales的集合，其中包含销售记录，每条记录包含product_id和amount两个字段。我们的目标是计算每个产品的总销售额。 javascript // 首先，我们定义Map函数 db.sales.mapReduce( function() { // 输出键为产品ID，值为销售金额 emit(this.product_id, this.amount); }, function(key, values) { // 将所有销售金额相加得到总销售额 var total = 0; for (var i = 0; i < values.length; i++) { total += values[i]; } return total; }, { "out": { "inline": 1, "pipeline": [ {"$group": {"_id": "$_id", "total_sales": {$sum: "$value"} }} ] } } ); 这段代码首先通过map()函数将每个销售记录映射到键为product_id和值为amount的键值对。哎呀，这事儿啊，就像是这样：首先，你得有个列表，这个列表里头放着一堆商品，每一项商品下面还有一堆数字，那是各个商品的销售价格。然后，咱们用一个叫 reduce() 的魔法棒来处理这些数据。这个魔法棒能帮咱们把每一样商品的销售价格加起来，就像数钱一样，算出每个商品总共卖了多少钱。这样一来，我们就能知道每种商品的总收入啦！哎呀，你懂的，我们用out这个参数把结果塞进了一个临时小盒子里面。然后，我们用$group这个魔法棒，把数据一通分类整理，看看哪些地方数据多，哪些地方数据少，这样就给咱们的数据做了一次大扫除，整整齐齐的。 3. 性能优化与注意事项在使用MapReduce时，有几个关键点需要注意，以确保最佳性能： - 数据分区：合理的数据分区可以显著提高MapReduce的效率。通常，我们会根据数据的分布情况选择合适的分区策略。 - 内存管理：MapReduce操作可能会消耗大量内存，特别是在处理大型数据集时。合理设置maxTimeMS选项，限制任务运行时间，避免内存溢出。 - 错误处理：在实际应用中，处理潜在的错误和异常情况非常重要。例如，使用try-catch块捕获并处理可能出现的异常。 4. 进阶技巧与高级应用对于那些追求更高效率和更复杂数据处理场景的开发者来说，以下是一些进阶技巧： - 使用索引：在Map阶段，如果数据集中有大量的重复键值对，使用索引可以在键的查找过程中节省大量时间。 - 异步执行：对于高并发的应用场景，可以考虑将MapReduce操作异步化，利用MongoDB的复制集和分片集群特性，实现真正的分布式处理。结语 MapReduce在MongoDB中的应用，为我们提供了一种高效处理大数据集的强大工具。哎呀，看完这篇文章后，你可不光是知道了啥是MapReduce，啥时候用，还能动手在自己的项目里把MapReduce用得溜溜的！就像是掌握了新魔法一样，你学会了怎么给这玩意儿加点料，让它在你的项目里发挥出最大效用，让工作效率蹭蹭往上涨！是不是感觉整个人都精神多了？这不就是咱们追求的效果嘛！嘿，兄弟！听好了，掌握新技能最有效的办法就是动手去做，尤其是像MapReduce这种技术。别光看书上理论，找一个你正在做的项目，大胆地将MapReduce实践起来。你会发现，通过实战，你的经验会大大增加，对这个技术的理解也会更加深入透彻。所以，行动起来吧，让自己的项目成为你学习路上的伙伴，你肯定能从中学到不少东西！让我们继续在数据处理的旅程中探索更多可能性！

2024-08-13 15:48:45

150

柳暗花明又一村

转载文章

[转载]开放式激光振镜+运动控制器(六)：双振镜运动

...420SCAN控制器如何操作进行双振镜运动。一ZMC420SCAN硬件介绍 1.功能介绍 ZMC420SCAN总线控制器支持ECAT/RTEX总线连接，支持最多达20轴运动控制，支持直线插补、任意圆弧插补、空间圆弧、螺旋插补、电子凸轮、电子齿轮、同步跟随、虚拟轴设置等；采用优化的网络通讯协议可以实现实时的运动控制。ZMC420SCAN总线控制器支持脉冲轴/总线轴/振镜轴混合插补。 ZMC420SCAN系列运动控制器支持以太网，RS232通讯接口和电脑相连，接收电脑的指令运行，可以通过CAN总线去连接各个扩展模块，从而扩展输入输出点数或运动轴。 ZMC420SCAN系列运动控制卡的应用程序可以使用VC,VB，VS，C++，C等软件来开发，程序运行时需要动态库zmotion.dll。调试时可以把ZDevelop软件同时连接到控制器，从而方便调试、方便观察。 2.硬件接口 3.振镜控制过程激光振镜是一种专门用于激光加工领域的特殊的运动器件，激光振镜头内包含的主要元件是激光发生器，两个电机和两个振镜片，它靠两个电机分别控制两个振镜片X和Y反射激光，形成XY平面的运动，这两个电机使用控制器上的振镜轴接口控制。激光振镜不同于一般的电机，激光振镜具有非常小的惯量，且在运动的过程中负载非常小，只需要带动反射镜片，系统的响应非常快。 ZMC420SCAN支持XY2-100振镜协议，支持运动控制与振镜联合插补运动。上位机通过网口与控制器相连，通过XY2-100振镜协议进行控制振镜轴的运动，通过总线协议或者脉冲模式控制伺服轴运动。使用ZMC420SCAN控制器的振镜轴接口连接激光振镜头，每个振镜轴接口内包含两路振镜通道信号，分别控制振镜片X、Y的偏转，从而控制了激光打到工件的位置。 4. 控制器PWM模拟量介绍 ZMC420SCAN的外部通用输出口0-11都具有PWM输出功能，PWM 输出受正常输出功能的控制，只有输出口状态ON的时候PWM才能实际输出，这样可以用来控制激光能量。 ZMC420SCAN控制器存在两路模拟量输入输出，可进行控制激光器能量输出，模拟量精度为12位。（DA采用了内部电源） 5.控制器基本信息轴0-3为普通脉冲轴，振镜0为轴4、轴5控制振镜XY，振镜1为轴6、轴7控制XY。二C++ 进行振镜+运动控制开发 1. 新建MFC项目并添加函数库 (1)在VS2015菜单“文件”→“新建”→ “项目”，启动创建项目向导。 (2)选择开发语言为“Visual C++”和程序类型“MFC应用程序”。 (3)点击下一步即可。 (4)选择类型为“基于对话框”，下一步或者完成。 (5)找到厂家提供的光盘资料，路径如下(64位库为例)。 A.进入厂商提供的光盘资料找到“8.PC函数”文件夹，并点击进入。 B.选择“函数库2.1”文件夹。 C.选择“Windows平台”文件夹。 D.根据需要选择对应的函数库这里选择64位库。 E.解压C++的压缩包,里面有C++对应的函数库。 F.函数库具体路径如下。（6）将厂商提供的C++的库文件和相关头文件复制到新建的项目里面。 (7)在项目中添加静态库和相关头文件。 A.先右击项目文件，接着依次选择:“添加”→“现有项”。 B.在弹出的窗口中依次添加静态库和相关头文件。 (8)声明用到的头文件和定义控制器连接句柄。至此项目新建完成，可进行MFC项目开发。 2.查看PC函数手册，熟悉相关函数接口 (1)PC函数手册也在光盘资料里面，具体路径如下：“光盘资料\8.PC函数\函数库2.1\ZMotion函数库编程手册 V2.1.pdf” (2)链接控制器，获取链接句柄。 ZAux_OpenEth()接口说明： (3)振镜运动接口。为振镜运动单独封装了一个运动接口，使用movescanabs指令进行运动，采用FORCE_SPEED参数设置运动过程中的速度，运动过程中基本不存在加减速过程，支持us级别的时间控制。 3. MFC开发控制器双振镜运动例程（1）例程界面如下。（2）链接按钮的事件处理函数中调用链接控制器的接口函数ZAux_OpenEth（），与控制器进行链接,链接成功后启动定时器1监控控制器状态。 //网口链接控制器void CSingle_move_Dlg::OnOpen(){char buffer[256]; int32 iresult;//如果已经链接，则先断开链接if(NULL != g_handle){ZAux_Close(g_handle);g_handle = NULL;}//从IP下拉框中选择获取IP地址GetDlgItemText(IDC_IPLIST,buffer,255);buffer[255] = '\0';//开始链接控制器iresult = ZAux_OpenEth(buffer, &g_handle);if(ERR_SUCCESS != iresult){g_handle = NULL;MessageBox(_T("链接失败"));SetWindowText("未链接");return;}//链接成功开启定时器1SetWindowText("已链接");SetTimer( 1, 100, NULL ); } （3）通过定时器监控控制器状态。 void CSingle_move_Dlg::OnTimer(UINT_PTR nIDEvent) {// TODO: Add your message handler code here and/or call defaultif(NULL == g_handle){MessageBox(_T("链接断开"));return ;}if(1 == nIDEvent){CString string;float position = 0;ZAux_Direct_GetDpos( g_handle,m_nAxis,&position); //获取当前轴位置string.Format("振镜X1轴位置：%.2f", position );GetDlgItem( IDC_CURPOS )->SetWindowText( string );float NowSp = 0;ZAux_Direct_GetVpSpeed( g_handle,m_nAxis,&NowSp); //获取当前轴速度string.Format("振镜X1轴速度：%.2f", NowSp );GetDlgItem( IDC_CURSPEED)->SetWindowText( string );ZAux_Direct_GetDpos(g_handle, m_nAxis+1, &position); //获取当前轴位置string.Format("振镜Y1轴位置：%.2f", position);GetDlgItem(IDC_CURPOS2)->SetWindowText(string);ZAux_Direct_GetVpSpeed(g_handle, m_nAxis+1, &NowSp); //获取当前轴速度string.Format("振镜Y1轴速度：%.2f", NowSp);GetDlgItem(IDC_CURSPEED2)->SetWindowText(string);ZAux_Direct_GetDpos(g_handle, m_nAxis + 2, &position); //获取当前轴位置string.Format("振镜X2轴位置：%.2f", position);GetDlgItem(IDC_CURPOS3)->SetWindowText(string);NowSp = 0;ZAux_Direct_GetVpSpeed(g_handle, m_nAxis + 2, &NowSp); //获取当前轴速度string.Format("振镜X2轴速度：%.2f", NowSp);GetDlgItem(IDC_CURSPEED3)->SetWindowText(string);ZAux_Direct_GetDpos(g_handle, m_nAxis + 3, &position); //获取当前轴位置string.Format("振镜Y2轴位置：%.2f", position);GetDlgItem(IDC_CURPOS4)->SetWindowText(string);ZAux_Direct_GetVpSpeed(g_handle, m_nAxis + 3, &NowSp); //获取当前轴速度string.Format("振镜Y2轴速度：%.2f", NowSp);GetDlgItem(IDC_CURSPEED4)->SetWindowText(string);int status = 0; ZAux_Direct_GetIfIdle(g_handle, m_nAxis,&status); //判断当前轴状态if (status == -1){GetDlgItem( IDC_CURSTATE )->SetWindowText( "当前状态：停止" );}else{GetDlgItem( IDC_CURSTATE )->SetWindowText( "当前状态：运动中" );} }CDialog::OnTimer(nIDEvent);} （4）通过启动按钮的事件处理函数获取编辑框的移动轨迹，并设置振镜轴参数操作振镜轴运动。 void CSingle_move_Dlg::OnStart() //启动运动{if(NULL == g_handle){MessageBox(_T("链接断开状态"));return ;}UpdateData(true);//刷新参数int status = 0; ZAux_Direct_GetIfIdle(g_handle, m_nAxis,&status); //判断当前轴状态 if (status == 0) //已经在运动中{ return;} //设定轴类型 1-脉冲轴类型 for (int i = 4; i < 8; i++){ZAux_Direct_SetAtype(g_handle, i, m_Atype);ZAux_Direct_SetMerge(g_handle,i,1);//设置脉冲当量ZAux_Direct_SetUnits(g_handle, i, m_units);//设定速度，加减速ZAux_Direct_SetLspeed(g_handle, i, m_lspeed);ZAux_Direct_SetSpeed(g_handle, i, m_speed);ZAux_Direct_SetForceSpeed(g_handle, i, m_speed);ZAux_Direct_SetAccel(g_handle, i, m_acc);ZAux_Direct_SetDecel(g_handle, i, m_dec);//设定S曲线时间设置为0表示梯形加减速 ZAux_Direct_SetSramp(g_handle, i, m_sramp);}//使用MOVESCANABS运动int axislist[2] = { 4,5 };float dposlist[2] = { 0,0 };ZAux_MoveScanAbs(2, axislist, dposlist);CString str;GetDlgItem(IDC_EDIT_POSX1)->GetWindowText(str);float dbx = atof(str);GetDlgItem(IDC_EDIT_POSY1)->GetWindowText(str);float dby = atof(str);dposlist[0] = dbx;dposlist[1] = dby;ZAux_MoveScanAbs(2, axislist, dposlist);GetDlgItem(IDC_EDIT_POSX2)->GetWindowText(str);dbx = atof(str);GetDlgItem(IDC_EDIT_POSY2)->GetWindowText(str);dby = atof(str);dposlist[0] = dbx;dposlist[1] = dby;ZAux_MoveScanAbs(2, axislist, dposlist);GetDlgItem(IDC_EDIT_POSX3)->GetWindowText(str);dbx = atof(str);GetDlgItem(IDC_EDIT_POSY3)->GetWindowText(str);dby = atof(str);dposlist[0] = dbx;dposlist[1] = dby;ZAux_MoveScanAbs(2, axislist, dposlist);GetDlgItem(IDC_EDIT_POSX4)->GetWindowText(str);dbx = atof(str);GetDlgItem(IDC_EDIT_POSY4)->GetWindowText(str);dby = atof(str);dposlist[0] = dbx;dposlist[1] = dby;ZAux_MoveScanAbs(2, axislist, dposlist);//第二个振镜运动//使用MOVESCANABS运动axislist[0] = 6;axislist[1] = 7;dposlist[0] = 0;dposlist[1] = 0;ZAux_MoveScanAbs(2, axislist, dposlist);GetDlgItem(IDC_EDIT_POSX5)->GetWindowText(str);dbx = atof(str);GetDlgItem(IDC_EDIT_POSY5)->GetWindowText(str);dby = atof(str);dposlist[0] = dbx;dposlist[1] = dby;ZAux_MoveScanAbs(2, axislist, dposlist);GetDlgItem(IDC_EDIT_POSX6)->GetWindowText(str);dbx = atof(str);GetDlgItem(IDC_EDIT_POSY6)->GetWindowText(str);dby = atof(str);dposlist[0] = dbx;dposlist[1] = dby;ZAux_MoveScanAbs(2, axislist, dposlist);GetDlgItem(IDC_EDIT_POSX7)->GetWindowText(str);dbx = atof(str);GetDlgItem(IDC_EDIT_POSY7)->GetWindowText(str);dby = atof(str);dposlist[0] = dbx;dposlist[1] = dby;ZAux_MoveScanAbs(2, axislist, dposlist);GetDlgItem(IDC_EDIT_POSX8)->GetWindowText(str);dbx = atof(str);GetDlgItem(IDC_EDIT_POSY8)->GetWindowText(str);dby = atof(str);dposlist[0] = dbx;dposlist[1] = dby;ZAux_MoveScanAbs(2, axislist, dposlist);UpdateData(false); } (5) 通过断开按钮的事件处理函数来断开与控制卡的连接。 void CSingle_move_Dlg::OnClose() //断开链接{// TODO: Add your control notification handler code hereif(NULL != g_handle){KillTimer(1); //关定时器KillTimer(2);ZAux_Close(g_handle);g_handle = NULL;SetWindowText("未链接");} } （6）通过坐标清零按钮的事件处理函数移动振镜轴回零到中心零点位置，不直接使用dpos=0，修改振镜轴坐标。 void CSingle_move_Dlg::OnZero() //清零坐标{if(NULL == g_handle){MessageBox(_T("链接断开状态"));return ;}// TODO: Add your control notification handler code hereint axislist[2] = { 4,5 };float dposlist[2] = { 0 };ZAux_Direct_MoveAbs(g_handle,2,axislist,dposlist); //设置运动回零点} 三调试与监控编译运行例程，同时通过ZDevelop软件连接控制器对控制器状态进行监控。 ZDevelop软件连接控制器监控控制器的状态，查看振镜轴对应参数，并可搭配示波器检测双振镜轨迹。设置振镜轴运动，首先需要将轴类型配置成21振镜轴类型，并对应配置振镜轴的速度加减速等参数才可操作振镜进行运动。通过ZDevelop软件的示波器监控双振镜运动运行轨迹。视频演示。开放式激光振镜+运动控制器(六)-双振镜运动本次，正运动技术开放式激光振镜+运动控制器(六)：双振镜运动，就分享到这里。更多精彩内容请关注“正运动小助手”公众号，需要相关开发环境与例程代码，请咨询正运动技术销售工程师：400-089-8936。本文由正运动技术原创，欢迎大家转载，共同学习，一起提高中国智能制造水平。文章版权归正运动技术所有，如有转载请注明文章来源。本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_57350300/article/details/123402200。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-04 17:33:09

339

转载

转载文章

[转载]【北京-望京】这些互联网公司值得你加入

...、推荐算法、自然语言处理、安全、游戏开发、IOS等。面试难度中等，会有手写sql、算法、linux命令的环节。松果出行松果出行主要业务是构建国内县域城市交通出行网络，目前主要是共享电单车和共享新能源汽车服务。目前业务已经覆盖全国21个省，5000个县。福利待遇属于行业中等，五险一金、年终奖等，没有补充医疗保险。招聘岗位很多，以JAVA为主，各种级别都有。也有物联网、传感器硬件相关的岗位。小桔科技目前研发团队主要做推荐、搜索系统，注册地在大连。福利待遇行业中等，五险一金、年终奖，没有补充医疗保险。招聘岗位包括JAVA、PHP、搜索算法、前端、数仓等。理想汽车智能电动车品牌，这两年在行业内名气比较大。福利待遇行业中等偏上，六险一金、交通补贴等。招聘岗位很多，以JAVA为主，各种级别都有。另外也招聘PaaS平台研发、搜索、车载语音、大数据等。参加过理想汽车面试的同学反馈面试体验不太好，面试官没有耐心，给大家一个参考。狮桥智慧物流+普惠金融融资租赁业务。福利待遇中等偏下，五险一金、年终奖，没有补充医疗保险。招聘岗位主要是JAVA开发。领创集团海外金融业务，主要做印度市场。福利待遇中等偏下，六险一金，年终奖，工作节奏慢。招聘岗位主要是JAVA，招聘岗位主要是java。面试过的同学反馈体验比较好，面试官比较nice，有手写代码环节。总结今天主要推荐了望京的16家值得加入的互联网公司，事实上，望京区域的互联网公司和其他科技公司至少有几百家，由于个人精力有限，主要梳理了业界比较知名和自己熟悉的公司。相信还有好多非常不错的公司值得加入，欢迎大家跟我交流讨论。欢迎关注个人公众号，一起学习进步本篇文章为转载内容。原文链接：https://blog.csdn.net/zjj2006/article/details/121412370。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-01-11 22:59:19

531

转载

转载文章

[转载]程序员入门编程，看这10本书，少走10年弯路，java二级教学视频

...怀疑的问题了。但是，如何能高效学会Python,永远是个值得思考的重要问题。这个问题的答案，是绕不开本书的。四、Java编程思想《Java编程思想（第4版）》赢得了全球程序员的广泛赞誉，即使是最晦涩的概念，在Bruce Eckel的文字亲和力和小而直接的编程示例面前也会化解于无形。从Java的基础语法到最高级特性（深入的面向对象概念、多线程、自动项目构建、单元测试和调试等），《Java编程思想（第4版）》都能逐步指导你轻松掌握。从java编程思想这本书获得的各项大奖以及来自世界各地的读者评论中，不难看出这是一本经典之作。五、算法导论《算法导论》提供了对当代计算机算法研究的一个全面、综合性的介绍。全书共八部分，内容涵盖基础知识、排序和顺序统计量、数据结构、高级设计和分析技术、高级数据结构、图算法、算法问题选编，以及数学基础知识。书中深入浅出地介绍了大量的算法及相关的数据结构，以及用于解决一些复杂计算问题的高级策略（如动态规划、贪心算法、摊还分析等），重点在于算法的分析与设计。对于每一个专题，作者都试图提供目前最新的研究成果及样例解答，并通过清晰的图示来说明算法的执行过程。六、深入理解计算机系统《深入理解计算机系统》是将计算机软件和硬件理论结合讲述的经典教程，内容覆盖计算机导论、体系结构和处理器设计等多门课程。本书的大优点是为程序员描述计算机系统的实现细节，通过描述程序是如何映射到系统上，以及程序是如何执行的，使读者更好地理解程序的行为为什么是这样的，以及造成效率低下的原因。七、鸟哥的Linux私房菜《鸟哥的Linux私房菜基础学习篇》全面而详细地介绍了Linux操作系统。着重说明计算机的基础知识、Linux的学习方法，如何规划和安装Linux主机以及CentOS 7.x的安装、登录与求助方法；介绍Linux的文件系统、文件、目录与磁盘的管理；文字模式接口shell和管理系统的好帮手shell脚本，另外还介绍了文字编辑器vi和vim的使用方法；对于系统安全非常重要的Linux账号的管理、磁盘配额、高级文件系统管理、计划任务以及进程管理，系统管理员（root）的管理事项。本书内容丰富全面，基本概念的讲解非常细致，深入浅出。各种功能和命令的介绍，都配以大量的实例操作和详尽的解析。本书是初学者学习Linux不可多得的一本入门好书。八、计算机网络自顶向下方法《计算机网络自顶向下方法》是经典的计算机网络教材，采用作者独创的自顶向下方法来讲授计算机网络的原理及其协议，自第1版出版以来已经被数百所大学和学院选作教材，被译为14种语言。新版保持了以前版本的特色，继续关注因特网和计算机网络的现代处理方式，注重原理和实践，为计算机网络教学提供一种新颖和与时俱进的方法。同时，第7版进行了相当多的修订和更新，首次改变了各章的组织结构，将网络层分成两章（第4章关注网络层的数据平面，第5章关注网络层的控制平面）九、MySQL是怎样运行的《MySQL是怎样运行的》采用诙谐幽默、通俗易懂的写作风格，针对上面这些问题给出了相应的解答方案。尽管本书的表达方式与司空见惯的学术派、理论派IT图书有显著区别，但本书的确是相当正经的专业技术图书，内容涵盖了使用MySQL的同学在求职面试和工作中常见的一些核心概念。无论是身居MySQL专家身份的技术人员，还是技术有待进一步提升的DBA，甚至是刚投身于数据库行业的“萌新”人员，本书都是他们彻底了解MySQL运行原理的优秀图书。十、编程珠玑本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_65485112/article/details/122007938。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-11 11:49:14

121

转载

ElasticSearch

Elasticsearch安全性提升：SSL/TLS加密通信+用户认证+授权+日志审计

...域。它具有强大的数据处理能力，但若配置不当或未采取适当的安全措施，可能会面临数据泄露、非法访问等风险。 SSL/TLS , 一种加密协议，用于在网络中保护数据传输的安全性。通过使用SSL/TLS，可以在客户端与服务器之间建立加密通道，防止中间人攻击和其他形式的数据窃取行为。在Elasticsearch中启用SSL/TLS可以有效减少敏感信息在公网上传输时被截获的风险。 RBAC , 基于角色的访问控制，是一种用于管理系统权限的方法。在Elasticsearch中，RBAC允许管理员根据特定的角色定义用户的权限，例如允许某些用户只能读取特定类型的文档或执行特定的操作。这种方法有助于简化权限管理并提高系统的安全性。

2025-05-12 15:42:52

100

星辰大海

Nacos

Nacos读不到配置文件？排查路径权限+网络连接终解决

... 三、深入排查网络连接与超时设置接下来，我开始怀疑是不是网络连接出了问题。毕竟Nacos是基于网络通信的，如果网络不通畅，那自然会导致读取失败。我先检查了Nacos服务端的日志，发现并没有什么异常。再瞧瞧服务端的那个监听端口，嘿，8848端口不仅开着呢，而且服务还稳稳地在跑着，一点问题没有！ “难道是客户端的网络问题？”我心中一动，赶紧查看了服务端的防火墙规则，确认没有阻断任何请求。接着我又尝试ping了一下Nacos服务端的IP地址，结果发现网络连通性很好。 “网络应该没问题啊，那会不会是超时时间设置得太短了？”我灵机一动，想到之前在其他项目中遇到过类似的问题，可能是客户端等待响应的时间太短，导致请求超时。于是我修改了Nacos客户端的配置，增加了超时时间： java Properties properties = new Properties(); properties.put(PropertyKeyConst.SERVER_ADDR, "localhost:8848"); properties.put(PropertyKeyConst.CONNECT_TIMEOUT_MS, "5000"); // 增加到5秒 NacosConfigService configService = NacosFactory.createConfigService(properties); 重新启动服务后，问题依然存在。看来超时时间也不是主要原因。 “真是搞不懂啊，难道是Nacos本身的问题？”我有些泄气，但还是决定继续深挖下去。 --- 四、终极排查代码逻辑与异常处理最后，我决定从代码逻辑入手，看看是不是程序内部的某些逻辑出了问题。于是我打开了Nacos客户端的源码，开始逐行分析。在Nacos客户端的实现中，有一个方法是用来获取配置的： java String content = configService.getConfig(dataId, group, timeoutMs); 我仔细检查了这个方法的调用点，发现它是在服务启动时被调用的。你瞧，服务一启动呢，就会加载一堆东西，像数据库连接池啦，缓存配置啦，各种各样的“装备”都得准备好，这样它才能顺利开工干活呀！ “会不会是某个配置项的加载顺序影响了Nacos的读取？”我突然想到这一点。我琢磨着这事儿，干脆把所有的配置加载顺序仔仔细细捋了一遍，就为了确保Nacos的配置能在服务刚启动的时候就给安排上，别拖到后面出了幺蛾子。同时，我还加强了异常处理逻辑，给Nacos的读取操作加上了try-catch块，以便捕获具体的异常信息： java try { String content = configService.getConfig(dataId, group, timeoutMs); System.out.println("Config loaded successfully: " + content); } catch (NacosException e) { System.err.println("Failed to load config: " + e.getMessage()); } 经过一番调整后，我再次启动服务，终于看到了一条令人振奋的消息：“Config loaded successfully”。 “太好了！”我长舒一口气，“原来问题就出在这里啊。” --- 五、总结与感悟经过这次折腾，我对Nacos有了更深的理解。Nacos这东西确实挺牛的，是个超棒的配置管理工具，但用着用着你会发现，它也不是完美无缺的，各种小问题啊、坑啊，时不时就冒出来折腾你一下。其实吧，这些问题真不一定是Nacos自己惹的祸，八成是咱们的代码写得有点问题，或者是环境配错了，带偏了Nacos。 “其实啊，调试的过程就像侦探破案一样，需要耐心和细心。我坐在电脑前忍不住感慨：“哎，有时候觉得这问题看起来平平无奇的，可谁知道背后可能藏着啥惊天大秘密呢！”” 总之，这次经历让我明白了一个道理：遇到问题不要慌，要冷静分析，逐步排查。只有这样，才能找到问题的根本原因，解决问题。希望我的经验能对大家有所帮助，如果有类似的问题，不妨按照这个思路试试看！

2025-04-06 15:56:57

清风徐来

转载文章

[转载]deepin虚拟机安装常用软件

...hell） , 一种网络协议，用于加密远程登录会话和命令执行过程，确保数据传输的安全性。在文中，通过启动SSH服务，用户可以在本地主机通过命令行工具安全地连接到deepin虚拟机进行远程操作和管理。 JDK（Java Development Kit） , Java开发工具包，包含了Java编译器、Java运行时环境（JRE）、以及一系列用于开发Java应用程序所需的工具和库文件。在文章中，安装JDK8是为了为deepin系统提供Java开发环境，支持基于Java语言的项目构建与运行。 Node.js , 一个开源、跨平台的JavaScript运行环境，允许开发者使用JavaScript编写服务器端代码，实现高性能、可伸缩的网络应用。文中提到安装Node.js，并配置淘宝源以优化npm包下载速度，为开发基于Node.js的后端服务或者全栈Web应用提供了基础条件。 Nginx , 一款高性能的HTTP和反向代理服务器，同时也可用作邮件代理服务器和负载均衡器。在该文场景下，Nginx被用作Web服务器，负责处理和分发来自客户端的HTTP请求，对于部署静态网站或作为Web应用的前端服务器非常适用。 PostgreSQL , 一种开源的关系型数据库管理系统，支持丰富的SQL标准和高级特性，如窗口函数、多版本并发控制等。在文中安装PostgreSQL是为了解决项目中的持久化存储需求，用于存放应用的数据。 Redis , 一个开源的、内存中的数据结构存储系统，常被用作数据库、缓存和消息中间件。在该篇文章里，Redis被安装和配置，用来提高应用的数据读写性能，尤其是在高并发场景下提供快速响应的能力。

2023-11-15 19:14:44

转载

转载文章

[转载]20171105_shiyan_upanddown Struts上传、下载功能结合（集合模拟数据库）

...制，实现了对HTTP请求的接收、处理及响应。 MIME类型（Multipurpose Internet Mail Extensions） , MIME类型是一种标准，用于指定数据内容的格式类型，如文本、图像、视频或应用程序特定的数据。在Web开发中，特别是文件上传和下载场景，服务器端和客户端需要根据MIME类型来正确解析和处理不同类型的文件。例如，在Struts框架中，通过配置MIME类型可以指示浏览器如何打开或保存从服务器下载的文件。拦截器（Interceptor） , 在Struts 2框架中，拦截器是一个可插拔的对象，它可以参与到Action执行的整个生命周期中，并在特定阶段进行预处理或后处理操作。文章中的LoginInterceptor就是一个自定义拦截器，它负责检查用户是否已经登录，只有当用户已登录时才允许继续执行后续的操作（如文件上传或下载）。通过这种方式，拦截器增强了系统的安全性，确保了只有经过验证的用户才能访问受限资源。

2023-11-12 20:53:42

141

转载

Hadoop

Hadoop结合HDFS实现跨硬件复制保障分布式系统数据可靠性与副本策略

...p是一种开源的大数据处理框架，它的核心功能是存储和处理海量的数据。不过，我今天想带大家深入探讨的是Hadoop的一个非常实用的功能：跨硬件复制文件。为什么这个功能这么重要呢？想象一下，如果你正在运行一个大型的分布式系统，突然某个节点挂了怎么办？数据丢了？那可太惨了！Hadoop通过分布式文件系统（HDFS）来解决这个问题。HDFS 可不只是简单地把大文件切成小块儿，它还特聪明，会把这些小块儿分散存到不同的机器上。这就跟把鸡蛋放在好几个篮子里一个道理，哪怕有一台机器突然“罢工”了（也就是挂掉了），你的数据还是稳稳的，一点都不会丢。那么，Hadoop是如何做到这一点的呢？咱们先来看看它是怎么工作的。 --- 2. HDFS的工作原理数据块与副本 HDFS是一个分布式的文件系统，它的设计理念就是让数据更加可靠。简单讲啊，HDFS会把一个大文件切成好多小块儿（每块默认有128MB这么大），接着把这些小块分开放到集群里的不同电脑上存着。更关键的是，HDFS会为每个数据块多弄几个备份，一般是三个副本。这就相当于给你的数据买了“多重保险”，哪怕有一台机器突然“罢工”或者出问题了，你的数据还是妥妥地躺在别的机器上，一点都不会丢。举个例子，假设你有一个1GB的文件，HDFS会把这个文件分成8个128MB的小块，并且每个小块会被复制成3份，分别存储在不同的服务器上。这就意味着啊，就算有一台服务器“挂了”或者出问题了，另外两台服务器还能顶上，数据照样能拿得到，完全不受影响。说到这里，你可能会问：“为什么要复制这么多份？会不会浪费空间？”确实，多副本策略会占用更多的磁盘空间，但它的优点远远超过这一点。先说白了就是，它能让数据更好用、更靠谱啊！再说了，在那种超大的服务器集群里头，这样的备份机制还能帮着分散压力，不让某一个地方出问题就整个崩掉。 --- 3. 实战演示如何使用Hadoop进行跨硬件复制？接下来，让我们动手试试看！我会通过一些实际的例子来展示Hadoop是如何完成文件跨硬件复制的。 3.1 安装与配置Hadoop 首先，你需要确保自己的环境已经安装好了Hadoop。如果你还没有安装，可以参考官方文档一步步来配置。对新手来说，建议先试试伪分布式模式，相当于在一台电脑上“假装”有一个完整的集群，方便你熟悉环境又不用折腾多台机器。 3.2 创建一个简单的文本文件我们先创建一个简单的文本文件，用来测试Hadoop的功能。你可以使用以下命令： bash echo "Hello, Hadoop!" > test.txt 然后，我们将这个文件上传到HDFS中： bash hadoop fs -put test.txt /user/hadoop/ 这里的/user/hadoop/是HDFS上的一个目录路径。 3.3 查看文件的副本分布上传完成后，我们可以检查一下这个文件的副本分布情况。使用以下命令： bash hadoop fsck /user/hadoop/test.txt -files -blocks -locations 这段命令会输出类似如下的结果： /user/hadoop/test.txt 128 bytes, 1 block(s): OK 0. BP-123456789-192.168.1.1:50010 file:/path/to/local/file 1. BP-123456789-192.168.1.2:50010 file:/path/to/local/file 2. BP-123456789-192.168.1.3:50010 file:/path/to/local/file 从这里可以看到，我们的文件已经被复制到了三台不同的服务器上。 --- 4. 深度解读 Hadoop的副本策略在前面的步骤中，我们已经看到了Hadoop是如何将文件复制到不同节点上的。但是，你知道吗？Hadoop的副本策略其实是非常灵活的。它可以根据网络拓扑结构来决定副本的位置。例如，默认情况下，第一个副本会放在与客户端最近的节点上，第二个副本会放在另一个机架上，而第三个副本则会放在同一个机架的不同节点上。这样的策略可以最大限度地减少网络延迟，提高读取效率。当然，如果你对默认的副本策略不满意，也可以自己定制。比如，如果你想让所有副本都放在同一个机架内，可以通过修改dfs.replication.policy参数来实现。 --- 5. 总结与展望通过今天的讨论，我们了解了Hadoop是如何通过HDFS实现文件的跨硬件复制的。虽然这个功能看似简单，但它背后蕴含着复杂的设计理念和技术细节。正是这些设计，才使得Hadoop成为了一个强大的大数据处理工具。最后，我想说的是，学习新技术的过程就像探险一样，充满了未知和挑战。嘿，谁还没遇到过点麻烦事儿呢？有时候一头雾水，感觉前路茫茫，但这不正是探索的开始嘛！别急着放弃，熬过去你会发现，那些让人头疼的问题其实藏着不少小惊喜，等你拨开云雾时，成就感绝对让你觉得值了！希望这篇文章能给你带来一些启发，也希望你能亲自尝试一下Hadoop的实际操作，感受一下它的魅力！好了，今天的分享就到这里啦！如果你有任何疑问或者想法，欢迎随时留言交流。让我们一起探索更多有趣的技术吧！

2025-03-26 16:15:40

冬日暖阳

转载文章

[转载]html5 footer header,html-5 --html5教程article、footer、header、nav、section使用

...:能向后兼容目前UA处理内容的方式.为了让语言更简单,一些老的元素和Attribute被舍弃.比如一些纯粹用于展现的元素(译注:即非语 ... 一步HTML5教程学会体系 HTML5是HTML最新的版本,万维网联盟. HTML5是下一代的HTML标准,HTML5是为了在移动设备上支持多媒体. 新特性: 绘画的canvas元素,用于媒介回放的video和audio元素,对 ... IT兄弟连 HTML5教程了解HTML5的主流应用1 在很多人眼里,HTML5与互联网营销密切相关,但其实从开发者的角度而言,它是一种网页标准,定义了浏览器语言的编写规范.伴随HTML5标准尘埃落定,浏览器对HTML5特性的逐步支持,再加上国内对HTML ... 【转帖】39个让你受益的HTML5教程 39个让你受益的HTML5教程闲话少说,本文作者为大家收集了网上学习HTML5的资源,期望它们可以帮助大家更好地学习HTML5. 好人啊! 不过,作者原来说的4 ... 【特别推荐】Web 开发人员必备的经典 HTML5 教程对于我来说,Web 前端开发是最酷的职业之一,因为你可以用新的技术发挥,创造出一些惊人的东西.唯一的问题是,你需要跟上这个领域的发展脚步,因此,你必须不断的学习,不断的前进.本文将分享能够帮助您快速掌 ... HTML5教程之本地存储SessionStorage SessionStorage: 将数据保存在session对象中,所谓session是指用户在浏览某个网站时,从进入网站到浏览器关闭所经过的这段时间会话,也就是用户浏览这个网站所花费的时间就是sess ... 随机推荐【转】MySQL索引背后的数据结构及算法原理摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BT ... IIS7 / IIS7.5 URL 重写 HTTP 重定向到 HTTPS(转) 转自: http://www.cnblogs.com/yipu/p/3880518.html 1.购买SSL证书,参考:http://www.cnblogs.com/yipu/p/3722135. ... OpenGL的glViewPort窗口设置函数实现分屏之前实现过全景图片查看(OpenGL的几何变换3之内观察全景图),那么我们需要进行分屏该如何实现呢?如下图: 没错就是以前提过的glViewPort函数,废话不多说了,我直接上代码: //从这里开始进 ... hdu 4764 Stone (巴什博弈，披着狼皮的羊，小样，以为换了身皮就不认识啦) 今天(2013/9/28)长春站,最后一场网络赛! 3~5分钟后有队伍率先发现伪装了的签到题(博弈) 思路: 与取石头的巴什博弈对比题目要求第一个人取数字在[1,k]间的某数x,后手取x加[1,k] ... android报表图形引擎(AChartEngine)demo解析与源码 AchartEngine支持多种图表样式,本文介绍两种:线状表和柱状表. AchartEngine有两种启动的方式:一种是通过ChartFactory.getView()方式来直接获取到view ... CSS长度单位及区别 em ex px pt in 1. css相对长度单位 Ø em 元素的字体高度 Ø ex 字体x的高度 Ø px ... es6的箭头函数 1.使用语法 : 参数 => 函数语句; 分为以下几种形式 : (1) ()＝>语句 ( )＝> statement 这是一种简写方法省略了花括号和return 相当于 ()＝&g ... pdfplumber库解析pdf格式参考地址:https://github.com/jsvine/pdfplumber 简单的pdf转换文本: import pdfplumber with pdfplumber.open(path) a ... KMP替代算法——字符串Hash 很久以前写的... 今天来谈谈一种用来替代KMP算法的奇葩算法--字符串Hash 例题:给你两个字符串p和s,求出p在s中出现的次数.(字符串长度小于等于1000000) 字符串的Hash 根据字面意 ... SSM_CRUD新手练习(5)测试mapper 上一篇我们使用逆向工程生成了所需要的bean.dao和对应的mapper.xml文件,并且修改好了我们需要的数据库查询方法. 现在我们来测试一下DAO层,在test包下新建一个MapperTest.j ... 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_35666639/article/details/118169985。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-07-16 11:42:34

254

转载

Mahout

实时流数据分析：Mahout与分布式计算的机器学习实践

...析成为了解决海量数据处理的关键技术之一。哎呀，你听说过Mahout这个玩意儿没？这家伙可是个开源的机器学习宝库，专治大数据这事儿。它那分发式计算的能力啊，就像魔法一样，能让你的数据处理起来轻松又高效。用Mahout做分析，就像是给一堆乱糟糟的数据整了套华丽丽的整理术，让它们变得井井有条，还能从中找出各种有价值的信息和模式。这玩意儿一出手，数据处理界的难题就被它玩转得飞起，简直是个大数据时代的超级英雄呢！而Apache Spark Streaming，则是为实时数据流提供高性能处理的框架。哎呀，兄弟！把这两样技术给整到一块儿用，那效果简直不要太棒！不仅能快速消化那些源源不断的数据洪流，还能帮咱们做出超明智的决定，简直就是开挂的存在嘛！本文旨在探索Mahout与Spark Streaming如何协同工作，为实时流数据分析提供强大的解决方案。 2. Mahout概述 Mahout是一个基于Hadoop的机器学习库，旨在利用分布式计算资源来加速大规模数据集上的算法执行。哎呀，这个家伙可真厉害！它能用上各种各样的机器学习魔法，比如说分门别类的技巧（就是咱们说的分类）、把相似的东西归到一块儿的本事（聚类）还有能给咱们推荐超棒东西的神奇技能（推荐系统）。而且，它最擅长的就是对付那些海量的数据，就像大鱼吃小鱼一样，毫不费力就能搞定！通过Mahout，我们可以构建复杂的模型来挖掘数据中的模式和关系，从而驱动业务决策。 3. Spark Streaming简介 Apache Spark Streaming是Spark生态系统的一部分，专为实时数据流处理设计。哎呀，这个玩意儿简直就是程序员们的超级神器！它能让咱这些码农兄弟们轻松搞定那些超快速、高效率的实时应用，你懂的，就是那种分秒必争、数据飞速流转的那种。想象一下，一秒钟能处理几千条数据，那感觉简直不要太爽啊！就像是在玩转数据的魔法世界，每一次点击都是对速度与精准的极致追求。这不就是我们程序员的梦想吗？在数据的海洋里自由翱翔，每一刻都在创造奇迹！Spark Streaming的精髓就像个魔术师，能把连续不断的水流（数据流）变换成小段的小溪（微批次）。这小溪再通过Spark这个强大的分布式计算平台，就像是在魔法森林里跑的水车，一边转一边把水（数据）处理得干干净净。这样一来，咱们就能在实时中捕捉到信息的脉动，做出快速反应，既高效又灵活！ 4. Mahout与Spark Streaming的集成为了将Mahout的机器学习能力与Spark Streaming的实时处理能力结合起来，我们需要创建一个流水线，使得Mahout可以在实时数据流上执行分析任务。这可以通过以下步骤实现： - 数据接入：首先，我们需要将实时数据流接入Spark Streaming。这可以通过定义一个DStream（Data Stream）对象来完成，该对象代表了数据流的抽象表示。 scala import org.apache.spark.streaming._ import org.apache.spark.streaming.dstream._ val sparkConf = new SparkConf().setAppName("RealtimeMahoutAnalysis").setMaster("local[2]") val sc = new SparkContext(sparkConf) valssc = new StreamingContext(sc, Seconds(1)) // 创建StreamingContext，时间间隔为1秒 val inputStream = TextFileStream("/path/to/your/data") // 假设数据来自文件系统 val dstream = inputStream foreachRDD { rdd => rdd.map { line => val fields = line.split(",") (fields(0), fields.slice(1, fields.length)) } } - Mahout模型训练：然后，我们可以使用Mahout中的算法对数据进行预处理和建模。例如，假设我们想要进行用户行为的聚类分析，可以使用Mahout的KMeans算法。 scala import org.apache.mahout.cf.taste.hadoop.recommender.KNNRecommender import org.apache.mahout.cf.taste.impl.model.file.FileDataModel import org.apache.mahout.cf.taste.impl.neighborhood.ThresholdUserNeighborhood import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity import org.apache.mahout.math.RandomAccessSparseVector import org.apache.hadoop.conf.Configuration val dataModel = new FileDataModel(new File("/path/to/your/data.csv")) val neighborhood = new ThresholdUserNeighborhood(0.5, dataModel, new Configuration()) val similarity = new PearsonCorrelationSimilarity(dataModel) val recommender = new GenericUserBasedRecommender(dataModel, neighborhood, similarity) val recommendations = dstream.map { (user, ratings) => val userVector = new RandomAccessSparseVector(ratings.size()) for ((itemId, rating) <- ratings) { userVector.setField(itemId.toInt, rating.toDouble) } val recommendation = recommender.recommend(user, userVector) (user, recommendation.map { (itemId, score) => (itemId, score) }) } - 结果输出：最后，我们可以将生成的推荐结果输出到合适的目标位置，如日志文件或数据库，以便后续分析和应用。 scala recommendations.foreachRDD { rdd => rdd.saveAsTextFile("/path/to/output") } 5. 总结与展望通过将Mahout与Spark Streaming集成，我们能够构建一个强大的实时流数据分析平台，不仅能够实时处理大量数据，还能利用Mahout的高级机器学习功能进行深入分析。哎呀，这个融合啊，就像是给数据分析插上了翅膀，能即刻飞到你眼前，又准确得不得了！这样一来，咱们做决定的时候，心里那根弦就更紧了，因为有它在身后撑腰，决策那可是又稳又准，妥妥的！哎呀，随着科技车轮滚滚向前，咱们的Mahout和Spark Streaming这对好搭档，未来肯定会越来越默契，联手为我们做决策时，用上实时数据这个大宝贝，提供更牛逼哄哄的武器和方法！想象一下，就像你用一把锋利的剑，能更快更准地砍下胜利的果实，这俩家伙在数据战场上，就是那把超级厉害的宝剑，让你的决策快人一步，精准无比！ --- 以上内容是基于实际的编程实践和理论知识的融合，旨在提供一个从概念到实现的全面指南。哎呀，当真要将这个系统或者项目实际铺展开来的时候，咱们得根据手头的实际情况，比如数据的个性、业务的流程和咱们的技术底子，来灵活地调整策略，让一切都能无缝对接，发挥出最大的效用。就像是做菜，得看食材的新鲜度，再搭配合适的调料，才能做出让人满意的美味佳肴一样。所以，别死板地照搬方案，得因地制宜，因材施教，这样才能确保我们的工作既高效又有效。

2024-09-06 16:26:39

月影清风

Sqoop

Sqoop在数据迁移中因透明性不足导致作业失败的案例分析

...oop作业在特定数据处理透明性下失败一、Sqoop初体验为什么我选择了它？嗨，朋友们！作为一个热爱折腾数据的技术爱好者，最近我在尝试用Sqoop来完成一些数据迁移任务。哈哈，Sqoop这个名字一听就觉得挺酷的，对不？它就像个超级厉害的“中间人”，一边连着Hadoop那个大数据的世界，另一边又搭在传统的数据库上，两边都能玩得转！说到Sqoop，它的主要功能就是从关系型数据库中抽取数据并导入到Hadoop生态系统中，或者反过来把Hadoop中的数据导出到关系型数据库里。对我来说，这简直就是个救星啊！毕竟我天天都要跟一堆 structured data（结构化数据）打交道，没有它，我的日子能过得下去才怪呢！不过呢，事情并没有想象中那么顺利。话说有一次我用 Sqoop 做数据迁移的时候，发现了个让人挠头的问题——只要碰到某些特别的数据处理任务，作业就突然“罢工”了，也不知道是啥原因。这事儿可把我给整郁闷了，我都觉得自己的水平挺过关的了，没想到被一个看起来超简单的题目给绊住了，真是有点糗啊！示例代码： bash sqoop import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table employees \ --target-dir /user/hadoop/employees 这段代码看起来挺正常的，但我后来发现，当表中的数据量过大或者存在一些复杂的约束条件时，Sqoop就表现得不太友好。 --- 二、Sqoop作业失败的背后接下来，让我们一起深入探讨一下这个问题。说实话，刚开始接触Sqoop那会儿，我对它是怎么工作的压根儿没弄明白，稀里糊涂的。我以为只要配置好连接信息，然后指定源表和目标路径就行了。但实际上，Sqoop并不是这么简单的工具。当我第一次遇到作业失败的情况时，内心是崩溃的。屏幕上显示的错误信息密密麻麻，但仔细一看，其实都是些常见的问题。打个比方啊，Sqoop这家伙一碰到一些特别的符号，比如空格或者换行符，就容易“翻车”，直接给你整出点问题来。还有呢，有时候因为网络卡了一下，延迟太高，Sqoop就跟服务器说拜拜了，连接就这么断了，挺烦人的。有一次，我在尝试将一张包含大量JSON字段的表导出到HDFS时，Sqoop直接报错了。我当时就在心里嘀咕：“为啥别的工具处理起来轻轻松松的事儿，到Sqoop这儿就变得这么棘手呢？”后来，我一咬牙，开始翻遍各种资料，想着一定要找出个解决办法来。思考与尝试：经过一番研究，我发现Sqoop默认情况下并不会对数据进行深度解析，这意味着如果数据本身存在问题，Sqoop可能无法正确处理。所以，为了验证这个假设，我又做了一次测试。 bash sqoop import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table problematic_table \ --fields-terminated-by '\t' \ --lines-terminated-by '\n' 这次我特意指定了分隔符和换行符，希望能避免之前遇到的那些麻烦。嘿，没想到这次作业居然被我搞定了！中间经历了不少波折，不过好在最后算是弄懂了个中奥秘，也算没白费功夫。 --- 三、透明性的重要性 Sqoop到底懂不懂我的需求？说到Sqoop的透明性，我觉得这是一个非常重要的概念。所谓的透明性嘛，简单来说，就是Sqoop能不能明白咱们的心思，然后老老实实地按咱们想的去干活儿，不添乱、不出错！显然，在我遇到的这些问题中，Sqoop的表现并不能让人满意。举个例子来说，假设你有一个包含多列的大表，其中某些列的数据类型比较复杂（例如数组、嵌套对象等）。在这种情况下，Sqoop可能会因为无法正确识别这些数据类型而失败。更糟糕的是，它并不会给出明确的提示，而是默默地报错，让你一头雾水。为了更好地应对这种情况，我在后续的工作中加入了更多的调试步骤。比如说啊，你可以先用describe这个命令去看看表的结构，确保所有的字段都乖乖地被正确识别了；接着呢，再用--check-column这个选项去瞅一眼，看看有没有重复的记录藏在里面。这样一来，虽然增加了工作量，但至少能减少不必要的麻烦。示例代码： bash sqoop job --create my_job \ -- import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table employees \ --check-column id \ --incremental append \ --last-value 0 这段代码展示了如何创建一个增量作业，用于定期更新目标目录中的数据。通过这种方式，可以有效避免一次性加载过多数据带来的性能瓶颈。 --- 四、总结与展望与Sqoop共舞总的来说，尽管Sqoop在某些场景下表现得不尽人意，但它依然是一个强大的工具。通过不断学习和实践，我相信自己能够更加熟练地驾驭它。未来的计划里，我特别想试试一些更酷的功能，比如说用Sqoop直接搞出Avro文件，或者把Spark整进来做分布式计算，感觉会超级带劲！最后，我想说的是，技术这条路从来都不是一帆风顺的。遇到困难并不可怕，可怕的是我们因此放弃努力。正如那句话所说：“失败乃成功之母。”只要保持好奇心和求知欲，总有一天我们会找到属于自己的答案。如果你也有类似的经历，欢迎随时交流！我们一起进步，一起成长！ --- 希望这篇文章对你有所帮助，如果有任何疑问或者想要了解更多细节，请随时告诉我哦！

2025-03-22 15:39:31

风中飘零

转载文章

[转载]做了几年程序员，某天居然发现自己没学过数据结构。。。

...许多复杂关系，如社交网络、交通路线等，并且涉及诸如最短路径算法等相关算法的学习与应用。深度优先遍历（DFS, Depth-First Search） , 深度优先遍历是一种在图论和树形结构中常用的搜索算法策略。在执行过程中，该算法首先访问一个顶点，然后尽可能深地探索其邻接顶点，直到到达无法继续深入的顶点（即叶子节点或已访问过的节点），之后回溯至前一个顶点并尝试探索其他未访问的邻接顶点。在文中，深度优先遍历被列为了学习数据结构时需要掌握的基本算法之一，适用于多种与树和图相关的数据结构处理场景。

2023-09-12 23:35:52

135

转载

ElasticSearch

ElasticSearch排障：磁盘空间不足导致节点宕机，集群健康受损，扩容+配置优化恢复日志分析系统

...eException如何处理？我的ElasticSearch救赎之路大家好呀！今天咱们来聊聊一个让我头疼了好几天的问题——ElasticSearch里的NodeNotActiveException。嘿，我刚接触 Elasticsearch 的时候啊，心里还美滋滋的，心想这东西看着挺easy的，结果嘛……嘿嘿，一不留神就掉坑里了，真是“理想很丰满，现实很骨干”啊！不过还好，经过一番折腾，我终于找到了解决办法。嘿，大家好啊！今天想跟你们聊聊我的故事和一些小感悟，也算是把我踩过的坑、学到的东西分享给大家吧。希望对那些正被同一个问题烦得抓头发的朋友有点用，咱们一起想办法解决它！ --- 1. 初识NodeNotActiveException：我的第一次“崩溃” 事情是这样的，我最近在搭建一个基于ElasticSearch的日志分析系统。一切看起来都很顺利，数据导入、索引创建啥的都没问题。但当我尝试对某些节点进行操作时，突然蹦出了这么一行错误： org.elasticsearch.cluster.block.ClusterBlockException: blocked by: [SERVICE_UNAVAILABLE/2/no active shards]; 当时我心里那个急啊！赶紧去查文档，发现这是NodeNotActiveException的表现之一。简单说吧，就好比某个关键的小哥突然“罢工”了，可能是因为它内存不够用，或者网络断了啥的，结果整个团队的工作都乱套了，没法正常运转了。我当时就纳闷了：“这不是应该自动恢复吗？为啥还要报错呢？”后来才明白，虽然ElasticSearch确实有自我修复机制，但有时候我们需要手动干预才能让它恢复正常。 --- 2. 理解背后的逻辑为什么会出现这种问题？在深入了解之前，我觉得有必要先搞清楚这个异常的根本原因。其实NodeNotActiveException并不是什么特别复杂的概念，它主要出现在以下几种情况： - 节点宕机：某个节点由于硬件故障或者网络问题离线了。 - 磁盘空间不足：如果某个节点的磁盘满了，ElasticSearch会自动将其标记为不可用。 - 配置错误：比如分配给节点的资源不够，导致其无法启动。对于我来说，问题出在第二个点上——磁盘空间不足。我当时为了省钱，给服务器分配的空间少得可怜，结果没多久就发现磁盘直接爆满，把自己都吓了一跳！于是ElasticSearch很生气，直接把该节点踢出了集群。 --- 3. 解决方案一扩容磁盘空间既然问题找到了，那就动手解决吧！首先，我决定先扩展磁盘容量。这一步其实很简单，只要登录服务器，增加磁盘大小就行。具体步骤如下： bash 查看当前磁盘状态 df -h 扩展磁盘（假设你已经购买了额外的存储） sudo growpart /dev/xvda 1 sudo resize2fs /dev/xvda1 完成后记得重启ElasticSearch服务： bash sudo systemctl restart elasticsearch 重启之后，神奇的事情发生了——我的节点重新上线了！不过这里有个小技巧分享给大家：如果你不确定扩容是否成功，可以通过以下命令检查磁盘使用情况： bash df -h 看到磁盘空间变大了，心里顿时舒坦了不少。 --- 4. 解决方案二调整ElasticSearch配置当然啦，仅仅扩容还不够，还需要优化ElasticSearch的配置文件。特别是那些容易导致内存不足或磁盘占用过高的参数，比如indices.memory.index_buffer_size和indices.store.throttle.max_bytes_per_sec。修改后的配置文件大概长这样： yaml cluster.routing.allocation.disk.threshold_enabled: true cluster.routing.allocation.disk.watermark.low: 85% cluster.routing.allocation.disk.watermark.high: 90% cluster.routing.allocation.disk.watermark.flood_stage: 95% cluster.info.update.interval: 30s 这些设置的意思是告诉ElasticSearch，当磁盘使用率达到85%时开始警告，达到90%时限制写入，超过95%时完全停止操作。这样可以有效避免再次出现类似的问题。 --- 5. 实战演练代码中的应对策略除了调整配置，我们还可以通过编写脚本来监控和处理NodeNotActiveException。比如，下面这段Java代码展示了如何捕获异常并记录日志： java import org.elasticsearch.client.RestHighLevelClient; import org.elasticsearch.client.RestClient; import org.elasticsearch.client.indices.CreateIndexRequest; import org.elasticsearch.client.indices.CreateIndexResponse; public class ElasticSearchExample { public static void main(String[] args) { RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http"))); try { CreateIndexRequest request = new CreateIndexRequest("test_index"); CreateIndexResponse response = client.indices().create(request, RequestOptions.DEFAULT); System.out.println("Index created: " + response.isAcknowledged()); } catch (Exception e) { if (e instanceof ClusterBlockException) { System.err.println("Cluster block detected: " + e.getMessage()); } else { System.err.println("Unexpected error: " + e.getMessage()); } } finally { try { client.close(); } catch (IOException ex) { System.err.println("Failed to close client: " + ex.getMessage()); } } } } 这段代码的作用是在创建索引时捕获可能发生的异常，并根据异常类型采取不同的处理方式。如果遇到ClusterBlockException，我们可以选择延迟重试或者其他补偿措施。 --- 6. 总结与反思成长路上的一课通过这次经历，我深刻体会到，作为一名开发者，不仅要掌握技术细节，还要学会从实际问题出发，找到最优解。NodeNotActiveException这个错误看着不起眼，但其实背后有不少门道呢！比如说，你的服务器硬件是不是有点吃不消了？集群那边有没有啥小毛病没及时发现？还有啊，咱们平时运维的时候是不是也有点松懈了？这些都是得好好琢磨的地方！最后，我想说的是，技术学习的过程就像爬山一样，有时候会遇到陡峭的山坡，但只要坚持下去，总能看到美丽的风景。希望这篇文章能给大家带来一些启发和帮助！如果还有其他疑问，欢迎随时交流哦~

2025-03-14 15:40:13

林中小径

转载文章

[转载]同事拿下阿里菜鸟P6offer，程序员：没看两本书还真不敢去跳槽

...么这么快？自己平时如何提升的，看书或者网站？二面 Jvm类加载机制，分别每一步做了什么工作？ Jvm内存模型，垃圾回收机制，如何确定被清除的对象？了解哪些垃圾回收器和区别？多线程相关，线程池的参数列表和拒绝策略 Jvm如何分析出哪个对象上锁？ Mysql索引类型和区别，事务的隔离级别和事务原理 Spring scope 和设计模式 Sql优化三面 fullgc的时候会导致接口的响应速度特别慢，该如何排查和解决？项目内存或者CPU占用率过高如何排查？ ConcurrentHashmap原理数据库分库分表 MQ相关，为什么kafka这么快，什么是零拷贝？小算法题 http和https协议区别，具体原理四面(Leader) 手画自己项目的架构图，并且针对架构和中间件提问印象最深的一本技术书籍是什么？五面(HR) 没什么过多的问题，主要就是聊了一下自己今后的职业规划，告知了薪资组成体系等等。插播一条福利！！！最近整理了一套1000道面试题的文档(详细内容见文首推荐文章)，以及大厂面试真题，和最近看的几本书。需要刷题和跳槽的朋友，这些可以免费赠送给大家，帮忙转发文章，宣传一下，后台私信【面试】免费领取！小天：好像问了两次看书的情况诶？现在面试还问这个？程序员H：是啊，幸亏之前为了弄懂JVM还看了两本书，不然真不知道说啥了！小天：看来，我也要找几本书去看了，感情没看过两本书都不敢跳槽了！程序员H：对了，还有简历，告诉你一个捷径简历尽量写好一些，项目经验突出： 1、自己的知识广度和深度 2、自身的优势 3、项目的复杂性和难度以及指标 4、自己对于项目做的贡献或者优化程序员H：唉~这还不能走可怎么办呀！你说，我把主管打一顿，是不是马上就可以走了？小天：... 查看全文 http://www.taodudu.cc/news/show-3387369.html 相关文章：阿里菜鸟面经 Java后端开发社招三年已拿offer 阿里菜鸟网络(一面) 2021年阿里菜鸟网络春招实习岗面试分享，简历+面试+面经全套资料！阿里菜鸟国际Java研发面经(三面+总结):JVM+架构+MySQL+Redis等 2021年3月29日阿里菜鸟实习面试（一面）（含部分总结） mongodb 子文档排序_猫鼬101：基础知识，子文档和人口简介特征工程计算方法Gauss-Jordan消去法求线性方程组的解使用(VAE)生成建模,理解可变自动编码器背后的数学原理视觉SLAM入门 -- 学习笔记 - Part2 带你入门nodejs第一天——node基础语法及使用 python3数据结构_Python3-数据结构 debezium-connect-oracle使用相关数值分析多种算法代码 android iphone treeview,Android之IphoneTreeView带组指示器的ExpandableListView效果 nginx rewrite功能使用 3-3 OneHot编码 JavaWeb：shiro入门小案例 MySQL的定义、操作、控制、查询语言的用法 MongoDB入门学习(三)：MongoDB的增删查改赋值、浅复制和深复制解析以及get/set应用他是吴恩达导师，被马云聘为「达摩院」首座 Jordan 标准型定理列主元的Gauss-Jordan消元法-python实现 Jordan 块的几何若尔当型（The Jordan form）第七章其他神经网络类型解决迁移系统后无法配置启用WindowsRE环境的问题宝塔面板迁移系统盘/www到数据盘/home 使用vmware vconverter从物理机迁移系统到虚拟机P2V 本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_62695120/article/details/124510157。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-08 20:01:49

转载

转载文章

[转载]学习MySql第二天

...权),revoke(取消授权) 练习：案例：创建一张表customer（顾客） create table customer(cid int(4) primary key comment '顾客编号',cname varchar(50) comment '顾客姓名',sex char(5) comment '顾客性别',address varchar(50) comment '地址',phone varchar(11) comment '手机',email varchar(50) comment '邮箱'); show create table customer; 插入5条数据 insert into customer values(1001,'小明','男','楼上18号','123','123@163.com');insert into customer values(1002,'小红','女','楼上17号','1234','1234@163.com');insert into customer values(1003,'老王','男','楼上18号隔壁','1234','1234@163.com');insert into customer values(1004,'老宋','男','楼上17号隔壁','1234','1234@163.com');insert into customer values(1005,'小马','女','楼上17号隔壁','1234','1234@163.com'); -1 修改一条数据的姓名小红的姓名 -2 修改一条数据的性别老王的性别 -3 修改一条数据的电话 1001号的电话 -4 修改一条数据的邮箱邮箱为123@163.com,改成323@163.com -5 查询性别为男的所有数据 select from customer where sex="男"; -6 自定义DDL操作的需求,5道题,可以同上面book表的操作数据库数据类型主要包括5大类整数类型 int, big int 浮点数类型 double decimal 字符串类型 char varchar text 日期类型 date datetime timestamp time year... 其他数据类型 set.... 字符串 - char(固定长度) 定长字符串最多255个字节- 定多少长度,就占用多少长度- 多了放不进去,少了用空格补全- 不认识内容尾部的空格- varchar(最大长度) 变长字符串最大65535字节,但是使用一般不超过255- 只要不超过定的长度,都可以放进去- 以内容真实长度为准- 认识内容尾部的空格- text 最大65535字节- blob 大数据对象,以二进制(字节)的方式存储整数 tinyint 1字节 smallint 2字节 int 4字节 bigint 8字节 int(6)影响的是查询时显示长度(zerofill)不影响数据的保存长度 create table t1(id1 int,id2 int(5)); insert into t1 values(111111,111111); alter table t1 modify id1 int zerofill; alter table t1 modify id2 int(5) zerofill; insert into t1 values (1,1); float 4字节 double 8字节 double(8,2) 可能会产生精度的缺失 10.0/3 3.3333333336 decimal 不会缺失精度,但是使用的时候需要指定总长度和小数位数日期 - date 年月日- time 时分秒- datetime 年月日时分秒,到9999年,而且需要手动输入,如果没有手动输入,就显示null.- timestamp 年月日时分秒,在没有数据手动插入时,自动填入当前时间.最大值2038- bigint 1970-1-1 0:0:0 格林威治时间案例：创建表t，字段d1 date，d2 time,d3 datetime,d4 timestamp create table t(id int,d1 date,d2 time,d3 datetime,d4 timestamp);insert into t (d1,d2) values ('1910-01-10','12:32:12');insert into t values(1,'2018-12-21','15:12:00','1995-02-10 12:08:12','2030-10-10 15:19:32');insert into t values(2,'3018-01-25','15:12:34','9234-12-31 12:12:12','2030-12-31 12:12:12');insert into t values(2,'3018-01-25','15:12:34','9999-12-31 23:59:59','2030-12-31 12:12:12'); 练习创建人物表，插入，修改，查询 create table person(id int(4) primary key,name varchar(50),age int(3));insert into person values(1,"梅超风",36);insert into person values(2,"洪七公",96);insert into person values(3,"杨过",40);insert into person values(4,"令狐冲",28);insert into person values(5,"张三丰",100);insert into person values(6,"张翠山",27);insert into person values(7,"张无忌",27);insert into person values(8,"赵敏",18);insert into person values(9,"独孤求败",250);insert into person values(10,"楚留香",36);1.案例：修改张三丰的name为刘备，id为11update person set name="刘备",id=11 where name="张三丰";2.案例：修改2号人物的的name为夏侯渊update person set name="夏侯渊" where id=2;3.案例：根据条件修改person表中的数据,修改id是6的数据中，姓名改为'任我行', 年龄改为39update person set name="任我行",age=39 where id=6;4.案例：修改姓名是‘楚留香'的数据，把id改为20，年龄改为19update person set id=20,age=19 where name="楚留香";5.案例：把person所有的数据的年龄全部改为20 update person set age=20;6.案例：修改id为7的数据，把id改为100，姓名改为杨过，年龄改为21update person set id=100,name="杨过",age=21 where id=7;7.案例：修改姓名是独孤求败，把年龄改为35update person set age=35 where name="独孤求败";8.案例：修改id=8的信息，把姓名改为房玄龄update person set name="房玄龄" where id=8;9.案例 :修改id为20并且年龄为20的人的姓名为刘德华(郑少秋也行)提示 where...and...update person set name="郑少秋" where id=20 and age=20; 查询没有条件的简单查询 select from 表名;查询表中所有的数据 select from person; select from t; select from emp; select from dept; 查询某些列中的值 select name as '姓名' from person; select name as '姓名',age as '年龄' from person; select id as '编号',name as '姓名',age as '年龄' from person; 学习过程的编程习惯select from 表; 工作中的编程习惯select id,name,age from person; 查询emp表中所有员工的姓名,上级领导的编号,职位,工资 select ename,mgr,job,sal from emp; 查询emp表中所有员工的编号,姓名,所属部门编号,工资 select empno,ename,deptno,sal from emp; 查询dept表中所有部门的名称和地址 select dname,loc from dept; 如果忘记了mysql的用户名和密码怎么办卸载重新装不重装软件如何修改密码 1.停止mysql服务 2.cmd中输入一个命令 mysqld --skip-grant-tables; -通过控制台,开启了一个mysql服务 3.开启一个新的cmd -mysql -u root -p 可以不使用密码进入数据库 show databases;----mysql 5. use mysql; 6. update user set password=password('新密码') where user="root"; 7. 关闭mysqld这个服务/进程 8. 重启mysql服务作业 mysql02,一天的代码重新敲一遍,熟悉emp和dept列名本篇文章为转载内容。原文链接：https://blog.csdn.net/sinat_41915844/article/details/79770973。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-02-16 12:44:07

545

转载

转载文章

[转载]java监听oracle aq,透过JMS监听Oracle AQ，在数据库变化时触发执行Java程序

...va使用JMS监听并处理Oracle AQ队列创建连接参数类创建消息转换类主类进行消息处理三监控表记录变化通知Java创建表创建存储过程创建触发器环境说明本实验环境基于Oracle 12C和JDK1.8，其中Oracle 12C支持多租户特性，相较于之前的Oracle版本，使用‘C用户名‘表示用户，例如如果数据库用户叫kevin，则登陆时使用Ckevin进行登陆。一、Oracle高级消息队列AQ Oracle AQ是Oracle中的消息队列，是Oracle中的一种高级应用，每个版本都在不断的加强，使用DBMS_AQ系统包进行相应的操作，是Oracle的默认组件，只要安装了Oracle数据库就可以使用。使用AQ可以在多个Oracle数据库、Oracle与Java、C等系统中进行数据传输。下面分步骤说明如何创建Oracle AQ 1. 创建消息负荷payload Oracle AQ中传递的消息被称为有效负荷(payloads)，格式可以是用户自定义对象或XMLType或ANYDATA。本例中我们创建一个简单的对象类型用于传递消息。 create type demo_queue_payload_type as object (message varchar2(4000)); 2. 创建队列表队列表用于存储消息，在入队时自动存入表中，出队时自动删除。使用DBMS_AQADM包进行数据表的创建，只需要写表名，同时设置相应的属性。对于队列需要设置multiple_consumers为false，如果使用发布/订阅模式需要设置为true。 begin dbms_aqadm.create_queue_table( queue_table => 'demo_queue_table', queue_payload_type => 'demo_queue_payload_type', multiple_consumers => false ); end; 执行完后可以查看oracle表中自动生成了demo_queue_table表，可以查看影响子段(含义比较清晰)。 3. 创建队列并启动创建队列并启动队列： begin dbms_aqadm.create_queue ( queue_name => 'demo_queue', queue_table => 'demo_queue_table' ); dbms_aqadm.start_queue( queue_name => 'demo_queue' ); end; 至此，我们已经创建了队列有效负荷，队列表和队列。可以查看以下系统创建了哪些相关的对象： SELECT object_name, object_type FROM user_objects WHERE object_name != 'DEMO_QUEUE_PAYLOAD_TYPE'; OBJECT_NAME OBJECT_TYPE ------------------------------ --------------- DEMO_QUEUE_TABLE TABLE SYS_C009392 INDEX SYS_LOB0000060502C00030$$ LOB AQ$_DEMO_QUEUE_TABLE_T INDEX AQ$_DEMO_QUEUE_TABLE_I INDEX AQ$_DEMO_QUEUE_TABLE_E QUEUE AQ$DEMO_QUEUE_TABLE VIEW DEMO_QUEUE QUEUE 我们看到一个队列带出了一系列自动生成对象，有些是被后面直接用到的。不过有趣的是，创建了第二个队列。这就是所谓的异常队列(exception queue)。如果AQ无法从我们的队列接收消息，将记录在该异常队列中。消息多次处理出错等情况会自动转移到异常的队列，对于异常队列如何处理目前笔者还没有找到相应的写法，因为我使用的场景并不要求消息必须一对一的被处理，只要起到通知的作用即可。所以如果消息转移到异常队列，可以执行清空队列表中的数据 delete from demo_queue_table; 4. 队列的停止和删除如果需要删除或重建可以使用下面的方法进行操作： BEGIN DBMS_AQADM.STOP_QUEUE( queue_name => 'demo_queue' ); DBMS_AQADM.DROP_QUEUE( queue_name => 'demo_queue' ); DBMS_AQADM.DROP_QUEUE_TABLE( queue_table => 'demo_queue_table' ); END; 5. 入队消息入列操作是一个基本的事务操作(就像往队列表Insert)，因此我们需要提交。 declare r_enqueue_options DBMS_AQ.ENQUEUE_OPTIONS_T; r_message_properties DBMS_AQ.MESSAGE_PROPERTIES_T; v_message_handle RAW(16); o_payload demo_queue_payload_type; begin o_payload := demo_queue_payload_type('what is you name ?'); dbms_aq.enqueue( queue_name => 'demo_queue', enqueue_options => r_enqueue_options, message_properties => r_message_properties, payload => o_payload, msgid => v_message_handle ); commit; end; 通过SQL语句查看消息是否正常入队： select from aq$demo_queue_table; select user_data from aq$demo_queue_table; 6. 出队消息使用Oracle进行出队操作，我没有实验成功(不确定是否和DBMS_OUTPUT的执行权限有关)，代码如下，读者可以进行调试： declare r_dequeue_options DBMS_AQ.DEQUEUE_OPTIONS_T; r_message_properties DBMS_AQ.MESSAGE_PROPERTIES_T; v_message_handle RAW(16); o_payload demo_queue_payload_type; begin DBMS_AQ.DEQUEUE( queue_name => 'demo_queue', dequeue_options => r_dequeue_options, message_properties => r_message_properties, payload => o_payload, msgid => v_message_handle ); DBMS_OUTPUT.PUT_LINE( ' Browse message is [' || o_payload.message || ']' ); end; 二、Java使用JMS监听并处理Oracle AQ队列 Java使用JMS进行相应的处理，需要使用Oracle提供的jar，在Oracle安装目录可以找到：在linux中可以使用find命令进行查找，例如 find pwd -name 'jmscommon.jar' 需要的jar为： app/oracle/product/12.1.0/dbhome_1/rdbms/jlib/jmscommon.jar app/oracle/product/12.1.0/dbhome_1/jdbc/lib/ojdbc7.jar app/oracle/product/12.1.0/dbhome_1/jlib/orai18n.jar app/oracle/product/12.1.0/dbhome_1/jlib/jta.jar app/oracle/product/12.1.0/dbhome_1/rdbms/jlib/aqapi_g.jar 1. 创建连接参数类实际使用时可以把参数信息配置在properties文件中，使用Spring进行注入。 package org.kevin.jms; / @author 李文锴连接参数信息 / public class JmsConfig { public String username = "ckevin"; public String password = "a111111111"; public String jdbcUrl = "jdbc:oracle:thin:@127.0.0.1:1521:orcl"; public String queueName = "demo_queue"; } 2. 创建消息转换类因为消息载荷是Oracle数据类型，需要提供一个转换工厂类将Oracle类型转换为Java类型。 package org.kevin.jms; import java.sql.SQLException; import oracle.jdbc.driver.OracleConnection; import oracle.jdbc.internal.OracleTypes; import oracle.jpub.runtime.MutableStruct; import oracle.sql.CustomDatum; import oracle.sql.CustomDatumFactory; import oracle.sql.Datum; import oracle.sql.STRUCT; / @author 李文锴数据类型转换类 / @SuppressWarnings("deprecation") public class QUEUE_MESSAGE_TYPE implements CustomDatum, CustomDatumFactory { public static final String _SQL_NAME = "QUEUE_MESSAGE_TYPE"; public static final int _SQL_TYPECODE = OracleTypes.STRUCT; MutableStruct _struct; // 12表示字符串 static int[] _sqlType = { 12 }; static CustomDatumFactory[] _factory = new CustomDatumFactory[1]; static final QUEUE_MESSAGE_TYPE _MessageFactory = new QUEUE_MESSAGE_TYPE(); public static CustomDatumFactory getFactory() { return _MessageFactory; } public QUEUE_MESSAGE_TYPE() { _struct = new MutableStruct(new Object[1], _sqlType, _factory); } public Datum toDatum(OracleConnection c) throws SQLException { return _struct.toDatum(c, _SQL_NAME); } public CustomDatum create(Datum d, int sqlType) throws SQLException { if (d == null) return null; QUEUE_MESSAGE_TYPE o = new QUEUE_MESSAGE_TYPE(); o._struct = new MutableStruct((STRUCT) d, _sqlType, _factory); return o; } public String getContent() throws SQLException { return (String) _struct.getAttribute(0); } } 3. 主类进行消息处理 package org.kevin.jms; import java.util.Properties; import javax.jms.Message; import javax.jms.MessageConsumer; import javax.jms.MessageListener; import javax.jms.Queue; import javax.jms.QueueConnection; import javax.jms.QueueConnectionFactory; import javax.jms.Session; import oracle.jms.AQjmsAdtMessage; import oracle.jms.AQjmsDestination; import oracle.jms.AQjmsFactory; import oracle.jms.AQjmsSession; / @author 李文锴消息处理类 / public class Main { public static void main(String[] args) throws Exception { JmsConfig config = new JmsConfig(); QueueConnectionFactory queueConnectionFactory = AQjmsFactory.getQueueConnectionFactory(config.jdbcUrl, new Properties()); QueueConnection conn = queueConnectionFactory.createQueueConnection(config.username, config.password); AQjmsSession session = (AQjmsSession) conn.createQueueSession(false, Session.AUTO_ACKNOWLEDGE); conn.start(); Queue queue = (AQjmsDestination) session.getQueue(config.username, config.queueName); MessageConsumer consumer = session.createConsumer(queue, null, QUEUE_MESSAGE_TYPE.getFactory(), null, false); consumer.setMessageListener(new MessageListener() { @Override public void onMessage(Message message) { System.out.println("ok"); AQjmsAdtMessage adtMessage = (AQjmsAdtMessage) message; try { QUEUE_MESSAGE_TYPE payload = (QUEUE_MESSAGE_TYPE) adtMessage.getAdtPayload(); System.out.println(payload.getContent()); } catch (Exception e) { e.printStackTrace(); } } }); Thread.sleep(1000000); } } 使用Oracle程序块进行入队操作，在没有启动Java时看到队列表中存在数据。启动Java后，控制台正确的输出的消息；通过Oracle程序块再次写入消息，发现控制台正确处理消息。Java的JMS监听不是立刻进行处理，可能存在几秒中的时间差，时间不等。三、监控表记录变化通知Java 下面的例子创建一个数据表，然后在表中添加触发器，当数据变化后触发器调用存储过程给Oracle AQ发送消息，然后使用Java JMS对消息进行处理。 1. 创建表创建student表，包含username和age两个子段，其中username时varchar2类型，age时number类型。 2. 创建存储过程创建send_aq_msg存储过程，因为存储过程中调用dbms数据包，系统包在存储过程中执行需要进行授权(使用sys用户进行授权)： grant execute on dbms_aq to ckevin; 注意存储过程中包含commit语句。 create or replace PROCEDURE send_aq_msg (info IN VARCHAR2) as r_enqueue_options DBMS_AQ.ENQUEUE_OPTIONS_T; r_message_properties DBMS_AQ.MESSAGE_PROPERTIES_T; v_message_handle RAW(16); o_payload demo_queue_payload_type; begin o_payload := demo_queue_payload_type(info); dbms_aq.enqueue( queue_name => 'demo_queue', enqueue_options => r_enqueue_options, message_properties => r_message_properties, payload => o_payload, msgid => v_message_handle ); commit; end send_aq_msg; 3. 创建触发器在student表中创建触发器，当数据写入或更新时，如果age=18，则进行入队操作。需要调用存储过程发送消息，但触发器中不能包含事物提交语句，因此需要使用pragma autonomous_transaction;声明自由事物： CREATE OR REPLACE TRIGGER STUDENT_TR AFTER INSERT OR UPDATE OF AGE ON STUDENT FOR EACH ROW DECLARE pragma autonomous_transaction; BEGIN if :new.age = 18 then send_aq_msg(:new.username); end if; END; 创建完触发器后向执行插入或更新操作： insert into student (username,age) values ('jack.lee.3k', 18); update student set age=18 where username='jack003'; Java JMS可以正确的处理消息。本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_42309178/article/details/115241521。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-17 14:22:22

140

转载

转载文章

[转载]Proxy 、Relect、响应式

...术博客文章来深入了解如何在实际项目中运用Proxy实现复杂的数据绑定与更新逻辑。此外，浏览器对ES6新特性的支持也在不断推进，当前所有现代浏览器均支持Proxy和Reflect。Mozilla开发者网络（MDN）提供了详尽的API文档和技术指南，帮助开发者更好地掌握这两个特性，并应用于日常开发工作中。同时，在前端框架领域，除了Vue之外，React Hooks的useState和useEffect也从另一个角度实现了数据响应式，它们通过函数组件状态管理和副作用钩子机制，间接实现了对数据变化的监听。读者可以对比研究两种不同的响应式实现方式，理解它们各自的优势与应用场景。最近，一些前沿的JavaScript库如MobX、RxJS等也在响应式编程上做出了新的探索，通过更高级的抽象和流处理思想，将响应式理念扩展到了异步编程和大规模应用架构层面。深入学习这些库的设计原理和实践案例，有助于我们拓宽视野，更好地适应未来JavaScript生态的发展趋势。综上所述，无论是紧跟最新的JavaScript语言特性发展动态，还是深入探究各类前端框架的响应式实现原理，都有助于我们提升代码质量和开发效率，为构建高性能、易于维护的现代Web应用奠定坚实基础。

2023-01-11 12:37:47

680

转载

转载文章

[转载]大数据——海量数据处理的基本方法总结

... 大数据——海量数据处理的基本方法总结声明：原文引用参考July大神的csdn博客文章 => 海量处理面试题海量数据处理概述所谓海量数据处理，就是数据量太大，无法在较短时间内迅速解决，无法一次性装入内存。本文在前人的基础上总结一下解决此类问题的办法。那么有什么解决办法呢? 时间复杂度方面，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树。空间复杂度方面，分而治之/hash映射。海量数据处理的基本方法总结起来分为以下几种：分而治之/hash映射 + hash统计 + 堆/快速/归并排序；双层桶划分； Bloom filter/Bitmap； Trie树/数据库/倒排索引；外排序；分布式处理之Hadoop/Mapreduce。前提基础知识： 1 byte= 8 bit。 int整形一般为4 bytes 共32位bit。 2^32=4G。 1G=2^30=10.7亿。 1 分而治之+hash映射+快速/归并/堆排序问题1 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？分析：50亿64=320G大小空间。算法思想1：hash 分解+ 分而治之 + 归并遍历文件a，对每个url根据某种hash规则求取hash(url)/1024，然后根据所取得的值将url分别存储到1024个小文件（a0~a1023）中。这样每个小文件的大约为300M。如果hash结果很集中使得某个文件ai过大，可以在对ai进行二级hash(ai0~ai1024)。这样url就被hash到1024个不同级别的目录中。然后可以分别比较文件，a0VSb0……a1023VSb1023。求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_map中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_map中，如果是，那么就是共同的url，存到文件里面就可以了。把1024个级别目录下相同的url合并起来。问题2 有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。解决思想1：hash分解+ 分而治之 +归并顺序读取10个文件a0~a9，按照hash(query)%10的结果将query写入到另外10个文件（记为 b0~b9）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。找一台内存2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件c0~c9。对这10个文件c0~c9进行归并排序（内排序与外排序相结合）。每次取c0~c9文件的m个数据放到内存中，进行10m个数据的归并，即使把归并好的数据存到d结果文件中。如果ci对应的m个数据全归并完了，再从ci余下的数据中取m个数据重新加载到内存中。直到所有ci文件的所有数据全部归并完成。解决思想2： Trie树如果query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。在这种假设前提下，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。问题3：有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。类似问题：怎么在海量数据中找出重复次数最多的一个？解决思想： hash分解+ 分而治之+归并顺序读文件中，对于每个词x，按照hash(x)/(10244)存到4096个小文件中。这样每个文件大概是250k左右。如果其中的有的文件超过了1M大小，还可以按照hash继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100词及相应的频率存入文件。这样又得到了4096个文件。下一步就是把这4096个文件进行归并的过程了。（类似与归并排序）问题4 海量日志数据，提取出某日访问百度次数最多的那个IP 解决思想： hash分解+ 分而治之 + 归并把这一天访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有2^32个IP。同样可以采用hash映射的方法，比如模1024，把整个大文件映射为1024个小文件。再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1024组最大的IP中，找出那个频率最大的IP，即为所求。问题5 海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。解决思想：分而治之 + 归并。注意TOP10是取最大值或最小值。如果取频率TOP10，就应该先hash分解。在每台电脑上求出TOP10，采用包含10个元素的堆完成（TOP10小，用最大堆，TOP10大，用最小堆）。比如求TOP10大，我们首先取前10个元素调整成最小堆，如果发现，然后扫描后面的数据，并与堆顶元素比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆。最后堆中的元素就是TOP10大。求出每台电脑上的TOP10后，然后把这100台电脑上的TOP10组合起来，共1000个数据，再利用上面类似的方法求出TOP10就可以了。问题6 在2.5亿个整数中找出不重复的整数，内存不足以容纳这2.5亿个整数。解决思路1 ： hash 分解+ 分而治之 + 归并 2.5亿个int数据hash到1024个小文件中a0~a1023，如果某个小文件大小还大于内存，进行多级hash。每个小文件读进内存，找出只出现一次的数据，输出到b0~b1023。最后数据合并即可。解决思路2 ： 2-Bitmap 如果内存够1GB的话，采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^322bit=1GB内存。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。注意，如果是找出重复的数据，可以用1-bitmap。第一次bit位由0变1，第二次查询到相应bit位为1说明是重复数据，输出即可。问题7 一共有N个机器，每个机器上有N个数。每个机器最多存O(N)个数并对它们操作。如何找到N^2个数中的中数？解决思想1 ： hash分解 + 排序按照升序顺序把这些数字，hash划分为N个范围段。假设数据范围是2^32 的unsigned int 类型。理论上第一台机器应该存的范围为0~(2^32)/N，第i台机器存的范围是(2^32)(i-1)/N~(2^32)i/N。hash过程可以扫描每个机器上的N个数，把属于第一个区段的数放到第一个机器上，属于第二个区段的数放到第二个机器上，…，属于第N个区段的数放到第N个机器上。注意这个过程每个机器上存储的数应该是O(N)的。然后我们依次统计每个机器上数的个数，一次累加，直到找到第k个机器，在该机器上累加的数大于或等于（N^2）/2，而在第k-1个机器上的累加数小于（N^2）/2，并把这个数记为x。那么我们要找的中位数在第k个机器中，排在第（N^2）/2-x位。然后我们对第k个机器的数排序，并找出第（N^2）/2-x个数，即为所求的中位数的复杂度是O（N^2）的。解决思想2：分而治之 + 归并先对每台机器上的数进行排序。排好序后，我们采用归并排序的思想，将这N个机器上的数归并起来得到最终的排序。找到第（N^2）/2个便是所求。复杂度是O（N^2 lgN^2）的。 2 Trie树+红黑树+hash_map 这里Trie树木、红黑树或者hash_map可以认为是第一部分中分而治之算法的具体实现方法之一。问题1 上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。解决思路：红黑树 + 堆排序如果是上千万或上亿的int数据，现在的机器4G内存可以能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计重复次数。然后取出前N个出现次数最多的数据，可以用包含N个元素的最小堆找出频率最大的N个数据。问题2 1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。请怎么设计和实现？解决思路：trie树。这题用trie树比较合适，hash_map也应该能行。问题3 一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。解决思路： trie树 + 堆排序这题是考虑时间效率。 1. 用trie树统计每个词出现的次数，时间复杂度是O(nlen)（len表示单词的平准长度）。 2. 然后找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(nlg10)。总的时间复杂度，是O(nle)与O(nlg10)中较大的哪一个。问题4 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。解决思想： trie树 + 堆排序采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3 BitMap或者Bloom Filter 3.1 BitMap BitMap说白了很easy，就是通过bit位为1或0来标识某个状态存不存在。可进行数据的快速查找，判重，删除，一般来说适合的处理数据范围小于82^32。否则内存超过4G，内存资源消耗有点多。问题1 已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。解决思路： bitmap 8位最多99 999 999，需要100M个bit位，不到12M的内存空间。我们把0-99 999 999的每个数字映射到一个Bit位上，所以只需要99M个Bit==12MBytes，这样，就用了小小的12M左右的内存表示了所有的8位数的电话问题2 2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。解决思路：2bit map 或者两个bitmap。将bit-map扩展一下，用2bit表示一个数即可，00表示未出现，01表示出现一次，10表示出现2次及以上，11可以暂时不用。在遍历这些数的时候，如果对应位置的值是00，则将其置为01；如果是01，将其置为10；如果是10，则保持不变。需要内存大小是2^32/82=1G内存。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map，都是一样的道理。 3.2 Bloom filter Bloom filter可以看做是对bit-map的扩展。参考july大神csdn文章 Bloom Filter 详解 4 Hadoop+MapReduce 参考引用july大神 csdn文章 MapReduce的初步理解 Hadoop框架与MapReduce模式转载请注明本文地址：大数据——海量数据处理的基本方法总结本篇文章为转载内容。原文链接：https://blog.csdn.net/hong2511/article/details/80842704。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-03-01 12:40:17

542

转载

转载文章

[转载]java开发操作系统：一个程序向另一个程序伸出的咸猪手

...给系统内核增加了中断处理，于是当应用程序妄图执行特权指令，想要染指内核运行时，中断会把程序强行切断，内核从中断中重新获得CPU的执行权限。虽说恶意用户程序难以攻击内核，但是系统当前还存在一个漏洞，使得恶意程序能取攻击另一个程序，我们看看这个问题到底是怎么实现的。我们先在内核C语言部分做简单修改，把原来的cmd_hlt函数改为cmd_execute_program: nt show_pos = 179;void cmd_execute_program(char file) {io_cli();struct Buffer appBuffer = (struct Buffer)memman_alloc(memman, 16);struct TASK task = task_now();task->pTaskBuffer = appBuffer;file_loadfile(file, appBuffer);struct SEGMENT_DESCRIPTOR gdt =(struct SEGMENT_DESCRIPTOR )get_addr_gdt();//select is multiply of 8, divided by 8 get the original valueint code_seg = 21 + (task->sel - first_task_cons_selector) / 8;//change hereint mem_seg = 30 + (task->sel - first_task_cons_selector) / 8;//22;char p = intToHexStr(mem_seg);showString(shtctl, sht_back, 0, show_pos, COL8_FFFFFF, p); show_pos += 16;set_segmdesc(gdt + code_seg, 0xfffff, (int) appBuffer->pBuffer, 0x409a + 0x60);//new memory char q = (char ) memman_alloc_4k(memman, 641024);appBuffer->pDataSeg = (unsigned char)q;set_segmdesc(gdt + mem_seg, 64 1024 - 1,(int) q ,0x4092 + 0x60);task->tss.esp0 = 0;io_sti();start_app(0, code_seg8,641024, mem_seg8, &(task->tss.esp0));io_cli();memman_free_4k(memman,(unsigned int) appBuffer->pBuffer, appBuffer->length);memman_free_4k(memman, (unsigned int) q, 64 1024);memman_free(memman,(unsigned int)appBuffer, 16);task->pTaskBuffer = 0;io_sti();}void console_task(struct SHEET sheet, int memtotal) {....for(;;) { ....else if (i == KEY_RETURN) {....} else if (strcmp(cmdline, "hlt") == 1) {//change herecmd_execute_program("abc.exe");}....}...} 原来的cmd_hlt函数默认加载并执行软盘中的abc.exe程序，现在我们把cmd_hlt改名为cmd_execute_program，并且函数需要传入一个字符串，用于表明要加载执行的程序名字。在该函数的代码实现中，我们使用showString函数把被加载执行的用户进程数据段所对应的全局描述符号给显示到桌面上，上面代码执行后情况如下：我们看到，在控制台中执行hlt命令后，内核加载了用户进程，同时在控制台下方输出了一个字符串，也就是0x1E,这个数值对应的就是当前运行用户进程其数据段对应的全局描述符号。一旦有这个信息之后，另一个进程就可以有机可乘了。接着我们在本地目录创建一个新文件叫crack.c,其内容如下： void main() {char p = (char)0x123;p[0] = 'c';p[1] = 'r';p[2] = 'a';p[3] = 'c';p[4] = 'k';p[5] = 0;} 它的目的简单，就是针对内存地址0x123处写入字符串”crack”.接着我们修改一下makefile，使得内核编译时，能把crack.c编译成二进制文件： CFLAGS=-fno-stack-protectorckernel : ckernel_u.asm app_u.asm crack_u.asm cp ckernel_u.asm win_sheet.h win_sheet.c mem_util.h mem_util.c write_vga_desktop.c timer.c timer.h global_define.h global_define.c multi_task.c multi_task.h app_u.asm app.c crack_u.asm crack.c makefile '/media/psf/Home/Documents/操作系统/文档/19/OS-kernel-win-sheet/'ckernel_u.asm : ckernel.o....crack_u.asm : crack.o./objconv -fnasm crack.o crack_u.asmcrack.o : crack.cgcc -m32 -fno-stack-protector -fno-asynchronous-unwind-tables -s -c -o crack.o crack.c 然后我们在本地目录下，把api_call.asm拷贝一份，并命名为crack_call.asm,后者内容与前者完全相同，只不过稍微有那么一点点改变，例如： BITS 32mov AX, 30 8mov DS, axcall mainmov edx, 4 ;返回内核int 02Dh.... 这里需要注意，语句： mov AX, 30 8mov DS, ax 其中30对应的就是前面显示的0x1E，这两句汇编的作用是，把程序crack的数据段设置成下标为30的全局描述符所指向的内存段一致。这就意味着crack进程所使用的数据段就跟hlt启动的进程所使用的数据段一致了！于是在crack.c中，它对内存地址为0x123的地方写入字符串”crack”,那就意味着对hlt加载用户进程的内存空间写入对应字符串！完成上面代码后，我们在java项目中，增加代码，一是用来编译crack进程，而是把crack代码写入虚拟磁盘。在OperatingSystem.java中，将代码做如下添加： public void makeFllopy() {writeFileToFloppy("kernel.bat", false, 1, 1);....header = new FileHeader();header.setFileName("crack");header.setFileExt("exe");file = new File("crack.bat");in = null;try {in = new FileInputStream(file);long len = file.length();int count = 0;while (count < file.length()) {bbuf[count] = (byte) in.read();count++;}in.close();}catch(IOException e) {e.printStackTrace();return;}header.setFileContent(bbuf);fileSys.addHeader(header);....}public static void main(String[] args) {CKernelAsmPrecessor kernelPrecessor = new CKernelAsmPrecessor();kernelPrecessor.process();kernelPrecessor.createKernelBinary();CKernelAsmPrecessor appPrecessor = new CKernelAsmPrecessor("hlt.bat", "app_u.asm", "app.asm", "api_call.asm");appPrecessor.process();appPrecessor.createKernelBinary();CKernelAsmPrecessor crackPrecessor = new CKernelAsmPrecessor("crack.bat", "crack_u.asm", "crack.asm", "crack_call.asm");crackPrecessor.process();crackPrecessor.createKernelBinary();OperatingSystem op = new OperatingSystem("boot.bat");op.makeFllopy();} 在main函数中，我们把crack.c及其附属汇编文件结合在一起，编译成二进制文件crack.bat，在makeFllopy中，我们把编译后的crack.bat二进制数据读入，并把它写入到虚拟磁盘中，当系统运行起来后，可以把crack.bat二进制内容作为进程加载执行。完成上面代码后，回到内核的C语言部分，也就是write_vga_desktop.c做一些修改，在kernel_api函数中，修改如下： int kernel_api(int edi, int esi, int ebp, int esp,int ebx, int edx, int ecx, int eax) {....else if (edx == 14) {sheet_free(shtctl, (struct SHEET)ebx);//change herecons_putstr((char)(task->pTaskBuffer->pDataSeg + 0x123));}....}void console_task(struct SHEET sheet, int memtotal) {....for(;;) {....else if (i == KEY_RETURN) {....else if (strcmp(cmdline, "crack") == 1) {cmd_execute_program("crack.exe");}....}....} 在kernel_api中，if(edx == 14)对应的api调用是api_closewin，也就是当用户进程关闭窗口时，我们把进程数据偏移0x123处的数据当做字符串打印到控制台窗口上，在console_task控制台进程主函数中，我们增加了对命令crack的响应，当用户在控制台上输入命令”crack”时，将crack代码加载到内核中运行。上面代码完成后，编译内核，然后用虚拟机将内核加载，系统启动后，我们现在一个控制台中输入hlt，先启动用户进程。然后点击”shift + w”,启动另一个控制台窗口，在其中输入crack，运行crack程序：接着把点击tab键，把焦点恢复到窗口task_a，然后用鼠标点击运行hlt命令的窗口，把输入焦点切换到该控制台，然后再次点击tab键，把执行权限提交给运行hlt命令的控制台，此时点击回车，介绍用户进程启动的窗口，结果情况如下：此时我们可以看到，运行hlt命令，执行用户进程的控制台窗口居然输出了字符串”crack”,而这个字符串正是crack.c在执行时，写入地址0x123的字符串。这就意味着一个恶意进程成功修改了另一个进程的内存数据，也相当于一个流氓程序把一只咸猪手伸到其他用户进程的裙底，蹂躏一番后留下了猥琐的证据。那么如何防范恶意进程对其他程序的非法入侵呢，这就得使用CPU提供的LDT机制，也就是局部描述符表，该机制的使用，我们将在下一节详细讲解。更详细的讲解和代码演示调试，请参看视频：更详细的讲解和代码调试演示过程，请参看视频 Linux kernel Hacker, 从零构建自己的内核更多技术信息，包括操作系统，编译器，面试算法，机器学习，人工智能，请关照我的公众号：本篇文章为转载内容。原文链接：https://blog.csdn.net/tyler_download/article/details/78731905。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-14 19:08:07

256

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

journalctl - 查看系统日志。