...统的编码和算法设计，数据科学、机器学习和人工智能的知识已经成为高级程序员的新标签。他们可能需要理解如何编写和维护复杂的AI模型，或者利用自动化工具进行持续集成和持续部署（CI/CD）。此外，软技能的提升同样重要，比如跨部门合作、沟通能力、项目管理以及领导力。技术经理不仅需要协调团队，还要懂得如何在快速变化的技术环境中做出明智的战略决策。技术总监则需要具备战略视野，引导公司技术转型，适应数字化和云计算的大趋势。正如古罗马哲学家塞内卡所说：“技术的进步并非为了使我们摆脱劳动，而是为了让我们能从事更有价值的工作。”未来的程序员，无论在哪个层级，都需要在专业技能和技术领导力上保持与时俱进，以适应行业的变革和创新。

2024-05-10 13:13:48

755

转载

MySQL

MySQL错误日志中Too many open files解决实录：定位+配置+运维经验+调试优化

...全球范围内云计算和大数据技术的快速发展，数据库运维领域也迎来了新的挑战与机遇。以MySQL为代表的开源关系型数据库，在企业级应用中依然占据主导地位，但伴随其广泛使用的是愈发复杂的系统架构和更高的性能需求。就在上周，某知名电商公司在其大规模分布式数据库集群中遭遇了类似的问题——由于未及时调整文件描述符限制，导致核心业务系统在高并发访问时频繁出现“Too many open files”的错误，严重影响用户体验。这一事件引发了业内对于数据库资源管理的关注。事实上，此类问题并非孤立存在。根据权威机构发布的最新报告显示，近年来因数据库配置不当而导致的服务中断比例逐年上升。特别是在互联网行业，随着微服务架构的普及，单个应用程序可能依赖数十甚至上百个数据库实例，这对数据库的稳定性提出了更高要求。此外，随着人工智能算法模型训练需求的增长，大模型的数据存储与计算任务也给传统数据库带来了前所未有的压力。针对上述趋势，国内外多家科技公司已经开始探索更加智能化的数据库运维解决方案。例如，谷歌推出的Cloud SQL自动扩展功能可以根据实时流量动态调整资源分配，从而有效缓解类似问题的发生；阿里云则推出了PolarDB-X产品线，专门针对超高并发场景进行了优化设计。这些创新举措表明，未来数据库运维将朝着自动化、智能化方向发展。与此同时，开源社区也在积极贡献力量。Linux内核开发者近日宣布，将在即将发布的5.18版本中引入一项名为“FD-PIN”的新特性，该特性能够显著提高文件描述符管理效率，为数据库等高性能应用场景提供更多可能性。这无疑为解决“Too many open files”这类经典问题提供了全新思路。综上所述，无论是从技术演进还是实际案例来看，如何高效管理数据库资源已成为当下亟待解决的重要课题。作为从业者，我们需要紧跟时代步伐，不断学习新技术，同时注重实践经验积累，唯有如此才能更好地应对未来的挑战。

2025-04-17 16:17:44

109

山涧溪流_

转载文章

[转载]英特尔oneAPI——异构计算学习总结

...结 oneAPI编程模型多架构编程面临的挑战 SYCL DPC++ 编译和运行DPC++程序编程实例实现矢量加法 queue类 Parallel kernel 通用的并行编程模板 Host Accessor 矢量相加源代码统一共享内存 (Unified Shared Memory USM) USM语法数据依赖 wait() depends_on in_order queue property 练习1：事件依赖练习2：事件依赖 UMS实验 oneAPI编程模型 oneAPI编程模型提供了一个全面、统一的开发人员工具组合，可用于各种硬件设备，其中包括跨多个工作负载领域的一系列性能库。这些库包括面向各目标架构而定制化代码的函数，因此相同的函数调用可为各种支持的架构提供优化的性能。DPC++基于行业标准和开放规范，旨在鼓励生态系统的协作和创新。多架构编程面临的挑战在以数据为中心的环境中，专用工作负载的数量不断增长。专用负载通常因为没有通用的编程语言或API而需要使用不同的语言和库进行编程，这就需要维护各自独立的代码库。由于跨平台的工具支持不一致，因此开发人员必须学习和使用一整套不同的工具。单独投入精力给每种硬件平台开发软件。 oneAPI则可以利用一种统一的编程模型以及支持并行性的库，支持包括CPU、GPU、FPGA等硬件等同于原生高级语言的开发性能，并且可以与现有的HPC编程模型交互。 SYCL SYCL支持C++数据并行编程，SYCL和OpenCL一样都是由Khronos Group管理的，SYCL是建立在OpenCL之上的跨平台抽象层，支持用C++用单源语言方式编写用于异构处理器的与设备无关的代码。 DPC++ DPC++(Data Parallel C++)是一种单源语言，可以将主机代码和异构加速器内核写在同一个文件当中，在主机中调用DPC++程序，计算由加速器执行。DPC++代码简洁且效率高，并且是开源的。现有的CUDA应用、Fortran应用、OpenCL应用都可以用不同方式很方便地迁移到DPC++当中。下图显示了原来使用不同架构的HPC开发人员的一些推荐的转换方法。编译和运行DPC++程序编译和运行DPC++程序主要包括三步：初始化环境变量编译DPC++源代码运行程序例如本地运行，在本地系统上安装英特尔基础工具套件，使用以下命令编译和运行DPC++程序。 source /opt/intel/inteloneapi/setvars.shdpcpp simple.cpp -o simple./simple 编程实例实现矢量加法以下实例描述了使用DPC++实现矢量加法的过程和源代码。 queue类 queue类用来提交给SYCL执行的命令组，是将作业提交到运算设备的一种机制，多个queue可以映射到同一个设备。 Parallel kernel Parallel kernel允许代码并行执行，对于一个不具有相关性的循环数据操作，可以用Parallel kernel并行实现在C++代码中的循环实现 for(int i=0; i < 1024; i++){a[i] = b[i] + c[i];}); 在Parallel kernel中的并行实现 h.parallel_for(range<1>(1024), [=](id<1> i){A[i] = B[i] + C[i];}); 通用的并行编程模板 h.parallel_for(range<1>(1024), [=](id<1> i){// CODE THAT RUNS ON DEVICE }); range用来生成一个迭代序列，1为步长，在循环体中，i表示索引。 Host Accessor Host Accessor是使用主机缓冲区访问目标的访问器，它使访问的数据可以在主机上使用。通过构建Host Accessor可以将数据同步回主机，除此之外还可以通过销毁缓冲区将数据同步回主机。 buf是存储数据的缓冲区。 host_accessor b(buf,read_only); 除此之外还可以将buf设置为局部变量，当系统超出buf生存期，buf被销毁，数据也将转移到主机中。矢量相加源代码根据上面的知识，这里展示了利用DPC++实现矢量相加的代码。 //第一行在jupyter中指明了该cpp文件的保存位置%%writefile lab/vector_add.cppinclude <CL/sycl.hpp>using namespace sycl;int main() {const int N = 256;// 初始化两个队列并打印std::vector<int> vector1(N, 10);std::cout<<"\nInput Vector1: "; for (int i = 0; i < N; i++) std::cout << vector1[i] << " ";std::vector<int> vector2(N, 20);std::cout<<"\nInput Vector2: "; for (int i = 0; i < N; i++) std::cout << vector2[i] << " ";// 创建缓存区buffer vector1_buffer(vector1);buffer vector2_buffer(vector2);// 提交矢量相加任务queue q;q.submit([&](handler &h) {// 为缓存区创建访问器accessor vector1_accessor (vector1_buffer,h);accessor vector2_accessor (vector2_buffer,h);h.parallel_for(range<1>(N), [=](id<1> index) {vector1_accessor[index] += vector2_accessor[index];});});// 创建主机访问器将设备中数据拷贝到主机当中host_accessor h_a(vector1_buffer,read_only);std::cout<<"\nOutput Values: ";for (int i = 0; i < N; i++) std::cout<< vector1[i] << " ";std::cout<<"\n";return 0;} 运行结果统一共享内存 (Unified Shared Memory USM) 统一共享内存是一种基于指针的方法，是将CPU内存和GPU内存进行统一的虚拟化方法，对于C++来说，指针操作内存是很常规的方式，USM也可以最大限度的减少C++移植到DPC++的代价。下图显示了非USM(左)和USM(右)的程序员开发视角。类型函数调用说明在主机上可访问在设备上可访问设备 malloc_device 在设备上分配（显式）否是主机 malloc_host 在主机上分配（隐式）是是共享 malloc_shared 分配可以在主机和设备之间迁移（隐式）是是 USM语法初始化： int data = malloc_shared<int>(N, q); int data = static_cast<int >(malloc_shared(N sizeof(int), q)); 释放 free(data,q); 使用共享内存之后，程序将自动在主机和运算设备之间隐式移动数据。数据依赖使用USM时，要注意数据之间的依赖关系以及事件之间的依赖关系，如果两个线程同时修改同一个内存区，将产生不可预测的结果。我们可以使用不同的选项管理数据依赖关系：内核任务中的 wait() 使用 depends_on 方法使用 in_queue 队列属性 wait() q.submit([&](handler &h) {h.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 2; });}).wait(); // <--- wait() will make sure that task is complete before continuingq.submit([&](handler &h) {h.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 3; });}); depends_on auto e = q.submit([&](handler &h) { // <--- e is event for kernel taskh.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 2; });});q.submit([&](handler &h) {h.depends_on(e); // <--- waits until event e is completeh.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 3; });}); in_order queue property queue q(property_list{property::queue::in_order()}); // <--- this will make sure all the task with q are executed sequentially 练习1：事件依赖以下代码使用 USM，并有三个提交到设备的内核。每个内核修改相同的数据阵列。三个队列之间没有数据依赖关系为每个队列提交添加 wait() 在第二个和第三个内核任务中实施 depends_on() 方法使用 in_order 队列属性，而非常规队列： queue q{property::queue::in_order()}; %%writefile lab/usm_data.cppinclude <CL/sycl.hpp>using namespace sycl;static const int N = 256;int main() {queue q{property::queue::in_order()};//用队列限制执行顺序std::cout << "Device : " << q.get_device().get_info<info::device::name>() << "\n";int data = static_cast<int >(malloc_shared(N sizeof(int), q));for (int i = 0; i < N; i++) data[i] = 10;q.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 2; });q.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 3; });q.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 5; });q.wait();//wait阻塞进程for (int i = 0; i < N; i++) std::cout << data[i] << " ";std::cout << "\n";free(data, q);return 0;} 执行结果练习2：事件依赖以下代码使用 USM，并有三个提交到设备的内核。前两个内核修改了两个不同的内存对象，第三个内核对前两个内核具有依赖性。三个队列之间没有数据依赖关系 %%writefile lab/usm_data2.cppinclude <CL/sycl.hpp>using namespace sycl;static const int N = 1024;int main() {queue q;std::cout << "Device : " << q.get_device().get_info<info::device::name>() << "\n";//设备选择int data1 = malloc_shared<int>(N, q);int data2 = malloc_shared<int>(N, q);for (int i = 0; i < N; i++) {data1[i] = 10;data2[i] = 10;}auto e1 = q.parallel_for(range<1>(N), [=](id<1> i) { data1[i] += 2; });auto e2 = q.parallel_for(range<1>(N), [=](id<1> i) { data2[i] += 3; });//e1,e2指向两个事件内核q.parallel_for(range<1>(N),{e1,e2}, [=](id<1> i) { data1[i] += data2[i]; }).wait();//depend on e1,e2for (int i = 0; i < N; i++) std::cout << data1[i] << " ";std::cout << "\n";free(data1, q);free(data2, q);return 0;} 运行结果 UMS实验在主机中初始化两个vector，初始数据为25和49，在设备中初始化两个vector，将主机中的数据拷贝到设备当中，在设备当中并行计算原始数据的根号值，然后将data1_device和data2_device的数值相加，最后将数据拷贝回主机当中，检验最后相加的和是否是12，程序结束前将内存释放。 %%writefile lab/usm_lab.cppinclude <CL/sycl.hpp>include <cmath>using namespace sycl;static const int N = 1024;int main() {queue q;std::cout << "Device : " << q.get_device().get_info<info::device::name>() << "\n";//intialize 2 arrays on hostint data1 = static_cast<int >(malloc(N sizeof(int)));int data2 = static_cast<int >(malloc(N sizeof(int)));for (int i = 0; i < N; i++) {data1[i] = 25;data2[i] = 49;}// STEP 1 : Create USM device allocation for data1 and data2int data1_device = static_cast<int >(malloc_device(N sizeof(int),q));int data2_device = static_cast<int >(malloc_device(N sizeof(int),q));// STEP 2 : Copy data1 and data2 to USM device allocationq.memcpy(data1_device, data1, sizeof(int) N).wait();q.memcpy(data2_device, data2, sizeof(int) N).wait();// STEP 3 : Write kernel code to update data1 on device with sqrt of valueauto e1 = q.parallel_for(range<1>(N), [=](id<1> i) { data1_device[i] = std::sqrt(25); });auto e2 = q.parallel_for(range<1>(N), [=](id<1> i) { data2_device[i] = std::sqrt(49); });// STEP 5 : Write kernel code to add data2 on device to data1q.parallel_for(range<1>(N),{e1,e2}, [=](id<1> i) { data1_device[i] += data2_device[i]; }).wait();// STEP 6 : Copy data1 on device to hostq.memcpy(data1, data1_device, sizeof(int) N).wait();q.memcpy(data2, data2_device, sizeof(int) N).wait();// verify resultsint fail = 0;for (int i = 0; i < N; i++) if(data1[i] != 12) {fail = 1; break;}if(fail == 1) std::cout << " FAIL"; else std::cout << " PASS";std::cout << "\n";// STEP 7 : Free USM device allocationsfree(data1_device, q);free(data1);free(data2_device, q);free(data2);// STEP 8 : Add event based kernel dependency for the Steps 2 - 6return 0;} 运行结果本篇文章为转载内容。原文链接：https://blog.csdn.net/MCKZX/article/details/127630566。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-07-22 10:28:50

321

转载

Apache Solr

外部服务依赖下，大型互联网应用的网络连接优化：缓存策略与重试机制

...松地集成外部服务，如数据存储、计算能力、机器学习模型等。这些服务的即时可用性和全球分布特性，使得应用能够在面临网络延迟或服务中断时，快速转向其他可用资源，从而显著提升了应用的韧性和用户体验。边缘计算则是云计算的延伸，它将计算和数据存储能力推向离用户更近的位置，例如智能设备、物联网节点或数据中心的边缘位置。这种部署方式减少了数据在中心云之间传输的距离，降低了延迟，同时提高了数据处理速度和实时性。边缘计算特别适用于需要低延迟响应的应用场景，如实时视频流处理、自动驾驶系统等，通过本地化计算和决策，显著提高了系统的整体性能和可靠性。结合Apache Solr的应用场景，边缘计算和云计算的融合为优化网络连接、提高搜索性能提供了新路径。例如，通过在边缘节点部署轻量级Solr实例，结合云端提供的外部服务，可以实现数据的就近处理和快速响应，同时利用云端的弹性扩展能力应对突发流量或服务需求。此外，边缘计算还能作为数据预处理的节点，减少向云中心传输的数据量，进一步优化网络带宽使用和加速查询响应时间。总之，云计算和边缘计算的结合，为构建更加稳定、高效且具有弹性的依赖外部服务的系统提供了丰富的技术和实践路径。它们不仅能够改善网络连接问题，还能够促进数据分析、机器学习等高级功能的部署，为用户提供更高质量的服务体验。随着技术的不断进步，未来在优化Apache Solr等搜索引擎性能方面，我们可以期待更多创新的解决方案和实践。

2024-09-21 16:30:17

风轻云淡

转载文章

[转载]python描述_Python描述符（Descriptor）入门

...泛地运用描述符来实现模型字段的动态行为，如django.db.models.fields.files.FieldFile就是利用描述符实现文件字段的上传、下载及删除等功能。此外，针对数据验证和业务逻辑封装，一些高级ORM库也引入了自定义描述符设计模式，以提供更为灵活且安全的数据访问控制。另一方面，Python 3.9引入了新的__set_name__方法，该方法适用于描述符对象，以便在描述符被绑定到类属性时通知其宿主类和名称，为描述符提供了更多的上下文信息，增强了其在复杂场景下的适用性和可读性。同时，随着Python异步编程的发展，一些库也开始尝试将描述符应用于异步环境，比如通过实现异步描述符来控制异步属性的获取和设置，确保在处理并发请求时能够遵循正确的执行顺序，从而提高程序性能和稳定性。综上所述，描述符作为Python面向对象编程的核心技术之一，其应用正不断拓展深化，并随着Python语言的演进保持着极高的时效性和实用性。对于开发者而言，掌握并合理运用描述符机制不仅能提升代码质量，还能有效应对各种复杂的业务场景需求。

2023-05-07 19:03:49

转载

转载文章

[转载]著名的721法则，你我知道的越早越好（附Python零基础付费学习资料分享）

...1法则是一种经验分配模型，表示个体获取知识和技能的过程中，约70%的经验和成长来源于实践操作，20%来自与他人的交流和反馈，剩下的10%则通过阅读书籍、参加培训等方式获得。这一法则强调了实践在个人能力提升中的核心地位。 matplotlib , matplotlib是Python编程语言中一个强大的数据可视化库，它能够创建各种静态、动态、交互式的图表，包括直方图、散点图、线图、饼图等。在本文中，作者使用matplotlib来绘制展示721法则的饼状图，直观地呈现了实践、交流与反馈、培训与学习之间的比例关系。 Python全套学习资料 , 这里指的是为了帮助初学者或进阶者更好地掌握Python编程技能而提供的系列学习资源集合，包含了视频教程、实战案例、源代码、课件、面试真题以及电子书籍等多种形式的学习材料。这些资料覆盖了Python入门到高阶的各种知识点，并结合实际应用场景，旨在全方位提升学习者的理论知识和实践经验。文章末尾，作者提供了免费领取这些Python全套学习资料的方式，以支持更多人通过实践来提升Python编程能力。

2023-06-04 23:38:21

105

转载

Tornado

基于Tornado和Google Cloud Secret Manager构建加密存储敏感信息的Web服务

...速响应前端请求并返回数据。与其他同步阻塞型框架相比，Tornado通过事件驱动的方式提高了系统的吞吐量和响应速度，尤其适用于需要高并发处理的场景，例如在线聊天室或实时数据分析。 Google Cloud Secret Manager , Google Cloud Secret Manager是一种云服务，专门用于安全地存储和管理敏感信息，如API密钥、密码和其他凭据。本文中，Secret Manager被用来替代传统的硬编码方式，将敏感信息集中存储并加密保护。通过使用该服务，开发者可以轻松地从存储中检索所需的密钥，并将其注入到应用程序中，从而避免了直接将敏感信息暴露在代码或配置文件中所带来的安全隐患。此外，Secret Manager还提供了精细的访问控制机制，确保只有授权用户才能访问这些敏感数据。异步非阻塞 , 异步非阻塞是一种编程模型，旨在提高程序的并发处理能力和响应效率。在这种模式下，当某个操作（如I/O请求）正在进行时，程序不会等待结果而是继续执行其他任务。本文中，Tornado框架正是利用了这种特性来实现高效的Web服务。例如，当服务器接收到多个客户端请求时，它可以同时处理这些请求而不必逐个等待每个请求完成。这种方式极大地提升了服务器的处理能力，特别是在面对大量并发连接时表现出色。与传统的同步阻塞式编程相比，异步非阻塞减少了资源消耗并加快了整体响应时间。

2025-04-09 15:38:23

追梦人

转载文章

[转载]程序员入门编程，看这10本书，少走10年弯路，java二级教学视频

...并应用于Web开发、数据可视化等多个热门领域，具有极强的时效性和实用性。同时，针对近年来愈发重要的数据结构与算法领域，LeetCode等在线平台提供了大量实时更新的题目和详尽解析，为《算法导论》的学习者们提供了丰富的实战演练机会。众多科技公司也将LeetCode上的刷题成果视为衡量程序员技术水平的重要标准之一。另外，在云计算、容器化技术大行其道的今天，《Docker in Action》成为了深入理解容器技术和实践DevOps理念的必备读物。它不仅介绍了Docker的基础操作，更探讨了如何利用Docker实现持续集成、微服务架构设计等前沿议题。此外，随着人工智能与机器学习热潮的兴起，《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》成为许多想入门AI领域的读者首选。此书通过实例教学，使读者能迅速掌握使用Python进行机器学习模型构建与应用部署。综上所述，结合经典书籍与最新技术趋势的延伸阅读，能够帮助学习者拓宽视野、增强技能，更好地应对日新月异的计算机科学技术挑战。

2023-12-11 11:49:14

119

转载

Hive

Hive中使用GZIP与BZIP2压缩格式构建外部表以提升性能优化

... 大家好啊，我是你的数据工程师小A。嘿，今天咱们来聊个有点“叛逆”的事儿——你知道吗？在Hive里头，有些压缩格式虽然官方文档上明晃晃地写着“不支持”，但其实很多人还在偷偷用，像GZIP和BZIP2这些就挺典型的。这事儿听着是不是还挺有意思？相当于跟官方规矩唱反调嘛！哈哈，我知道这话听着可能有点“疯疯癫癫”的，但说实话，谁还没点被迫走出舒适区的时候呢？比如为了给硬盘腾地方，或者让数据库跑得更快一点，咱总得豁出去折腾折腾吧！先简单介绍一下背景吧。Hive其实就像是个建在Hadoop上的“数据仓库”，它能帮我们把有条理的数据存到HDFS里，然后用类似SQL的语句去查询和处理这些数据，特别方便！Hive默认支持一些常见的压缩格式，比如Snappy、LZO等。哎呀，你要是想用GZIP或者BZIP2来存表，那可得小心点啊！没准Hive会直接给你整出个错误，连数据都不让你加载。这到底是咋回事儿呢？其实吧，这是因为这两种压缩方式的性格和Hive的理念不太合拍。简单来说，它们的玩法不一样，所以Hive就觉得有点不爽，干脆就不让你这么干了。那么问题来了：既然Hive不支持它们，为什么我们还要去折腾这些“非主流”压缩格式呢？我的回答是：因为它们可能真的有用！比如，GZIP非常适合用于压缩单个文件，而BZIP2则在某些场景下能提供更高的压缩比。所以说嘛，官方案子虽然说了不让搞，但我们不妨大胆试试，看看这些玩意儿到底能整出啥名堂！ --- 二、理论基础 GZIP vs BZIP2 vs Hive的“规则” 在深入讨论具体操作之前，我们得先搞清楚这三个东西之间的差异。嘿，先说个大家可能都知道的小秘密——GZIP可是个超火的压缩“神器”呢！它最大的特点就是又快又好用，压缩文件的速度嗖一下就搞定了，效果也还行，妥妥的性价比之王！而BZIP2则是另一种高级压缩算法，虽然压缩比更高，但速度相对较慢。相比之下，Hive好像更喜欢找那种“全能型选手”，就像Snappy这种，又快又能省资源，简直两全其美！现在问题来了：既然Hive有自己的偏好，那我们为什么要挑战它的权威呢？答案很简单：现实世界中的需求往往比理想模型复杂得多。比如说啊，有时候我们有一堆小文件，东一个西一个的，看着就头疼，想把它们整整齐齐地打包成一个大文件存起来，这时候用GZIP就很方便啦！但要是你手头的数据量超级大，比如几百万张高清图片那种，而且你还特别在意压缩效果，希望能榨干每一丢丢空间，那BZIP2就更适合你了，它在这方面可是个狠角色！当然，这一切的前提是我们能够绕过Hive对这些格式的限制。接下来，我们就来看看具体的解决方案。 --- 三、实践篇如何让Hive接受GZIP和BZIP2？ 3.1 GZIP的逆袭之路让我们从GZIP开始说起。想象一下，你有个文件夹，专门用来存各种日志文件，里面的文件可多啦！不过呢，这些文件都特别小巧，大概就几百KB的样子，像是些小纸条，记录着各种小事。哎呀，要是直接把一堆小文件一股脑儿塞进HDFS里，那可就麻烦了！这么多小文件堆在一起，系统就会变得特别卡，整体性能直线下降，简直像路上突然挤满了慢吞吞的小汽车，堵得不行！要解决这个问题嘛，咱们可以先把文件用GZIP压缩一下，弄个小“压缩包”，然后再把它丢进Hive里头去。下面是一段示例代码，展示了如何创建一个支持GZIP格式的外部表： sql -- 创建数据库 CREATE DATABASE IF NOT EXISTS log_db; -- 切换到数据库 USE log_db; -- 创建外部表并指定GZIP格式 CREATE EXTERNAL TABLE IF NOT EXISTS logs ( id STRING, timestamp STRING, message STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE -- 注意这里使用TEXTFILE而不是默认的SEQUENCEFILE LOCATION '/path/to/gzipped/files'; 看到这里，你可能会问：“为什么这里要用TEXTFILE而不是SEQUENCEFILE？”这是因为Hive默认不支持直接读取GZIP格式的数据，所以我们需要手动调整存储格式。此外，还需要确保你的Hadoop集群已经启用了GZIP解压功能。 3.2 BZIP2的高阶玩法接下来轮到BZIP2登场了。相比于GZIP，BZIP2的压缩比更高，但它也有一个明显的缺点：解压速度较慢。因此，BZIP2更适合用于那些访问频率较低的大规模静态数据集。下面这段代码展示了如何创建一个支持BZIP2格式的分区表： sql -- 创建数据库 CREATE DATABASE IF NOT EXISTS archive_db; -- 切换到数据库 USE archive_db; -- 创建分区表并指定BZIP2格式 CREATE TABLE IF NOT EXISTS archives ( file_name STRING, content STRING ) PARTITIONED BY (year INT, month INT) STORED AS RCFILE -- RCFILE支持BZIP2压缩 TBLPROPERTIES ("orc.compress"="BZIP2"); 需要注意的是，在这种情况下，你需要确保Hive的配置文件中启用了BZIP2支持，并且相关的JAR包已经正确安装。 --- 四、实战经验分享踩过的坑与学到的东西在这个过程中，我遇到了不少挫折。比如说吧，有次我正打算把一个GZIP文件塞进Hive里，结果系统直接给我整了个报错，说啥解码器找不着。折腾了半天才发现，哎呀，原来是服务器上那个GZIP工具的老版本太不给劲了，跟最新的Hadoop配不上，闹起了脾气！于是，我赶紧联系运维团队升级了相关依赖，这才顺利解决问题。还有一个教训是关于文件命名规范的。一开始啊，我老是忘了在压缩完的文件后面加“.gz”或者“.bz2”这种后缀名，搞得 Hive 一脸懵逼，根本分不清文件是啥类型的，直接就报错不认账了。后来我才明白，那些后缀名可不只是个摆设啊，它们其实是给文件贴标签的，告诉你这个文件是啥玩意儿，是图片、音乐，还是什么乱七八糟的东西。 --- 五、总结与展望总的来说，虽然Hive对GZIP和BZIP2的支持有限，但这并不意味着我们不能利用它们的优势。相反，只要掌握了正确的技巧，我们完全可以在这两者之间找到平衡点，满足不同的业务需求。最后，我想说的是，作为一名数据工程师，我们不应该被工具的限制束缚住手脚。相反，我们应该敢于尝试新事物，勇于突破常规。毕竟，正是这种探索精神，推动着整个行业不断向前发展！好了，今天的分享就到这里啦。如果你也有类似的经历或者想法，欢迎随时跟我交流哦~再见啦！

2025-04-19 16:20:43

翡翠梦境

Apache Lucene

文本检索挑战：从Lucene的EOFException剖析分词器与分析器配置

...牛的！在处理海量文本数据的时候，无论是建立索引还是进行搜索，它都能玩得飞起，简直就像是个搜索界的超级英雄！它的效率高，用起来又非常灵活，想怎么调整都行，真是让人大呼过瘾。然而，即便是如此强大的工具，也并非没有挑战。本文将深入探讨一个常见的错误——org.apache.lucene.analysis.TokenStream$EOFException: End of stream，并尝试通过实例代码来揭示其背后的原因与解决之道。第一部分：理解 TokenStream 和 EOFException TokenStream 是 Lucene 提供的一个抽象类，它负责将输入的文本分割成一系列可处理的令牌（tokens），这些令牌是构成文本的基本单位，例如单词、符号等。当 TokenStream 遇到文件末尾（EOF），即无法获取更多令牌时，就会抛出 EOFException。示例代码：创建 TokenStream 并处理 EOFException 首先，我们编写一段简单的代码来生成一个 TokenStream，并观察如何处理可能出现的 EOFException。 java import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.analysis.tokenattributes.OffsetAttribute; import org.apache.lucene.document.Document; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.store.Directory; import org.apache.lucene.store.RAMDirectory; import org.apache.lucene.util.Version; import java.io.IOException; public class TokenStreamDemo { public static void main(String[] args) throws IOException { // 创建 RAMDirectory 实例 Directory directory = new RAMDirectory(); // 初始化 IndexWriterConfig IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, new StandardAnalyzer()); // 创建 IndexWriter 并初始化索引 IndexWriter writer = new IndexWriter(directory, config); // 添加文档至索引 Document doc = new Document(); doc.add(new TextField("content", "这是一个测试文档，用于演示 Lucene 的 TokenStream 功能。", Field.Store.YES, Field.Index.ANALYZED)); writer.addDocument(doc); // 关闭 IndexWriter writer.close(); // 创建 IndexReader IndexReader reader = DirectoryReader.open(directory); // 使用 IndexSearcher 查找文档 IndexSearcher searcher = new IndexSearcher(reader); // 获取 TokenStream 对象 org.apache.lucene.search.IndexSearcher.SearchContext context = searcher.createSearchContext(); org.apache.lucene.analysis.standard.StandardAnalyzer analyzer = new org.apache.lucene.analysis.standard.StandardAnalyzer(Version.LATEST); org.apache.lucene.analysis.TokenStream tokenStream = analyzer.tokenStream("content", context.reader().getTermVector(0, 0).getPayload().toString()); // 检查是否有异常抛出 while (tokenStream.incrementToken()) { System.out.println("Token: " + tokenStream.getAttribute(CharTermAttribute.class).toString()); } // 关闭 TokenStream 和 IndexReader tokenStream.end(); reader.close(); } } 在这段代码中，我们首先创建了一个 RAMDirectory，并使用它来构建一个索引。接着，我们添加了一个包含测试文本的文档到索引中。之后，我们创建了 IndexSearcher 来搜索文档，并使用 StandardAnalyzer 来创建 TokenStream。在循环中，我们逐个输出令牌，直到遇到 EOFException，这通常意味着已经到达了文本的末尾。第二部分：深入分析 EOFException 的原因与解决策略在实际应用中，EOFException 通常意味着 TokenStream 已经到达了文本的结尾，这可能是由于以下原因： - 文本过短：如果输入的文本长度不足以产生足够的令牌，TokenStream 可能会过早地报告结束。 - 解析问题：在复杂的文本结构下，解析器可能未能正确地分割文本，导致部分文本未被识别为有效的令牌。为了应对这种情况，我们可以采取以下策略： - 增加文本长度：确保输入的文本足够长，以生成多个令牌。 - 优化解析器配置：根据特定的应用场景调整分析器的配置，例如使用不同的分词器（如 CJKAnalyzer）来适应不同语言的需求。 - 错误处理机制：在代码中加入适当的错误处理逻辑，以便在遇到 EOFException 时进行相应的处理，例如记录日志、提示用户重新输入更长的文本等。结语：拥抱挑战，驾驭全文检索面对 org.apache.lucene.analysis.TokenStream$EOFException: End of stream 这样的挑战，我们的目标不仅仅是解决问题，更是通过这样的经历深化对 Lucene 工作原理的理解。哎呀，你猜怎么着？咱们在敲代码、调参数的过程中，不仅技术越来越溜，还能在处理那些乱七八糟的数据时，感觉自己就像个数据处理的小能手，得心应手的呢！就像是在厨房里，熟练地翻炒各种食材，做出来的菜品色香味俱全，让人赞不绝口。编程也是一样，每一次的实践和调试，都是在给我们的技能加料，让我们的作品越来越美味，越来越有营养！嘿！兄弟，听好了，每次遇到难题都像是在给咱的成长加个buff，咱们得一起揭开全文检索的神秘面纱，掌控技术的大棒，让用户体验到最棒、最快的搜索服务，让每一次敲击键盘都能带来惊喜！ --- 以上内容不仅涵盖了理论解释与代码实现，还穿插了人类在面对技术难题时的思考与探讨，旨在提供一种更加贴近实际应用、充满情感与主观色彩的技术解读方式。

2024-07-25 00:52:37

391

青山绿水

转载文章

[转载]docker镜像详解 docker命令详解

...ion 为了将零星的数据整合起来，我们提出了镜像层（image layer）这个概念。下面的这张图描述了一个镜像层，通过图片我们能够发现一个层并不仅仅包含文件系统的改变，它还能包含了其他重要信息。元数据（metadata）就是关于这个层的额外信息，它不仅能够让Docker获取运行和构建时的信息，还包括父层的层次信息。需要注意，只读层和读写层都包含元数据。除此之外，每一层都包括了一个指向父层的指针。如果一个层没有这个指针，说明它处于最底层。 Metadata Location: 我发现在我自己的主机上，镜像层（image layer）的元数据被保存在名为”json”的文件中，比如说： /var/lib/docker/graph/e809f156dc985.../json e809f156dc985...就是这层的id 一个容器的元数据好像是被分成了很多文件，但或多或少能够在/var/lib/docker/containers/<id>目录下找到，<id>就是一个可读层的id。这个目录下的文件大多是运行时的数据，比如说网络，日志等等。全局理解（Tying It All Together）现在，让我们结合上面提到的实现细节来理解Docker的命令。 docker create <image-id> docker create 命令为指定的镜像（image）添加了一个可读写层，构成了一个新的容器。注意，这个容器并没有运行。 docker start <container-id> Docker start命令为容器文件系统创建了一个进程隔离空间。注意，每一个容器只能够有一个进程隔离空间。 docker run <image-id> 看到这个命令，读者通常会有一个疑问：docker start 和 docker run命令有什么区别。从图片可以看出，docker run 命令先是利用镜像创建了一个容器，然后运行这个容器。这个命令非常的方便，并且隐藏了两个命令的细节，但从另一方面来看，这容易让用户产生误解。题外话：继续我们之前有关于Git的话题，我认为docker run命令类似于git pull命令。git pull命令就是git fetch 和 git merge两个命令的组合，同样的，docker run就是docker create和docker start两个命令的组合。 docker ps docker ps 命令会列出所有运行中的容器。这隐藏了非运行态容器的存在，如果想要找出这些容器，我们需要使用下面这个命令。 docker ps –a docker ps –a命令会列出所有的容器，不管是运行的，还是停止的。 docker images docker images命令会列出了所有顶层（top-level）镜像。实际上，在这里我们没有办法区分一个镜像和一个只读层，所以我们提出了top-level 镜像。只有创建容器时使用的镜像或者是直接pull下来的镜像能被称为顶层（top-level）镜像，并且每一个顶层镜像下面都隐藏了多个镜像层。 docker images –a docker images –a命令列出了所有的镜像，也可以说是列出了所有的可读层。如果你想要查看某一个image-id下的所有层，可以使用docker history来查看。 docker stop <container-id> docker stop命令会向运行中的容器发送一个SIGTERM的信号，然后停止所有的进程。 docker kill <container-id> docker kill 命令向所有运行在容器中的进程发送了一个不友好的SIGKILL信号。 docker pause <container-id> docker stop和docker kill命令会发送UNIX的信号给运行中的进程，docker pause命令则不一样，它利用了cgroups的特性将运行中的进程空间暂停。具体的内部原理你可以在这里找到：https://www.kernel.org/doc/Doc ... m.txt，但是这种方式的不足之处在于发送一个SIGTSTP信号对于进程来说不够简单易懂，以至于不能够让所有进程暂停。 docker rm <container-id> docker rm命令会移除构成容器的可读写层。注意，这个命令只能对非运行态容器执行。 docker rmi <image-id> docker rmi 命令会移除构成镜像的一个只读层。你只能够使用docker rmi来移除最顶层（top level layer）（也可以说是镜像），你也可以使用-f参数来强制删除中间的只读层。 docker commit <container-id> docker commit命令将容器的可读写层转换为一个只读层，这样就把一个容器转换成了不可变的镜像。 docker build docker build命令非常有趣，它会反复的执行多个命令。我们从上图可以看到，build命令根据Dockerfile文件中的FROM指令获取到镜像，然后重复地1）run（create和start）、2）修改、3）commit。在循环中的每一步都会生成一个新的层，因此许多新的层会被创建。 docker exec <running-container-id> docker exec 命令会在运行中的容器执行一个新进程。 docker inspect <container-id> or <image-id> docker inspect命令会提取出容器或者镜像最顶层的元数据。 docker save <image-id> docker save命令会创建一个镜像的压缩文件，这个文件能够在另外一个主机的Docker上使用。和export命令不同，这个命令为每一个层都保存了它们的元数据。这个命令只能对镜像生效。 docker export <container-id> docker export命令创建一个tar文件，并且移除了元数据和不必要的层，将多个层整合成了一个层，只保存了当前统一视角看到的内容（译者注：expoxt后的容器再import到Docker中，通过docker images –tree命令只能看到一个镜像；而save后的镜像则不同，它能够看到这个镜像的历史镜像）。 docker history <image-id> docker history命令递归地输出指定镜像的历史镜像。参考： http://www.cnblogs.com/bethal/p/5942369.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/u010098331/article/details/53485539。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-26 15:47:20

538

转载

转载文章

[转载]libnids分析（9）---nids.h注释

...检测系统的核心功能与数据结构后，我们可以进一步探索当前网络安全领域中关于数据包分析、TCP/IP协议栈安全以及实时入侵检测的最新动态和研究成果。近期，美国国家标准技术研究院（NIST）发布了一份关于提升网络流量分析准确性和效率的研究报告。该报告强调了对IP数据包异常检测算法的优化，以及利用机器学习改进TCP连接状态预测的重要性。研究人员正致力于研发新一代的网络入侵检测系统，这些系统不仅能处理常规的数据包重组和校验和计算，还能够通过深度学习模型识别潜在的未知攻击模式。与此同时，开源社区也在积极推动类似Libnids的项目发展。例如，Suricata是一款集成了高性能多线程引擎、支持多种入侵检测规则集，并具备实时流量分析能力的下一代IDS/IPS系统。它不仅实现了对网络数据包的精细解析，还在处理海量数据时保证了高效能，同时提供了丰富的API接口以供用户自定义插件和扩展功能。此外，针对网络扫描攻击等行为，业界也提出了新的防御策略和技术。例如，基于人工智能的动态防火墙策略，可以根据网络流量特征自动调整规则，有效应对端口扫描等攻击行为，极大地提升了网络安全防护水平。综上所述，在持续演进的网络安全领域，Libnids所涉及的数据包处理机制、TCP连接管理等功能是构建现代网络防御体系的基础，而结合最新的研究进展和技术应用，则有助于我们更好地理解和应对日趋复杂且变化多端的网络威胁环境。

2023-02-08 17:36:31

306

转载

Sqoop

Sqoop在数据迁移中因透明性不足导致作业失败的案例分析

...Sqoop作业在特定数据处理透明性下失败一、Sqoop初体验为什么我选择了它？嗨，朋友们！作为一个热爱折腾数据的技术爱好者，最近我在尝试用Sqoop来完成一些数据迁移任务。哈哈，Sqoop这个名字一听就觉得挺酷的，对不？它就像个超级厉害的“中间人”，一边连着Hadoop那个大数据的世界，另一边又搭在传统的数据库上，两边都能玩得转！说到Sqoop，它的主要功能就是从关系型数据库中抽取数据并导入到Hadoop生态系统中，或者反过来把Hadoop中的数据导出到关系型数据库里。对我来说，这简直就是个救星啊！毕竟我天天都要跟一堆 structured data（结构化数据）打交道，没有它，我的日子能过得下去才怪呢！不过呢，事情并没有想象中那么顺利。话说有一次我用 Sqoop 做数据迁移的时候，发现了个让人挠头的问题——只要碰到某些特别的数据处理任务，作业就突然“罢工”了，也不知道是啥原因。这事儿可把我给整郁闷了，我都觉得自己的水平挺过关的了，没想到被一个看起来超简单的题目给绊住了，真是有点糗啊！示例代码： bash sqoop import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table employees \ --target-dir /user/hadoop/employees 这段代码看起来挺正常的，但我后来发现，当表中的数据量过大或者存在一些复杂的约束条件时，Sqoop就表现得不太友好。 --- 二、Sqoop作业失败的背后接下来，让我们一起深入探讨一下这个问题。说实话，刚开始接触Sqoop那会儿，我对它是怎么工作的压根儿没弄明白，稀里糊涂的。我以为只要配置好连接信息，然后指定源表和目标路径就行了。但实际上，Sqoop并不是这么简单的工具。当我第一次遇到作业失败的情况时，内心是崩溃的。屏幕上显示的错误信息密密麻麻，但仔细一看，其实都是些常见的问题。打个比方啊，Sqoop这家伙一碰到一些特别的符号，比如空格或者换行符，就容易“翻车”，直接给你整出点问题来。还有呢，有时候因为网络卡了一下，延迟太高，Sqoop就跟服务器说拜拜了，连接就这么断了，挺烦人的。有一次，我在尝试将一张包含大量JSON字段的表导出到HDFS时，Sqoop直接报错了。我当时就在心里嘀咕：“为啥别的工具处理起来轻轻松松的事儿，到Sqoop这儿就变得这么棘手呢？”后来，我一咬牙，开始翻遍各种资料，想着一定要找出个解决办法来。思考与尝试：经过一番研究，我发现Sqoop默认情况下并不会对数据进行深度解析，这意味着如果数据本身存在问题，Sqoop可能无法正确处理。所以，为了验证这个假设，我又做了一次测试。 bash sqoop import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table problematic_table \ --fields-terminated-by '\t' \ --lines-terminated-by '\n' 这次我特意指定了分隔符和换行符，希望能避免之前遇到的那些麻烦。嘿，没想到这次作业居然被我搞定了！中间经历了不少波折，不过好在最后算是弄懂了个中奥秘，也算没白费功夫。 --- 三、透明性的重要性 Sqoop到底懂不懂我的需求？说到Sqoop的透明性，我觉得这是一个非常重要的概念。所谓的透明性嘛，简单来说，就是Sqoop能不能明白咱们的心思，然后老老实实地按咱们想的去干活儿，不添乱、不出错！显然，在我遇到的这些问题中，Sqoop的表现并不能让人满意。举个例子来说，假设你有一个包含多列的大表，其中某些列的数据类型比较复杂（例如数组、嵌套对象等）。在这种情况下，Sqoop可能会因为无法正确识别这些数据类型而失败。更糟糕的是，它并不会给出明确的提示，而是默默地报错，让你一头雾水。为了更好地应对这种情况，我在后续的工作中加入了更多的调试步骤。比如说啊，你可以先用describe这个命令去看看表的结构，确保所有的字段都乖乖地被正确识别了；接着呢，再用--check-column这个选项去瞅一眼，看看有没有重复的记录藏在里面。这样一来，虽然增加了工作量，但至少能减少不必要的麻烦。示例代码： bash sqoop job --create my_job \ -- import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table employees \ --check-column id \ --incremental append \ --last-value 0 这段代码展示了如何创建一个增量作业，用于定期更新目标目录中的数据。通过这种方式，可以有效避免一次性加载过多数据带来的性能瓶颈。 --- 四、总结与展望与Sqoop共舞总的来说，尽管Sqoop在某些场景下表现得不尽人意，但它依然是一个强大的工具。通过不断学习和实践，我相信自己能够更加熟练地驾驭它。未来的计划里，我特别想试试一些更酷的功能，比如说用Sqoop直接搞出Avro文件，或者把Spark整进来做分布式计算，感觉会超级带劲！最后，我想说的是，技术这条路从来都不是一帆风顺的。遇到困难并不可怕，可怕的是我们因此放弃努力。正如那句话所说：“失败乃成功之母。”只要保持好奇心和求知欲，总有一天我们会找到属于自己的答案。如果你也有类似的经历，欢迎随时交流！我们一起进步，一起成长！ --- 希望这篇文章对你有所帮助，如果有任何疑问或者想要了解更多细节，请随时告诉我哦！

2025-03-22 15:39:31

风中飘零

转载文章

[转载]做了几年程序员，某天居然发现自己没学过数据结构。。。

...。简介学习编程，数据结构是你必须要掌握的基础知识，那么数据结构到底是什么呢？根据百度百科的介绍，数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下，精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。听听这是人话么，我帮你们翻译一下，其实数据结构就是用来描述计算机里存储数据的一种数学模型，因为计算机里要存储很多乱七八糟的数据，所以也需要不同的数据结构来描述。本文思维导图为什么要学数据结构了解了基本概念之后，接下来我们再来看看，为什么我们要学习数据结构呢？在许多类型的程序的设计中，数据结构的选择是一个基本的设计考虑因素。许多大型系统的构造经验表明，系统实现的困难程度和系统构造的质量都严重的依赖于是否选择了最优的数据结构。许多时候，确定了数据结构后，算法就容易得到了。有些时候事情也会反过来，我们根据特定算法来选择数据结构与之适应。不论哪种情况，选择合适的数据结构都是非常重要的。选择了数据结构，算法也随之确定，是数据而不是算法是系统构造的关键因素。这种洞见导致了许多种软件设计方法和程序设计语言的出现，面向对象的程序设计语言就是其中之一。也就是说，选定数据结构往往是解决问题的核心，比如我们做一道算法题，往往就要先确定数据结构，再根据这个数据结构去思考怎么解题。如果没有数据结构的基础知识，也就没有谈算法的意义了，很多时候即使你会使用一些封装好的编程api，但你却不知道其背后的实现原理，比如hashmap，linkedlist这些Java里的集合类，实际上都是JDK封装好的基础数据结构。如何学习数据结构第一次接触我第一次接触数据结构这门课还是4年前，那这时候我在准备考研，专业课考的就是数据结构与算法，作为一个非科班的小白，对这个东西可以说是一窍不通。这个时候的我只有一点点c语言的基础，基本上可以忽略不计，所以小白同学也可以按照这个思路进行学习。数据结构基本上是考研的必考科目，所以我一开始使用的是考研的复习书籍，《天勤数据结构》和《王道数据结构》这两个家的书都是专门为计算机考研服务的，可以直接百度，这两本书对于我这种小白来说居然都是可以看懂的，所以，用来入门也是ok的。入门学习阶段最早的时候我并没有直接看书，而是先打算先看视频，因为视频更好理解呀，找视频的办法就是百度，于是当时找到的最好资源就是《郝斌的数据结构》这个视频应该是很早之前录制的了，但是对于小白来说是够用的，特别基础，讲的很仔细。从最开始的数组、线性表，再讲到栈和队列，以及后面更复杂的二叉树、图、哈希表，大概有几十个视频，那个时候正值暑假，我按照每天一个视频的进度看完了，看的时候还得时不时地实践一下，更有助于理解。看完了这个系列的视频之后，我又转战开始啃书了，视频里讲的都是数据结构的基础，而书上除了基础之外，还有一些算法题目，比如你学完了线性表和链表之后，书上就会有相关的算法题，比如数组的元素置换，链表的逆置等等，这些在日后看来很容易的题目，当时把我难哭了。好在大部分题目是有讲解的，看完讲解之后还能安抚一下我受伤的心灵。记住这本书，我在考研之前翻了至少有三四遍。强化学习阶段完成了第一波视频+书籍的学习之后，我们应该已经对数据结构有了初步的了解了，对一些简单的数据结构算法也应该有所了解了，比如栈的入栈和出栈，队列的进队和出队，二叉树的先序遍历和后续遍历、层次遍历，图的最短路径算法，深度优先遍历等等。有了一定的基础之后，我们需要对哪方面进行强化学习呢？那就要看你学习数据结构的目的是什么了，比如你学习数据结构是为了能做算法题，那么接下来你应该重点去学习算法方面的知识，后续我们也将有一篇新的文章来讲怎么学习算法，敬请期待。当然，我当时主要是复习考研，所以还是针对专业课的历年真题来复习，像我们的卷子中就考察了很多关于哈希表、最短路径算法、KMP算法、赫夫曼算法以及最短路径算法的应用。对于考卷上的一些知识点，我觉得掌握的并不是很好，于是又买了《王道数据结构》以及一些并没有什么卵用的书回来看，再次强化了基础。并且，由于我们的复试通常会考察一些比较经典的算法问题，所以我又花了很多时间去学习这些算法题，这些题目并非数据结构的基础算法，所以在之前的书和视频中可能找不到答案。于是我又在网上搜到了另一个系列视频《小甲鱼的数据结构视频》里面除了讲解数据结构之外，还讲解了更多经典的算法题，比如八皇后问题，汉诺塔问题，马踏棋盘，旅行商问题等，这些问题对于新手来说真的是很头大的，使用视频学习确实效果更佳。实践阶段纸上得来终觉浅，绝知此事要躬行。众所周知，算法题和数学题一样，需要多加练习，而且考研的时候必须要手写算法，于是我就经常在纸上写（抄）算法，你还别说，就算是抄，多抄几次也有助于理解。很多基础的算法，比如层次遍历，深度优先遍历和广度优先遍历，多写几遍更有助理解，再比如稍微复杂一点的迪杰斯特拉算法，不多写几遍你可真记不住。除了在纸上写之外，更好的办法自然是在电脑上敲了，写Java的使用Java写，写C++ 的用C++ 写，总之用自己擅长的语言实现就好，尴尬的是我当时只会c，所以就只好老老实实地用devc++写简单的c语言程序了。至此，我们也算是学会了数据结构的基础知识了，至少知道每个数据结构的特性，会写常见的数据结构算法，甚至偶尔还能掏出一个八皇后出来。推荐资源书籍《天勤数据结构》《王道数据结构》如果你要考研的话，这两本书可不要错过严蔚敏《数据结构C语言版》这本书是大学本科计算机专业常用的教科书，年代久远，可以看看，官方也有配套的教学视频《大话数据结构》官方教材大家都懂的，比较不接地气，这本书对于很多新手来说是更适合入门的书籍。《数据结构与算法Java版》如果你是学Java的，想有一本Java语言描述的数据结构书籍，可以试试这本，但是这本书显然比较复杂，不适合入门使用。视频《郝斌数据结构》这个视频上文有提到过，年代比较久远，但是入门足够了。《小甲鱼数据结构与算法》这个视频比较新，更加全面，有很多关于经典算法的教程，作者也入驻了B站，有兴趣也可以到B站看他的视频。总结关于数据结构的学习，我们就讲到这里了，如果还有什么疑问也可以到我公众号里找我探讨，虽然我们提到了算法，但是这里只关注一些基础的数据结构算法，后续会有关于“怎么学算法“的文章推出，敬请期待。本篇文章为转载内容。原文链接：https://blog.csdn.net/a724888/article/details/104586757。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-12 23:35:52

133

转载

转载文章

[转载]练习：《斗鱼视频》m3u8流视频采集下载+思路+Python

...服务中存储音频和视频数据。在本文中，斗鱼视频将完整的视频内容分割成多个.ts片段进行存储和传输。每个.ts文件包含一小段连续的音视频数据，通过合并这些.ts片段可以重构原始的完整视频。 MongoDB , MongoDB是一个开源的、面向文档的NoSQL数据库系统，适用于大规模数据存储和处理场景。在文章所给出的Python代码实现中，MongoDB被用来存储已经下载过的斗鱼视频信息，以避免重复下载。其灵活的数据模型允许开发者以JSON-like文档的形式存储数据，并提供了丰富的查询语言和高可用性特征，使得在整个采集流程中能够方便地对数据进行增删查改等操作。例如，在文中提到的save_to_mango函数中，就使用了MongoDB来存储抓取到的斗鱼视频ID，以便后续检查是否已下载过该视频。

2023-12-18 11:34:00

119

转载

转载文章

[转载]Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

...浏览互联网并抓取网页数据的程序或脚本，它通过模拟人类浏览器的行为，遵循URL链接在网络中遍历，并使用HTML解析库（如Jsoup）对抓取到的页面内容进行解析和信息抽取。在本文语境中，作者通过Java编程语言实现了一个网络爬虫项目，用于从彼岸桌面网站上爬取各类分类图片。 Jsoup , Jsoup是一个用Java编写的开源库，专注于处理（解析、操作、清洗）HTML文档。它提供了一套基于DOM、CSS选择器以及便捷API的方法，使得开发者能够轻松地提取和操作HTML中的数据。在本文中，Jsoup被用来解析彼岸桌面网站的HTML结构，定位并获取图片链接等所需信息。 DOM解析 , DOM（Document Object Model，文档对象模型）是一种跨平台、与语言无关的接口，用于表示XML和HTML等格式文档的标准信息模型。DOM解析是指将整个HTML文档加载到内存中，形成一个树状结构（节点树），允许开发者通过编程方式动态访问和修改文档的内容、结构及样式。在文章所述的网络爬虫项目中，利用Jsoup进行DOM解析，以识别并提取目标网页上的图片链接及其他相关信息。

2023-06-12 10:26:04

130

转载

转载文章

[转载]同事拿下阿里菜鸟P6offer，程序员：没看两本书还真不敢去跳槽

...么工作？ Jvm内存模型，垃圾回收机制，如何确定被清除的对象？了解哪些垃圾回收器和区别？多线程相关，线程池的参数列表和拒绝策略 Jvm如何分析出哪个对象上锁？ Mysql索引类型和区别，事务的隔离级别和事务原理 Spring scope 和设计模式 Sql优化三面 fullgc的时候会导致接口的响应速度特别慢，该如何排查和解决？项目内存或者CPU占用率过高如何排查？ ConcurrentHashmap原理数据库分库分表 MQ相关，为什么kafka这么快，什么是零拷贝？小算法题 http和https协议区别，具体原理四面(Leader) 手画自己项目的架构图，并且针对架构和中间件提问印象最深的一本技术书籍是什么？五面(HR) 没什么过多的问题，主要就是聊了一下自己今后的职业规划，告知了薪资组成体系等等。插播一条福利！！！最近整理了一套1000道面试题的文档(详细内容见文首推荐文章)，以及大厂面试真题，和最近看的几本书。需要刷题和跳槽的朋友，这些可以免费赠送给大家，帮忙转发文章，宣传一下，后台私信【面试】免费领取！小天：好像问了两次看书的情况诶？现在面试还问这个？程序员H：是啊，幸亏之前为了弄懂JVM还看了两本书，不然真不知道说啥了！小天：看来，我也要找几本书去看了，感情没看过两本书都不敢跳槽了！程序员H：对了，还有简历，告诉你一个捷径简历尽量写好一些，项目经验突出： 1、自己的知识广度和深度 2、自身的优势 3、项目的复杂性和难度以及指标 4、自己对于项目做的贡献或者优化程序员H：唉~这还不能走可怎么办呀！你说，我把主管打一顿，是不是马上就可以走了？小天：... 查看全文 http://www.taodudu.cc/news/show-3387369.html 相关文章：阿里菜鸟面经 Java后端开发社招三年已拿offer 阿里菜鸟网络(一面) 2021年阿里菜鸟网络春招实习岗面试分享，简历+面试+面经全套资料！阿里菜鸟国际Java研发面经(三面+总结):JVM+架构+MySQL+Redis等 2021年3月29日阿里菜鸟实习面试（一面）（含部分总结） mongodb 子文档排序_猫鼬101：基础知识，子文档和人口简介特征工程计算方法Gauss-Jordan消去法求线性方程组的解使用(VAE)生成建模,理解可变自动编码器背后的数学原理视觉SLAM入门 -- 学习笔记 - Part2 带你入门nodejs第一天——node基础语法及使用 python3数据结构_Python3-数据结构 debezium-connect-oracle使用相关数值分析多种算法代码 android iphone treeview,Android之IphoneTreeView带组指示器的ExpandableListView效果 nginx rewrite功能使用 3-3 OneHot编码 JavaWeb：shiro入门小案例 MySQL的定义、操作、控制、查询语言的用法 MongoDB入门学习(三)：MongoDB的增删查改赋值、浅复制和深复制解析以及get/set应用他是吴恩达导师，被马云聘为「达摩院」首座 Jordan 标准型定理列主元的Gauss-Jordan消元法-python实现 Jordan 块的几何若尔当型（The Jordan form）第七章其他神经网络类型解决迁移系统后无法配置启用WindowsRE环境的问题宝塔面板迁移系统盘/www到数据盘/home 使用vmware vconverter从物理机迁移系统到虚拟机P2V 本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_62695120/article/details/124510157。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-08 20:01:49

转载

转载文章

[转载]Java Work

...flake）的生成、数据加密解密、二维码生成、图片加水印、BASE64编码解码、图片验证码等操作集合使用Arrays.asList()返回的list为数组的内部list，只允许遍历不允许增删，可以使用Stream流转换为list Collection和map对于仅遍历可以使用增强for循环和，但如果有删除为避免错误必须使用迭代器 foreach遍历不允许改变变量的地址，java的参数是值传递，修改了形参的地址并不影响原来的参数，故即使你修改了值也不会同步到原变量中，故操作的变量都显式或者隐式的定义为final JSON fastjson parseArray(String text, Class<T> clazz) 解析List parseObject(String text, Class<T> clazz) 解析Object JSON对于null、空白字符串、“null”会返回nullif (text == null) {return null;} else {DefaultJSONParser parser = new DefaultJSONParser(text, ParserConfig.getGlobalInstance());JSONLexer lexer = parser.lexer;int token = lexer.token();ArrayList list;if (token == 8) {lexer.nextToken(); // nextToken() => ...if ("null".equalsIgnoreCase(ident)) this.token = 8;list = null;} } String toJSONString(Object object) 将对象转为String toJSONBytes(Object object, SerializerFeature... features) 将对象转为byte[] @JSONField() 可以忽略字段serialize ，别名映射name，日期格式化format等 jackson @JsonFormat(pattern = "yyyy-MM-dd HH:mm:ss") 设置Date到前台的格式 @JsonIgnore SpringMVC不会向前台传递该字段 ObjectMapper mapper = new ObjectMapper();String str = mapper.writeValueAsString(admin); // 对象转JSON字符串mapper.readValue(s,Admin.class ); // JSON字符串转对象 EasyExcel 官方API https://www.yuque.com/easyexcel/doc 使用类注解@ExcelIgnoreUnannotated配合@ExcelProperty操作 @ExcelProperty可以指定表头列名，列顺序和表头的合并 @ColumnWidth(10)可以指定列宽，其长度约为(中文length3+英文length1) @DateTimeFormat(value="yyyy-MM-dd HH:mm:ss")可以指定日期格式自定义策略实现SheetWriteHandler工作表回调接口，在afterSheetCreate()工作表创建之后方法可以设置列宽自定义表头新建单元格自定义策略实现RowWriteHandler行回调接口，在afterRowDispose()行操作完之后方法可以设置行高设置行样式自定义策略实现CustomerCellHandler单元格回调接口，在afterCellDispose()单元格操作完之后方法可以根据行号，列宽甚至是单元格的值来设置单元格样式可以对单元格的值获取和修改样式通常包括内容格式、批注、背景色、自动换行、平和垂直居中、边框大小和颜色、字体实例（格式，颜色，大小，加粗等）等自定义策略继承AbstractMergeStrategy单元格合并抽象类，在merge()方法中可以通过CellRangeAddress合并单元格过于复杂的表格可以使用模板，配合写出write和填充fill一起使用 Mybatis 在mapper方法的@select中也是可以直接书写动态SQL的，但要使用<script></script>包裹，这样就不用在java文件和xml文件切换了，将@select中包裹的代码直接放到浏览器的控制台输出后会自动转义\n,\t,+,"等动态sql中“<” 和 “>” 号要用转义字符 “<” 和 ”>“ （分号要带）动态sql中test中表达式通常使用 test=“id != null and id != ‘’”，要注意的是字符串不能直接识别单引号，有两种方法使用id==“1001"或者id==‘1001’.toString()，另外参数如果是boolean，可以直接使用test=”!flag"，如果判定集合的话可以使用 test=“list != null and list.size>0” 返回数据类型为Map只能接收一条记录，字段为键名，字段值为值，但通常是用实体类接收，或是使用注解@MapKey来进行每条记录的映射，效果等同于List用Stream流转Map foreach遍历list collection=“list” item=“vo” separator="," open="(" close=")"> {vo.id} foreach遍历map collection=“map” index=“key” item=“value”，{key}获取建，{value}获取值，$亦可 collection=“map.entrySet()” index=“key” item=“value”，同上 collection=“map.keys” item=“key”，{key}为键不要使用where 1=1，使用动态where拼接，会自动剔除where后多余的and和or 单个参数时无论基本和引用并且未使用在动态SQL可以不加参数注解@Param，但一旦参数大于一个或者参数在动态SQL中使用就必须加@Param 并不是直接把参数加引号，而是变成?的形式交给prepareStatement处理，$直接使用值，当ORDER BY诸如此类不需要加引号的参数时，使用$代替，但为避免sql注入，该参数不能交由用户控制 Plus 官方API https://baomidou.com/guide/ @TableName 表名 @TableField(strategy = FieldStrategy.IGNORED) 更新不会忽略NULL值 @TableField(exist = false)表明该字段非数据字段，否则新增更新会报错 MybatisPlus对于单表的操作还是非常优秀的，在对单表进行新增或者更新的时候经常使用，但对于单表的查询业务上很少出现仅仅查询一张表的情况，但也会有，如果条件不大于3个还是可以使用的，多了倒没有直接写SQL来的方便了 MybatisPlus的批量插入也是通过for循环插入的，还是建议使用Mybatis的动态foreach进行批量插入 MybatisPlus的分页器会对方法中的参数判断，如果存在分页对象就先查询总数看是否大于0，然后拼接当前的数据库limit语句，所以如果我们分页对象为null，就可以实现不分页查询 Object paramObj = boundSql.getParameterObject();IPage page = null;if (paramObj instanceof IPage) { ……public static String getOriginalCountSql(String originalSql) {return String.format("SELECT COUNT(1) FROM ( %s ) TOTAL", originalSql);} ……originalSql = DialectFactory.buildPaginationSql(page, buildSql, dbType, this.dialectClazz); ……public String buildPaginationSql(String originalSql, long offset, long limit) {StringBuilder sql = new StringBuilder(originalSql);sql.append(" LIMIT ").append(offset).append(",").append(limit);return sql.toString();} IDEA 插件 Lombok : 快速生成getter、setter等 Alibaba Java Coding Guidelines ：阿里规约扫描 Rainbow Brackets ：彩色括号 HighlightBracketPair ：高亮提示 MyBatisX ：mabatisPlus提供的xml和mapper转换的插件，小鸟图标 CamelCase ：大小写、驼峰、下划线、中划线转换插件使用shift+Alt+u进行转换（很方便）可以在Editor中设置CamelCase的转换，一般只保留下划线和驼峰两种 String Manipulation ：字符串工具（未使用） RestfulToolkit http ：Restful请求工具打开idea，在右侧边栏会有一个标签（RestServices），打开可以看到里面是url路径 ctrl+\或者ctrl+alt+n会检索路径 Ctrl + Enter格式化json 没有记忆功能，也不能加token，只是查找请求路径使用 easycode ：代码生成工具（个人觉得很好用，常用于生成实体类）支持自定义模板支持添加自定义列，不影响数据库支持多表同时生成支持自定义类型映射支持配置导入导出支持动态调试支持自定义属性 Power Mode 11 ：打字特效（纯属装逼） Nyan Progress Bar ：漂亮的进度条（纯属装逼） Other Vo：数据持久化模型 Query：数据查询模型 Dto：数据传输模型本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_40910781/article/details/111416185。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-05-26 23:30:52

268

转载

Ruby

Ruby并发编程踩坑指南：线程共享状态死锁与线程池异常处理

...何确保不同任务之间的数据隔离性和一致性。在国内，阿里巴巴集团也在积极布局并发编程相关的技术研究。阿里云推出了基于Go语言的高性能微服务框架“MOSN”，该框架支持大规模分布式系统的构建，特别适合处理高并发场景下的请求分发和负载均衡。MOSN的设计理念强调模块化和可扩展性，使得开发者能够轻松应对复杂的业务逻辑。不过，随着越来越多的企业采用类似的架构，如何有效管理线程池大小、避免死锁等问题成为了新的关注焦点。此外，近期一篇发表在《ACM Transactions on Programming Languages and Systems》上的论文引起了广泛关注。这篇论文探讨了现代编程语言在并发模型设计上的差异，并提出了一种新型的“乐观并发控制”算法。该算法通过预测线程间的冲突概率，动态调整同步策略，从而在一定程度上减少了锁的使用频率。这一方法不仅提升了程序的执行效率，还降低了开发者的维护成本。从哲学角度来看，无论是技术层面还是理论层面，人类对于并发编程的追求始终未曾停歇。正如古希腊哲学家赫拉克利特所言：“人不能两次踏进同一条河流。”同样，在并发编程的世界里，每一次尝试都是一次全新的探索，而每一次成功都离不开对失败教训的深刻反思。未来，随着量子计算等前沿科技的发展，我们或许将迎来一场关于并发编程范式的革命，而这无疑将为软件工程领域带来前所未有的机遇与挑战。

2025-04-25 16:14:17

凌波微步

转载文章

[转载]大数据——海量数据处理的基本方法总结

...空间效率极高的概率型数据结构，用于判断一个元素是否在一个集合中。在文章的上下文中，Bloom Filter通过使用多个独立的哈希函数将元素映射到一个固定长度的位数组上，当插入元素时，会在相应位置置为1。查询时，如果所有哈希函数对应的位置均为1，则该元素可能存在集合中；若存在某个位置为0，则该元素一定不在集合中。因此，Bloom Filter有可能产生误报（False Positive），但不会漏报（False Negative）。在处理海量数据时，因其占用内存小且查询速度快，常被用于判重、过滤等场景。 Trie树（前缀树） , Trie树是一种有序字典树，也称为前缀树或数码查找树，特别适用于存储和检索字符串集合。在本文语境下，Trie树通过字符在树中的路径表示一个字符串，并且相同前缀的字符串在树中有公共前缀路径。利用这种特性，可以高效地统计词频、进行字符串搜索和去重等操作，尤其在处理大量字符串数据时优势明显。 MapReduce , MapReduce是Google提出的一种分布式编程模型，主要应用于大数据并行计算领域。在文中提到，面对海量数据处理难题时，MapReduce提供了一种解决方案。它将复杂的计算任务分解成两个阶段。

2024-03-01 12:40:17

541

转载

Spark

Spark分布式缓存性能优化遇阻？内存管理与序列化问题及缓存时机调整

近期，随着云计算和大数据技术的快速发展，分布式缓存技术的应用场景愈发广泛。除了Spark之外，Redis、Memcached等工具也在企业级应用中占据了重要地位。最近的一项研究表明，全球分布式缓存市场预计将在未来五年内以超过15%的年复合增长率扩张，这表明越来越多的企业开始意识到数据高效管理的重要性。例如，亚马逊AWS最近推出了全新的DynamoDB Accelerator（DAX）服务，这是一种托管的缓存解决方案，专为高吞吐量、低延迟的数据库查询设计。DAX能够将响应时间缩短至毫秒级别，这对于实时数据分析和大规模用户交互场景至关重要。这一举措不仅展示了云服务商在提升数据处理效率上的持续投入，也为开发者提供了更多灵活的选择。与此同时，国内互联网巨头阿里巴巴也宣布对其自主研发的Tair缓存系统进行全面升级。新版Tair支持更高的并发能力，并引入了更先进的冷热数据分离机制，大幅降低了内存占用率。这一改进尤其适用于电商促销活动期间的流量洪峰场景，有效缓解了服务器的压力。此外，学术界对于分布式缓存的研究也在不断深入。一篇发表于《IEEE Transactions on Parallel and Distributed Systems》的论文提出了一种基于机器学习的缓存预取算法，可以根据历史访问模式预测未来的请求热点，从而提前将数据加载到缓存中。这种方法理论上可以进一步降低查询延迟，但实际部署仍面临模型训练成本高昂等问题。值得注意的是，尽管分布式缓存带来了诸多便利，但它并非没有挑战。隐私保护、数据一致性以及跨地域同步等问题仍然是业界亟待解决的难题。随着GDPR等法规的出台，企业在使用缓存技术时还需格外注意合规性，确保用户数据的安全与合法使用。在未来，我们或许可以看到更多结合区块链技术的去中心化缓存解决方案，为用户提供更加透明和安全的服务体验。

2025-05-02 15:46:14

素颜如水

转载文章

[转载]线性回归建模及模型诊断

...一、建模背景及目的及数据源说明二、描述性分析 2.1 连续自变量与连续因变量的相关性分析 2.2 二分类变量与连续变量的相关性分析 2.3 多分类变量与连续变量的相关性分析三、模型建立与诊断 3.1 一元线形回归及模型解读 3.2 残差可视化分析 3.3 多元线性回归一、建模背景及目的及数据源说明本案例数据来源于常国珍等人的《Python数据科学》一书第7章中的信用卡公司客户申请信息（年龄、收入、地区等信息）以及已有开卡客户的申请信息和信用卡消费信息数据，案例希望通过对该数据的分析和建模，根据已有的开卡用户的用户信息和消费来线形回归模型，来预测未开卡用户的消费潜力。数据下载见如下链https://download.csdn.net/download/baidu_26137595/85101874 数据读入及示例： raw = pd.read_csv('./data/creditcard_exp.csv', skipinitialspace = True)raw.head() 数据字段及说明： Acc：是否开卡，为0说明未开卡，对应的 avg_exp 为NaN；为1说明已开卡，对应avg_exp有值 avg_exp：月均信用卡支出 avg_exp_ln：月均信用卡支出的对熟 gender : 性别 Ownrent：是否自有住房 Selfempl：是否自谋职业 Income：收入 dist_home_val：所住小区均价 w dist_avg_income：当地人均收入 age2：年龄的平方 high_avg：高出当地平均收入 edu_class：教育等级，0、1、2、3 依次是小学、初中、高中、大学二、描述性分析首先可筛选Acc为1的数据，分别以avg_exp为因变量，其余变量为自变量进行数据探索，主要是发现自变量和因变量是否有线形关系。 raw_1 = raw[raw['Acc'] == 1] 2.1 连续自变量与连续因变量的相关性分析首先对连续变量和目标变量进行相关性分析，因变量avg_exp为连续变量，一般可以用相关系数来看其线形相关性。 cons_vasr = ['avg_exp', 'avg_exp_ln', 'Age', 'Income', 'dist_home_val', 'dist_avg_income', 'age2', 'high_avg']raw_1[cons_vasr].corr()vg']].corr() 结果如下，可以看到收入 Income 和当地人均收入 dist_avg_income这两个变量和avg_exp月均信用卡支出有较强的相关性，同时观察自变量间的相关性可发现人均收入 Income 和当地人均收入 dist_avg_income 之间也有较强的相关性，相关系数为0.99，说明接下来我们可以把这两个变量加入模型，但要注意可能会存在多重共线性。 2.2 二分类变量与连续变量的相关性分析分类变量和连续变量之间的相关性可以用t检验进行，接下来以是否自有住房 Ownrent 变量和月均收入之间进行相关性检验。首先查看Ownrent 不同取值的数量以及avg_exp均值分布情况如何： pd.pivot_table(raw_1, values = ['avg_exp'], index = ['Ownrent'], aggfunc = {'avg_exp': ['count', np.mean]}) 接着分别对 Ownrent 为0、1的 avg_exp 进行t检验： import scipy.stats as st 引入scipy.stats进行t检验创建变量Ownrent_0 = raw_1[raw_1['Ownrent'] == 0]['avg_exp'].valuesOwnrent_1 = raw_1[raw_1['Ownrent'] == 1]['avg_exp'].valuesst.ttest_ind(Ownrent_0, Ownrent_1, equal_var = True) p值为0.01 < 0.05，可以拒绝原假设，即认为是否自有住房和月均信用卡支出是相关的。 2.3 多分类变量与连续变量的相关性分析多分类变量和连续变量之间的相关性检验可以用多次t检验进行，但较为繁琐，用方差分析进行快速检验相关性，然后再运用多重检验查看具体是哪些处理之间存在差异。以教育水平edu_class为例进行分析，同理首先查看分布 raw_1.pivot_table(index = 'edu_class', values = ['avg_exp'], aggfunc={'avg_exp': ['count', np.mean]}) 可以看到不同教育水平之间消费水平有明显差异，接下来通过方差分析进行检验差异是否明显。 from statsmodels.stats.anova import anova_lm 引入anova_lm进行方差分析from ststsmodels.stats.formula import ols 引入ols进行线性回归建模lm = ols('avg_exp~C(edu_class)', data = raw_1).fit() C(edu_class) 将数值型的变量指定为分类型anova_lm(lm, typ = 2) 可以看到不同教育水平之间的月均消费支出之间的差异是显著的，继续用多重检验来看哪些处理之间是显著的。 from statsmodels.stats.multicomp import MultiComparison 引入MultiComparison进行tukey多重检验mc = MultiComparison(raw_1['avg_exp'],raw_1['edu_class'])tukey_result = mc.tukeyhsd(alpha = 0.5)print(tukey_result) 结果是每个处理之间因变量差异的显著性，最后一列reject都为True说明各组之间均存在显著差异。三、模型建立与诊断 3.1 一元线性回归及模型解读以Income为自变量，以avg_exp为因变量建立一元线形回归并对模型结果进行解释 lm_1 = ols('avg_exp ~ Income', data = raw_1).fit()print(lm_1.summary()) 首先从第一部分可以看到R^2为0.454，整个模型的F检验p值小于0.05，说明模型通过显著性检验。其次模型结果的第二块也表明自变量和截距也通过显著性检验。最后一部分主要是对残差进行检验，左侧Omnibus、Prob(Omnibus)主要是对偏度Skew和峰度Kurtosis进行检验，正态分布的偏度为0，峰度为3，模型的Prob(Omnibus)值为0.156大于0.05，说明不能拒绝残差符合正态分布。右侧Durbin-Watson主要是对残差的自相关性进行检（改检验可表示为，为残差之间的相关系数），Durbin-Watson的取值范围是0-4，越接近2说明残差不存在自相关性，越接近0说明存在正相关，越接近4说明存在负相关性。右侧Jarque-Bera (JB)、Prob(JB)是对残差正态性检验，可以用来判断残差是否符合正态分布，本案例中Prob(JB)值为0.173 > 0.05，基不能拒绝残差服从正态分布。右侧Cond. No.是多重共线性检验，该值越大，共线性越严重。整体上看模型虽然拟合效果没那么好，但是显著性通过了检验。接下来看一下模型具体的系数，Income的系数为97.7说明模型收入越高信用卡消费越高，是符合业务预期的。 3.2 残差可视化分析接下来对残差进一步进行可视化分析，主要看残差是否满足以下几个假定，并尝试通过对自变量、因变量进行调整来优化模型。首先来回顾一下残差需要满足的几个假定： a.残差的要服从均值为0，方差为的正态分布； b.残差之间要相互独立 c.残差和自变量没有相关性（1）通过残差图进行模型优化模型avg_exp ~ Income的自变量与残差分布图、残差qq图、模型拟合情况图即自变量与因变量及其预测值的图像 lm_1 = ols('avg_exp ~ Income', data = raw_1).fit() 建模raw_1['resid_1'] = lm_1.resid 模型残差raw_1['resid_1_rank'] = raw_1['resid_1'].rank(ascending = False, pct = True) 计算残差的百分位数raw_1['pred_1'] = lm_1.predict() 添加预测值plt.figure(figsize = (20, 6)) 自变量与残差分布图ax1 = plt.subplot(131)ax1.scatter('Income', 'resid', data = raw_1)ax1.set_title('Income & resid') 残差的qq图ax2 = plt.subplot(132)stats.probplot(raw_1['resid_1_rank'], dist = 'norm', plot = ax2) 模型拟合情况图，自变量与因变量以及模型预测值ax3 = plt.subplot(133)ax3.scatter('Income', 'avg_exp', data = raw_1)ax3.plot('Income', 'pred_1', data = raw_1, color = 'red')ax3.legend()ax3.text(12, 1920, 'pred func R^2: %.2f'% lm_1.rsquared)ax3.set_title('Income & avg_exp') 从第一个自变量和残差散点图可以看出，残差基本符合对称分布，但随着自变量增大，残差也在变大，存在方差不齐的情况。第二个图残差的qq图可以看出，残差近似正态分布。第三个图可以看模型的拟合效果并不是很好，R^2只有0.45。对avg_exp取对数，能够改善预测值越大残差越大的情况，但由于只对因变量取对数导致模型不好解释，对自变量Income同时取对数，代码和以上类似，只是改变因变量和自变量形式而已，以下是残差图，可以看到残差的异方差现象被有效的抑制，并且R^2也得到了提高。（2）通过残差图发现强影响点仔细观察以上图像结果，左下侧有两个较为异常的数据，对模型的拟和效果有较大的影响，对于这种影响较大的可将其进行删除并重新建模：计算学生化残差raw_1['resid_t'] = (raw_1['resid_2'] - raw_1['resid_2'].mean())/raw_1['resid_2'].std() raw_1[abs(raw_1['resid_t']) > 2] 将残差大于2的筛选出来将强影响点删除后，得到的结果如下，模型结果更稳定。 3.3 多元线性回归上一篇文章有说到多重共线性会对模型产生致命的影响，用方差膨胀因子来处理的话会非常繁琐。通过正则化处理如Lasso回归，能够产生某些严格等于0的系数，从而达到变量筛选的目的。接下来以Lasso为例，首先用LassoCV来找到最优的alpha。由于statsmodels中的ols的fit_regularized方法没有很好的实现，所以用sklearn中linear_model模块来进行建模 from sklearn.preprocessing import StandardScaler sklearn进行线性回归前必须要进行标准化from sklearn.linear_model import LassoCV Lasso的交叉验证方法con_xcols = ['Age', 'Income', 'dist_home_val', 'dist_avg_income']scaler = StandardScaler()X = scaler.fit_transform(raw_1[con_xcols])y = raw_1['avg_exp_ln']lasso_alphas = np.logspace(-3, 0, 100, base = 10)lcv = LassoCV(alphas = lasso_alphas, cv = 10)lcv.fit(X, y)print('best alpha %.4f' % lcv.alpha_)print('the r-square %.4f' % lcv.score(X, y)) 接下来画出不同alpha下的岭迹图，来看alpha值对系数的影响 from sklearn.linear_model import Lassocoefs = []lasso = Lasso()for i in lasso_alphas:lasso.set_params(alpha = i)lasso.fit(X, y)coefs.append(lasso.coef_)ax = plt.gca()ax.plot(lasso_alphas, coefs)ax.set_xscale('log')ax.set_xlabel('$\\alpha$')ax.set_ylabel('coefs value') 从图中可以看到随着alpha的增大，系数不断在减小，有些系数会优先收缩为0，再继续增大时所欲系数都会为0，通过该特性从而达到变量筛选的目的。将LassoCV得到的系数打印出来，可以看到用户月均信用卡支出和当地小区均价、当地人均收入成正比，当地人均收入水平的影响更大。以上就是线形回归在应用时的注意事项。本篇文章为转载内容。原文链接：https://blog.csdn.net/baidu_26137595/article/details/123766191。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-23 15:52:56

106

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

pkill pattern - 结束符合模式的进程。