前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[大量数据高效排序策略 ]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
... 模仿回车按钮 提交数据element.submit() 获取当前元素的坐标element.location 截取图片element.screenshot() from selenium import webdriverdriver=webdriver.Chrome()driver.get("http://ui.imdsx.cn/uitester/")driver.maximize_window()将窗口放大driver.execute_script('window.scrollTo(0,0);')执行js的apie=driver.find_element_by_css_selector('i1')e.send_keys(1111)import timetime.sleep(1)e.clear() 清除文本框内内容 转载于:https://www.cnblogs.com/wxcx/p/8934540.html 本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_34377065/article/details/94686128。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-12-03 12:51:11
46
转载
转载文章
...sktop商业版订阅策略的重大更新,强调企业级功能支持与安全性提升。用户可关注官方博客以获取最新产品信息和技术路线图,从而更好地规划自身的容器化部署策略(来源:Docker官网博客)。 2. Kubernetes与Docker编排对比研究:随着云原生技术的发展,Kubernetes已成为容器编排领域的事实标准。一篇深度分析文章详细解读了Kubernetes相较于Docker Swarm在集群管理、服务发现、滚动升级等方面的优势,并探讨了如何在实际项目中根据需求选择合适的容器编排工具(来源:InfoQ)。 3. 容器数据持久化最佳实践:鉴于文中提到的数据卷(-v)在Docker中的重要应用,一篇由行业专家撰写的专题文章深入剖析了容器数据持久化的多种策略,包括使用数据卷、配置挂载以及与云存储服务集成等方案,并结合实例展示了其在生产环境下的具体运用(来源:Medium)。 4. 优化Elasticsearch资源消耗的方法论:针对Elasticsearch在内存占用方面的挑战,一篇最新的技术分享聚焦于如何通过调整JVM参数、索引优化以及硬件资源配置来有效降低Elasticsearch运行时的内存消耗,并保持高性能搜索与分析能力(来源:Elastic官方博客)。 5. 微服务架构下容器安全防护指南:在广泛采用容器技术构建微服务架构的过程中,安全问题不容忽视。某信息安全团队最近发布的一份报告详尽阐述了容器安全威胁模型,并提供了包括镜像扫描、网络隔离、权限控制等在内的容器安全最佳实践(来源:CNCF社区安全工作组)。
2023-03-12 10:54:44
66
转载
Beego
...用的问题,提供实用的策略和代码示例。 一、认识服务不可用错误 服务不可用错误通常在HTTP响应中表现为503状态码,表示由于服务器当前无法处理请求,请求被暂时拒绝。这可能是由于服务器过载、正在进行维护或者资源不足等原因导致的。 二、Beego框架简介 Beego是一个基于Golang的轻量级Web框架,旨在简化Web应用的开发流程。其简洁的API和强大的功能使其成为快速构建Web应用的理想选择。在处理服务不可用错误时,Beego提供了丰富的工具和机制来帮助开发者进行诊断和修复。 三、识别与诊断服务不可用 在Beego应用中,识别服务不可用错误通常通过HTTP响应的状态码来进行。当应用返回503状态码时,说明服务当前无法处理请求。哎呀,兄弟!想要更清晰地找出问题所在,咱们得好好利用Beego自带的日志系统啊。它能帮咱们记录下一大堆有用的信息,比如啥时候出的错、用户是咋操作的、到底哪一步出了问题。有了这些详细资料,咱们在后面分析问题、找解决方案的时候就方便多了,不是吗? 示例代码: go // 在启动Beego应用时设置日志级别和格式 log.SetLevel(log.DEBUG) log.SetOutput(os.Stdout) func main() { // 初始化并启动Beego应用 app := new(beego.AppConfig) app.Run(":8080") } 在上述代码中,通过log.SetLevel(log.DEBUG)设置日志级别为DEBUG,确保在发生错误时能够获取到足够的信息进行诊断。 四、处理服务不可用错误 当检测到服务不可用错误时,Beego允许开发者通过自定义中间件来响应这些异常情况。通过创建一个中间件函数,可以优雅地处理503错误,并向用户呈现友好的提示信息,例如重试机制、缓存策略或简单的等待页面。 示例代码: go // 定义一个中间件函数处理503错误 func errorMiddleware(c beego.Context) { if c.Ctx.Input.StatusCode() == 503 { c.Data["Status"] = "503 Service Unavailable" c.Data["Message"] = "Sorry, our service is currently unavailable. Please try again later." c.ServeContent("error.html", http.StatusOK) } else { c.Next() } } // 注册中间件 func init() { beego.GlobalControllerInterceptors = append(beego.GlobalControllerInterceptors, new(errorMiddleware)) } 这段代码展示了如何在Beego应用中注册一个全局中间件,用于捕获并处理503状态码。哎呀,你遇到服务挂了的情况了吧?别急,这个中间件挺贴心的,它会给你弹出个温馨的小提示,告诉你:“嘿,稍等一下,我们正忙着处理一些事情呢。”然后,它还会给你展示一个等待页面,上面可能有好看的动画或者有趣的图片,让你在等待的时候也不觉得无聊。这样,你就不会因为服务暂时不可用了而感到烦躁了,体验感大大提升! 五、优化与预防服务不可用 预防服务不可用的关键在于资源管理、负载均衡以及监控系统的建立。Beego虽然本身不直接涉及这些问题,但可以通过集成第三方库或服务来实现。 - 资源管理:合理分配和监控CPU、内存、磁盘空间等资源,避免过度消耗导致服务不可用。 - 负载均衡:利用Nginx、HAProxy等工具对流量进行分发,减轻单点压力。 - 监控系统:使用Prometheus、Grafana等工具实时监控应用性能和资源使用情况,及时发现潜在问题。 六、结论 服务不可用是Web应用中不可避免的一部分,但通过使用Beego框架的特性,结合适当的策略和实践,可以有效地识别、诊断和解决这类问题。嘿,兄弟!想做个靠谱的Web应用吗?那可得注意了,你得时刻盯着点,别让你的应用出岔子。得给资源好好规划规划,别让服务器喘不过气来。还有,万一哪天程序出错了,你得有个应对的机制,别让小问题搞大了。这三样,监控、资源管理和错误处理,可是你稳定可靠的三大法宝!别忘了它们,你的应用才能健健康康地跑起来!
2024-10-10 16:02:03
103
月影清风
ReactJS
...se不仅仅适用于静态数据获取场景,它在动态内容加载方面同样具有巨大潜力。 值得一提的是,随着React 18版本的推出,Suspense的API得到了进一步完善。新增的支持SuspenseList的特性允许开发者更灵活地控制多个异步组件的渲染顺序,这对于像电商商品列表这样的复杂场景尤为适用。此外,Facebook开源团队还在GitHub上发布了多个关于Suspense的最佳实践案例,涵盖从基础用法到高级技巧的全方位指导。 尽管如此,也有部分开发者对Suspense提出了质疑。有观点认为,过度依赖Suspense可能导致代码结构过于复杂,特别是在需要兼容老旧浏览器的情况下,性能开销可能成为不可忽视的问题。对此,React核心团队回应称,未来版本将引入更多优化策略,如智能缓存机制和渐进式加载选项,以平衡功能性和性能需求。 总的来说,Suspense作为React的一项革命性创新,正在逐步改变前端开发的方式。无论是大型企业的生产实践,还是学术界的理论探讨,都显示出这一技术的巨大前景。但对于开发者而言,如何在实际项目中扬长避短,仍然是一个值得深思的话题。
2025-04-12 16:09:18
87
蝶舞花间
HessianRPC
...它能够提供详细的指标数据,帮助工程师快速定位问题根源。 对于开发者而言,除了掌握基础的技术知识外,还需要培养良好的工程习惯。比如,合理设计API接口、严格控制资源消耗、定期进行压力测试等,这些都是预防服务异常的有效手段。同时,建立完善的应急预案同样重要,当突发事件发生时,能够迅速响应并恢复服务,最大程度减少损失。 总之,随着技术的进步,微服务架构正在变得更加成熟可靠。但与此同时,我们也必须正视其中存在的隐患,通过不断学习和实践,才能真正实现高效稳定的系统运行。
2025-05-05 15:38:48
32
风轻云淡
转载文章
...从监视器读取edid数据 hdmi_force_hotplug=1即使没有检测到hdmi监视器,也可以使用hdmi模式。 hdmi_niel_edid=0xa5000080如果显示没有准确的Edid,则启用忽略Edid/Display数据。 hdmi_ignore_hotplug=1即使检测到hdmi监视器,也可以使用复合模式。 config_hdmi_boost=2配置hdmi接口的信号强度。如果您对hdmi有干扰问题,尝试增加(例如,到7)11是最大的。 disdable_overscan=0设置为1以禁用过度扫描。 max_usb_current=1结合树莓PI B+,引入了一个新的config.txt设置。 max_usb_current=0当添加这一行时,USB电源管理器将将其输出电流限制(对所有4个USB端口加起来)从600 mA更改为1200 mA的两倍。 dtparam=i2c_arm=on在GPIO引脚上启用I2C。 dtparam=i2s=on启用I2S音频硬件。 dtparam=spi=on启用SPI驱动程序。 dtoverlay=xxx向设备树中添加一个覆盖/boot/overays/xxx-overlay.dtb(在树莓派的系统盘中搜索文件位置) 文章总结: 一个树莓派发烧友(小学生)使用树莓派版本4B,参考过很多文章和博客但是都没有成功,最后翻译官方文档,更改参数最终victory!!! 附上我的config文件参数 文章参考: https://elinux.org/RPiconfig 本篇文章为转载内容。原文链接:https://blog.csdn.net/gcyhacker/article/details/122666018。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-07-09 14:23:40
376
转载
RabbitMQ
...间,严重时甚至会导致数据丢失或服务不可用。所以啊,我们要想办法让系统变得更皮实,就算碰到那些麻烦事儿,它也能稳如老狗,继续正常运转。 3. 如何优雅地处理连接故障 3.1 使用重试机制 首先,我们可以利用重试机制来应对短暂的网络波动或临时性的服务不可用。通过设置合理的重试次数和间隔时间,可以有效地提高消息传递的成功率。以下是一个简单的Python代码示例,展示了如何使用pika库连接到RabbitMQ服务器,并在连接失败时进行重试: python import pika from time import sleep def connect_to_rabbitmq(): max_retries = 5 retry_delay = 5 seconds for i in range(max_retries): try: connection = pika.BlockingConnection(pika.ConnectionParameters('localhost')) print("成功连接到RabbitMQ") return connection except Exception as e: print(f"尝试{i+1}连接失败,将在{retry_delay}秒后重试...") sleep(retry_delay) print("多次重试后仍无法连接到RabbitMQ,程序将退出") exit(1) 调用函数尝试建立连接 connection = connect_to_rabbitmq() 3.2 实施断线重连策略 除了基本的重试机制外,我们还可以实现更复杂的断线重连策略。例如,当检测到连接异常时,立即尝试重新建立连接,并记录重连日志以便后续分析。另外,我们也可以试试用指数退避算法来调整重连的时间间隔,这样就不会在短时间内反复向服务器发起连接请求,也能让服务器稍微轻松一点。 下面展示了一个基于RabbitMQ官方客户端库pika的断线重连示例: python import pika from time import sleep class ReconnectingRabbitMQClient: def __init__(self, host='localhost'): self.host = host self.connection = None self.channel = None def connect(self): while True: try: self.connection = pika.BlockingConnection(pika.ConnectionParameters(self.host)) self.channel = self.connection.channel() print("成功连接到RabbitMQ") break except Exception as e: print(f"尝试连接失败,将在{2self.retry_count}秒后重试...") self.retry_count += 1 sleep(2self.retry_count) def close(self): if self.connection: self.connection.close() def send_message(self, message): if not self.channel: self.connect() self.channel.basic_publish(exchange='', routing_key='hello', body=message) client = ReconnectingRabbitMQClient() client.send_message('Hello World!') 在这个例子中,我们创建了一个ReconnectingRabbitMQClient类,它包含了连接、关闭连接以及发送消息的方法。特别要注意的是connect方法里的那个循环,这家伙每次连接失败后都会先歇一会儿,然后再杀回来试试看。而且这休息的时间也是越来越长,越往后重试间隔就按指数往上翻。 3.3 异步处理与心跳机制 对于那些需要长时间保持连接的应用场景,我们还可以采用异步处理方式,配合心跳机制来维持连接的有效性。心跳其实就是一种简单的保活方法,就像定时给对方发个信息或者挥挥手,确认一下对方还在不在。这样就能赶紧发现并搞定那些断掉的连接,免得因为放太长时间没动静而导致连接中断的问题。 4. 总结与展望 处理RabbitMQ中的连接故障是一项复杂但至关重要的任务。通过上面提到的几种招数——比如重试机制、断线重连和心跳监测,我们的系统会变得更强壮,也更靠谱了。当然,针对不同应用场景和需求,还需要进一步定制化和优化这些方案。比如说,对于那些对延迟特别敏感的应用,你得更仔细地调整重试策略,不然用户可能会觉得卡顿或者直接闪退。至于那些需要应对海量并发连接的场景嘛,你就得上点“硬货”了,比如用更牛的技术来搞定负载均衡和集群管理,这样才能保证系统稳如老狗。总而言之,就是咱们得不停地试啊试的,然后就能慢慢弄出个既快又稳的分布式消息传递系统。 --- 以上就是关于RabbitMQ中如何处理连接故障的一些探讨。希望这些内容能帮助你在实际工作中更好地应对挑战,打造更加可靠的应用程序。如果你有任何疑问或想要分享自己的经验,请随时留言讨论!
2024-12-02 16:11:51
95
红尘漫步
转载文章
...能、更精准的风扇管理策略,特别是在应对高性能显卡如NVIDIA RTX 3090等发热大户时,能够更好地平衡散热效能与噪音控制。 与此同时,开源社区也在探讨和实践更多解决方案。例如,通过改进Linux内核驱动程序以增强对新型硬件的支持,或者开发更为友好的系统工具,让用户能便捷地手动调节风扇转速,就像本文作者所采取的IPMITOOL工具及GUI界面方案那样。 此外,对于企业级用户来说,服务器的稳定运行与维护至关重要。因此,戴尔等厂商也需加强与第三方软件开发商的合作,共同构建更加完善的生态系统,确保各类硬件设备与管理系统间的无缝对接,从而降低因兼容性问题引发的故障率,提高运维效率。 总之,在瞬息万变的科技领域,无论是老牌厂商如Dell还是新兴力量,都需紧跟时代步伐,充分考虑用户实际需求,持续优化软硬件兼容性和散热性能,以为用户提供更为优质、稳定的使用体验。而作为用户,则可通过关注行业动态,学习借鉴类似文章中的实践经验,以应对可能出现的各种硬件问题。
2023-02-24 14:29:07
174
转载
转载文章
...合Mybatis能更高效地搭建企业级应用。阅读相关教程和案例分析,可以了解如何在Spring Boot环境中简化Mybatis的配置与集成过程。 3. Mybatis Plus:高效且强大的Mybatis工具库:作为Mybatis的增强工具,Mybatis Plus提供了众多自动化操作如CRUD、分页、性能优化等功能。关注此类资源,可帮助开发者简化繁琐工作,提高开发效率。 4. Spring Data JPA vs Mybatis:优缺点对比及适用场景探讨:在实际开发中,除了Mybatis之外,Spring Data JPA也是一个常见的持久层框架选择。通过对比两者的特性和适用场景,可以帮助开发者根据项目需求灵活选取最适合的持久层解决方案。 5. 云原生时代下的数据库服务化与ORM框架革新:随着云计算和微服务架构的普及,数据库访问方式也在不断演进。了解云数据库服务如何与ORM框架(如Mybatis)进行深度集成,以及未来可能的发展趋势,对于把握技术潮流、提升项目架构层次具有重要意义。 综上所述,通过对上述内容的学习和探索,不仅可以加深对Mybatis与Spring集成的理解和应用能力,还能紧跟技术前沿,适应不断变化的开发环境和业务需求。
2023-09-05 11:56:25
114
转载
c++
...顾客满意度。这种基于数据驱动的决策方式,正是现代企业追求精细化运营的重要体现。 与此同时,开源社区也在不断壮大,许多开发者通过GitHub等平台分享自己的代码成果。这不仅促进了技术交流,也为初学者提供了宝贵的学习资源。例如,一个名为“Awesome-CPP”的项目整理了大量高质量的C++开源库,涵盖了从图形处理到网络通信等多个领域,极大地降低了开发者的学习门槛和技术壁垒。 此外,随着元宇宙概念的兴起,虚拟现实(VR)和增强现实(AR)技术正逐渐成为新的热点。一些高校和研究机构正在积极开展相关领域的研究,试图解决硬件性能瓶颈及用户体验等问题。例如,某大学实验室开发了一套基于SLAM技术的室内导航系统,能够在复杂环境中实现高精度定位,为未来的智能城市建设奠定了基础。 值得注意的是,在全球范围内,各国政府都在加大对科技创新的支持力度。美国出台了多项鼓励高科技产业发展的政策,而欧盟则推出了《数字服务法案》,旨在规范互联网平台的行为,保护用户隐私权。这些举措无疑将进一步推动全球科技生态的发展,为程序员们创造更多机会。 综上所述,无论是技术创新还是政策支持,都表明当前正处于一个充满机遇的时代。对于程序员而言,保持对新技术的关注,并不断提升自身技能,将是适应未来挑战的关键所在。
2025-03-25 15:39:59
11
幽谷听泉_
转载文章
...理能力,在云计算、大数据分析、移动应用开发和企业级应用架构中持续发挥着关键作用。近年来,Oracle公司对Java的投入力度不减反增,不断推动Java版本更新以适应现代软件开发需求。 例如,2014年发布的Java 8引入了Lambda表达式和Stream API,极大提升了Java在函数式编程方面的表现力与效率;而2017年的Java 9则首次引入模块化系统(Jigsaw项目),使得大型软件能够更高效地组织和管理代码。最近,Java 17作为长期支持版发布,不仅提供了多项性能改进与新特性,还进一步强化了安全机制,包括ZGC垃圾回收器的增强以及密封类(sealed class)等新功能的引入,有效助力开发者应对复杂业务场景。 此外,随着Kotlin、Scala等基于JVM的语言崭露头角,Java也在积极借鉴这些语言的优点,不断提升自身的语言特性和用户体验。在开源社区,诸如Apache Hadoop、Spring框架等众多重量级项目均采用Java进行开发,证明了其在分布式计算与企业级服务端开发领域的主导地位。 值得注意的是,随着云原生技术的发展,Kubernetes、Docker等容器技术与Java结合日益紧密,使得Java应用能够更好地适应微服务架构的需求,实现快速部署和弹性伸缩。同时,Java也正在积极拥抱无服务器(Serverless)计算模式,通过与AWS Lambda、Google Cloud Functions等服务集成,为开发者提供更为便捷高效的开发体验。 综上所述,Java语言在不断发展演进中保持活力,并且在全球范围内继续影响和塑造着软件开发的趋势与格局。无论是初学者还是资深开发者,关注Java最新动态和技术进展,都将有助于把握未来编程语言的发展脉络,提升自身的技术实力与竞争力。
2023-03-25 09:18:50
85
转载
Apache Atlas
近期,随着大数据和人工智能技术的快速发展,数据治理成为企业数字化转型中的重要议题。正如文章所述,Apache Atlas 作为一种开源的数据治理工具,为企业提供了强大的元数据管理和数据血缘追踪能力。然而,除了技术层面的挑战,数据治理还面临着法律合规性的压力。例如,欧盟的《通用数据保护条例》(GDPR)和美国的《加州消费者隐私法案》(CCPA)都对企业处理个人数据提出了严格的要求。这些法规不仅影响了企业的数据存储方式,也对数据分类和权限管理提出了新的标准。 最近,一家国际零售巨头因未能妥善保护客户数据而遭到巨额罚款,这再次提醒我们数据安全和隐私保护的重要性。企业在实施数据治理方案时,不仅要考虑技术实现,还要结合法律法规的要求,确保数据的合法合规使用。例如,在选择像 Apache Atlas 这样的工具时,企业需要评估其是否支持敏感数据的自动识别和加密功能,以及是否符合相关地区的隐私保护规定。 此外,随着云原生架构的普及,越来越多的企业将数据存储迁移到云端。在这种背景下,如何在分布式环境中有效管理元数据和数据血缘关系,成为了新的挑战。一些领先的科技公司正在积极探索基于云的开源解决方案,以满足企业日益增长的数据治理需求。同时,开源社区也在不断改进工具的功能,使其更加适应现代企业的复杂需求。 总之,数据治理不仅仅是技术问题,更是涉及法律、商业和社会责任的综合课题。企业在推进数字化转型的过程中,应当充分认识到这一点,并采取积极措施,确保数据的安全、合规和高效管理。
2025-04-03 16:11:35
61
醉卧沙场
转载文章
...e的集成体验。然而,数据可视化领域的创新和发展永无止境。近日,amCharts公司宣布即将推出的一系列新功能更新,进一步强化其产品在实时数据分析、交互式体验以及无障碍访问等方面的优势。 据官方透露,amCharts 5将在下一版本中引入更先进的动态数据流处理机制,使得大规模实时数据能够得到即时、流畅的可视化展现,尤其适用于金融交易、物联网监控等对时效性要求极高的场景。同时,针对日益增长的无障碍需求,amCharts 5也将改进图表元素的可访问性设计,确保视障用户通过辅助技术也能准确理解数据信息。 此外,amCharts团队正积极与各大开源社区合作,持续丰富地图库资源,并计划将更多开源地理空间数据项目纳入支持范围,让用户能更加便捷地创建符合特定业务需求的地图图表。通过这些升级,amCharts 5旨在巩固其作为行业领先的数据可视化工具的地位,赋能各行业用户高效、精准地洞察并传达复杂数据背后的价值。
2023-09-17 18:18:34
352
转载
转载文章
...智慧足迹投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜单及奖项”评选。 数据智能产业创新服务媒体 ——聚焦数智 · 改变商业 中国联通智慧足迹开发的SSNG多源数据处理平台,是完全自研的新一代面向行为集成的位置数据处理系统。平台沉淀海量信令处理过程中的长期经验,着力解决影响数据输出质量的核心堵点,可兼容类似信令的多种LBS数据源接入并实现自动化、标准化输出数据结果。 技术说明 SSNG多源数据处理平台技术创新部分包括: 行为矩阵:将离散的驻留信息,转化为用户的时空矩阵,通过机器学习模式识别,提取出用户的LBS行为特征。 行为集成:将用户的行为矩阵,结合搜集沉淀的土地利用&地物POI数据,为用户的驻留、出行信息赋予具体的目的,便于后续的场景化分析。 人车匹配:结合车联网LBS数据,将轨迹重合度高的“人-车”用户对,通过轨迹伴随算法识别出来,可用于判断用户的车辆保有情况。 路径拟合:解决信令数据定位不连续和受限基站布设密度等问题,引入路网拓扑数据,将用户出行链还原至真实道路上,并确定流向及关键转折点,以便于判断出行方式。 出行洞察:利用信令数据、基站数据,匹配地铁网络、高铁网络,通过机器学习算法,判定用户出行时使用的出行方式。 基于SSNG多源数据处理平台,可实现的技术突破包括: 1)全国长时序人口流动监测技术 针对运营商信令数据以及spark分布式计算平台的特点,独创了处理运营商信令数据的双层计算框架,填补了分布式机器学习方法处理运营商信令数据的空白,实现了大规模高效治理运营商大数据的愿景;研发了人口流动与现代大数据技术相结合的宏观监测仿真模型。 基于以上技术构建了就业、交通、疫情、春运等一系列场景模型,并开发了响应决策平台,实现了对我国人口就业、流动及疫情影响的全域实时监测。 2)全国长时序人口流动预测技术 即人口流动的大尺度OD预测技术,研发了人口跨区域流动OD预测模型,解决了信令大数据在量化模拟大尺度人口流动中的技术难题,形成了对全国人口流动在日、周、月不同时间段和社区、乡镇、县市不同地理尺度进行预测的先进技术,实现了2020年新冠疫情后全国返城返岗和2021年全国春节期间人口流动的高精度预测。 3)实时人口监测 实时人口监测是通过对用户手机信令进行实时处理、计算和分析,得出指定区域的实时人口数量、特征和迁徙情况。包括区域人口密度、人口数量、人口结构、人口来源、人口画像、人口迁徙、职住分析、人口预测等信息。 4)超强数据处理及AI能力 引入Bitmap大数据处理算法及Pilosa数据库集群,采用实时流式计算,集成Kafka、redis、RabbitMQ等分布式大数据处理组件,搭建自有信令大数据处理平台,使用百亿计算go-kite架构,实现毫秒级响应,实时批量处理数据达500000条 /秒,每天可处理1000亿条数据。集成AI分析能力(A/B轨),有效避免了运营商数据采集及传输过程中的时延及中断情况,大幅提高数据结果的实时性。 已获专利情况: 专利名称 专利号 出行统计方法、装置、计算机设备和可读存储介质 ZL 2020 1 0908424.3 信令数据匹配方法、装置及电子设备 ZL 2019 1 1298869.8 轨道交通用户识别方法和装置 ZL 2019 1 0755903.3 公共聚集事件识别方法、装置、计算机设备及存储介质 ZL 2020 1 1191917.6 广域高铁基站识别方法、装置、服务器及存储介质 ZL 2020 1 1325543.2 相关荣誉: 2021地理信息科技进步奖一等奖、中国测绘学会科技进步奖特等奖、2021数博会领先科技成果奖、兼容系统创新应用大赛大数据专项赛优秀奖。 开发团队 ·带队负责人:陶周天 公司CTO,北京大学理学学士。长期任职于微软等世界500强企业,曾任上市公司优炫软件VP,具备丰富的IT架构、数据安全、数据分析建模、机器学习、项目管理经验。牵头组织突破多个技术难题(人地匹配、人车匹配、室内基站优化、行为集成AI等),研发一系列技术专利。 ·团队其他重要成员:刘祖军 高级算法工程师,美国爱荷华大学计算机科学本硕,曾任职于美国俄亥俄州立大学研究院。 ·隶属机构:智慧足迹 智慧足迹数据科技有限公司是中国联通控股,京东科技参股的专业大数据及智能科技公司。公司依托中国联通卓越的数据资源和5G能力,京东科技强大的人工智能、物联网等技术和“产业X科技”能力,聚焦“人口+”大数据,连接人-物-企,成为全域数据智能科技领先服务商。 公司以P·A·Dt为核心能力,面向数字政府、智慧城市、企业数字化转型广大市场主体,专注经济治理、社会治理和企业数字化服务,构建“人口+”七大多源数据主题库,提供“人口+” 就业、经济、消费、民生、城市、企业等大数据产品平台,服务支撑国家治理现代化和国家战略,推动经济社会发展。 目前,公司已服务国家二十多个部委及众多省市政府、300+城市规划、知名企业和高校等智库、国有及股份制银行等数百家头部客户,已建成全球最强大的手机信令处理平台,是中国就业、城规、统计等领域大数据领先服务商。 相关评价 新一代SSNG多源大数据处理平台,提升了手机信令数据在空间数据计算的精度,信令处理结果对室内场景更具敏锐性,在区域范围的职住人群空间分布更加接近实际情况。 ——某央企大数据部技术负责人 新一代SSNG多源大数据处理平台,可处理实时及历史信令数据,应对不同客户应用场景。并且根据长时间序列历史数据实现人口预测,为提高数据精度可对接室内基站数据,从而提供更加准确的人员定位。 ——某企业政府事业部总监 提示:了解更多相关内容,点击文末左下角“阅读原文”链接可直达该机构官网。 《2021企业数智化转型升级服务全景图/产业图谱1.0版》 《2021中国数据智能产业图谱3.0升级版》 《2021中国企业数智化转型升级发展研究报告》 《2021中国数据智能产业发展研究报告》 ❷ 创新服务企业榜 ❸ 创新服务产品榜 ❸ 最具投资价值榜 ❺ 创新技术突破榜 ☆条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》 联系数据猿 北京区负责人:Summer 电话:18500447861(微信) 邮箱:summer@datayuan.cn 全国区负责人:Yaphet 电话:18600591561(微信) 邮箱:yaphet@datayuan.cn 本篇文章为转载内容。原文链接:https://blog.csdn.net/YMPzUELX3AIAp7Q/article/details/122314407。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-07-01 09:57:01
344
转载
JSON
...者开始关注其在跨平台数据交互中的表现。特别是在云计算和物联网领域,JSON因其轻量级和易读性的特点,成为了主流的数据交换格式。然而,近期一项关于JSON安全性的研究引起了广泛关注。研究人员发现,在某些情况下,不当使用JSON可能导致严重的安全隐患。 例如,在某些API接口设计中,如果开发人员没有对输入的JSON数据进行严格校验,攻击者可能利用这一漏洞注入恶意代码。这种被称为“JSON注入”的攻击方式,已经在多个知名企业的系统中被发现。事件曝光后,多家科技公司迅速响应,加强了对JSON数据的安全防护措施。谷歌和微软分别在其最新发布的开发工具中增加了JSON输入验证功能,旨在帮助开发者更高效地识别潜在风险。 与此同时,国内也有不少企业和机构开始重视JSON安全问题。阿里巴巴云安全团队发布了一份详细的JSON安全指南,详细列举了常见的安全陷阱以及相应的解决方案。这份指南不仅涵盖了基本的校验规则,还提供了实际案例分析,帮助开发者更好地理解如何防范此类攻击。 此外,开源社区也在积极贡献力量。GitHub上有一个名为“JSON-Security”的项目,专门用于收集和分享JSON相关的最佳实践。该项目的维护者表示,他们希望通过这种方式,让更多的开发者意识到JSON安全的重要性,并参与到共同维护网络安全的行动中来。 总的来说,JSON虽然简单易用,但在实际应用中仍需谨慎对待。无论是企业还是个人开发者,都应加强对JSON数据的管理和保护,以应对日益复杂的网络环境带来的挑战。未来,随着JSON技术的进一步发展,相信会有更多创新的安全解决方案涌现,为构建更加安全可靠的网络环境贡献力量。
2025-03-31 16:18:15
13
半夏微凉
MemCache
...布式系统中,如何保证数据的一致性和可靠性成为了一个重要的课题。近期,某知名电商平台在大促期间遭遇了MemCache集群崩溃的情况,导致部分订单数据丢失,给公司带来了巨大的经济损失。事后调查显示,问题的根本原因在于MemCache的主从同步机制未能及时应对突发流量,加上监控系统的滞后,未能第一时间发现问题并采取措施。 针对这一事件,业内专家提出了几点改进建议。首先,应该引入更先进的分布式一致性协议,如Paxos或Raft算法,确保在节点故障时数据不会丢失。其次,加强监控系统的实时性,利用Prometheus等工具对MemCache的各项指标进行持续跟踪,一旦发现异常立即触发报警。此外,还可以考虑采用多活架构,即在同一地区部署多个MemCache集群,当某个集群出现问题时,能够迅速切换到备用集群,从而最大限度地降低业务中断的风险。 与此同时,开源社区也在不断推进MemCache的功能完善。例如,最新的MemCache版本已经支持动态扩容,这意味着企业在高峰期可以通过快速增加节点来应对流量激增。同时,新的插件机制也让开发者可以根据自身需求定制化功能,比如添加额外的安全认证层或者优化数据压缩算法。 总之,MemCache作为一种高效的缓存解决方案,在现代IT基础设施中扮演着不可或缺的角色。但要想充分发挥其潜力,企业必须正视潜在风险,积极拥抱技术创新,才能在激烈的市场竞争中立于不败之地。
2025-04-08 15:44:16
88
雪落无痕
转载文章
...供了一种基于C++的数据并行编程语言DPC++,以及一系列性能库,使得开发者能够以一种可移植性更强、更高效的方式编写代码,并实现跨平台的高性能计算。 DPC++ (Data Parallel C++) , DPC++是一种基于C++的单源编程语言,是英特尔oneAPI的重要组成部分。通过DPC++,开发者可以使用统一的C++语法编写面向不同硬件架构(如CPU、GPU、FPGA等)的高性能并行代码。这种语言兼容OpenCL和SYCL标准,允许开发者在一个源文件中混合主机代码与设备内核,从而实现跨架构的无缝编程体验。 SYCL , SYCL(Single-source heterogeneous programming model for OpenCL)是由Khronos Group管理的一种开放标准,为C++程序员提供了一个用于异构系统编程的单一源编程模型。SYCL允许开发者在C++代码中直接编写针对不同处理器(如CPU、GPU等)的并行任务,无需学习特定的设备编程语言,增强了代码的可读性和可维护性,同时也简化了多架构程序的设计与实现。 统一共享内存(Unified Shared Memory, USM) , USM是英特尔oneAPI中的一个特性,它提供了一种虚拟化方法来统一CPU和GPU的内存视图,使开发者能够以指针方式在主机和设备之间自由地分配、访问和管理内存。通过USM,程序可以自动处理数据在主机与运算设备之间的迁移,极大地降低了编程复杂度和潜在的数据一致性问题,提高了异构环境下的编程效率。
2023-07-22 10:28:50
322
转载
Go Gin
...者,我一直在寻找一款高效且易于上手的Web框架。在接触过Express、Spring Boot等框架之后,我终于找到了Go语言中的Gin。Gin以其轻量级、高性能以及丰富的功能吸引了我的注意。特别是当我打算搭建一个能快速处理事情的系统时,Gin的表现直接把我给惊艳到了! 思考过程 说实话,在决定用Gin之前,我也纠结过一段时间。其实呢,Go语言虽然是个静态类型的编程语言,跑起来那速度杠杠的,谁用谁知道!不过呢,它的小生态也是个绕不开的话题,跟Java或者Python比起来,相关的工具、库啊,还有社区里的人气就稍微逊色那么一点点啦。嘿,我刚去瞅了瞅Gin的官网,看了几个案例之后,真是有点被圈粉了!这框架不光跑得飞快,连文档都整得明明白白的,一看就懂。还有那个社区,感觉特别热闹,大家都很积极地交流分享,这种氛围真的超棒!尤其是那种对反应速度要求特别高、分分钟得赶紧干活的场合,Gin这家伙还真挺靠谱的! --- 二、快速入门 搭建基本框架 首先,我们需要安装Gin库。如果你已经安装了Go环境,那么只需运行以下命令即可: bash go get -u github.com/gin-gonic/gin 接下来,我们来写一个最简单的HTTP服务程序: go package main import ( "github.com/gin-gonic/gin" "net/http" ) func main() { r := gin.Default() r.GET("/ping", func(c gin.Context) { c.JSON(http.StatusOK, gin.H{ "message": "pong", }) }) r.Run(":8080") // 启动服务器监听8080端口 } 这段代码创建了一个Gin路由,并定义了一个GET请求路径/ping,当客户端访问这个地址时,会返回JSON格式的数据{"message": "pong"}。 个人感悟 刚接触这段代码的时候,我有点被惊到了——这么少的代码竟然能完成如此多的功能!当然,这也得益于Gin的设计理念:尽可能简化开发流程,让程序员专注于业务逻辑而不是框架细节。 --- 三、实时处理的核心 WebSocket支持 既然我们要讨论实时处理,那么就不得不提WebSocket。WebSocket就像是一个永不掉线的“聊天热线”,能让浏览器和服务器一直保持着畅通的联系。跟传统的请求-响应模式不一样,它可以让双方随时自由地“唠嗑”,想发啥就发啥,特别适合那些需要实时互动的应用,比如聊天室里你一言我一语,或者股票行情那种分分钟都在变化的东西,用它简直太合适了! Gin内置了对WebSocket的支持,我们可以直接通过中间件来实现这一功能。下面是一个完整的WebSocket示例: go package main import ( "log" "net/http" "github.com/gin-gonic/gin" "github.com/gorilla/websocket" ) var upgrader = websocket.Upgrader{ ReadBufferSize: 1024, WriteBufferSize: 1024, CheckOrigin: func(r http.Request) bool { return true // 允许跨域 }, } func handleWebSocket(c gin.Context) { ws, err := upgrader.Upgrade(c.Writer, c.Request, nil) if err != nil { log.Println("Failed to upgrade:", err) return } defer ws.Close() for { messageType, msg, err := ws.ReadMessage() if err != nil { log.Println("Error reading message:", err) break } log.Printf("Received: %s\n", string(msg)) err = ws.WriteMessage(messageType, msg) if err != nil { log.Println("Error writing message:", err) break } } } func main() { r := gin.Default() r.GET("/ws", handleWebSocket) r.Run(":8080") } 在这段代码中,我们利用gorilla/websocket包实现了WebSocket升级,并在handleWebSocket函数中处理了消息的读取与发送。你可以试着在浏览器里输入这个地址:ws://localhost:8080/ws,然后用JavaScript发个消息试试,看能不能马上收到服务器的回应。 深入探讨 说实话,刚开始写这部分代码的时候,我还担心WebSocket的兼容性问题。后来发现,只要正确设置了CheckOrigin方法,大多数现代浏览器都能正常工作。这让我更加坚定了对Gin的信心——它虽然简单,但足够强大! --- 四、进阶技巧 并发与性能优化 在实际项目中,我们可能会遇到高并发的情况。为了保证系统的稳定性,我们需要合理地管理线程池和内存分配。Gin提供了一些工具可以帮助我们做到这一点。 例如,我们可以使用sync.Pool来复用对象,减少垃圾回收的压力。下面是一个示例: go package main import ( "sync" "time" "github.com/gin-gonic/gin" ) var pool sync.Pool func init() { pool = &sync.Pool{ New: func() interface{} { return make([]byte, 1024) }, } } func handler(c gin.Context) { data := pool.Get().([]byte) defer pool.Put(data) copy(data, []byte("Hello World!")) time.Sleep(100 time.Millisecond) // 模拟耗时操作 c.String(http.StatusOK, string(data)) } func main() { r := gin.Default() r.GET("/", handler) r.Run(":8080") } 在这个例子中,我们定义了一个sync.Pool来存储临时数据。每次处理请求时,从池中获取缓冲区,处理完毕后再放回池中。这样可以避免频繁的内存分配和释放,从而提升性能。 反思与总结 其实,刚开始学习这段代码的时候,我对sync.Pool的理解还停留在表面。直到后来真正用它解决了性能瓶颈,我才意识到它的价值所在。这也让我明白,优秀的框架只是起点,关键还是要结合实际需求去探索和实践。 --- 五、未来展望 Gin与实时处理的无限可能 Gin的强大之处不仅仅在于它的易用性和灵活性,更在于它为开发者提供了广阔的想象空间。无论是构建大型分布式系统,还是打造小型实验项目,Gin都能胜任。 如果你也想尝试用Gin构建实时处理系统,不妨从一个小目标开始——比如做一个简单的在线聊天室。相信我,当你第一次看到用户实时交流的画面时,那种成就感绝对会让你欲罢不能! 最后的话 写这篇文章的过程,其实也是我自己重新审视Gin的过程。其实这个东西吧,说白了挺简单的,但让我学到了一个本事——用最利索的办法搞定事情。希望能这篇文章也能点醒你,让你在今后的开发路上,慢慢琢磨出属于自己的那套玩法!加油吧,程序员们!
2025-04-07 16:03:11
66
时光倒流
Logstash
...来管理和分析海量日志数据。然而,正如文章所提到的,时间戳问题依然是许多用户在使用Logstash时面临的最大挑战之一。这种现象不仅出现在传统IT行业,也在云计算、大数据分析等领域频频出现。例如,最近亚马逊云科技发布的《2023年企业日志管理现状报告》显示,超过60%的企业在日志处理过程中遇到了时间戳不一致的问题,而这直接影响了他们的业务决策效率。 与此同时,国内也有不少企业在实践中摸索出了更为高效的解决方案。以阿里巴巴集团为例,其自主研发的日志服务平台SLS(Log Service)特别针对时间戳处理进行了深度优化。该平台内置了多种时间戳解析算法,并支持用户自定义规则,极大地提升了日志处理的灵活性和准确性。此外,腾讯云也推出了类似的工具,通过引入机器学习技术,能够自动识别日志中的时间戳模式,大幅降低了人工干预的成本。 从更深层面来看,时间戳问题的背后反映了现代企业对实时数据分析需求的增长。随着物联网设备的普及以及边缘计算的兴起,未来日志数据的规模和复杂度将进一步增加。因此,如何构建更加智能、稳定的时间戳处理机制将成为技术领域的重要课题。在此背景下,开源社区的作用愈发凸显。GitHub上活跃的开发者们不断贡献新的插件和补丁,为Logstash等工具注入更多创新元素。例如,最近有人提交了一个名为“DynamicTimestamp”的插件,它可以根据上下文动态调整时间戳格式,为用户提供了一种全新的视角。 值得注意的是,时间戳问题不仅仅局限于技术层面,它还涉及到组织架构和流程设计。一些领先的企业已经开始尝试将日志管理系统与业务流程紧密结合,通过建立跨部门协作机制,确保数据采集、存储和分析的一致性。这种做法不仅提高了工作效率,也为企业的长期发展奠定了坚实的基础。总之,时间戳问题虽看似琐碎,但它却是衡量一家公司技术实力的关键指标之一。在未来,随着技术的进步和社会需求的变化,这一领域的研究必将迎来更加广阔的空间。
2025-05-13 15:58:22
30
林中小径
HessianRPC
...ssianRPC中的数据库连接池回收策略设置错误 一、引言 问题初现与初步探索 嗨,各位开发者朋友们!最近我在研究HessianRPC的时候,遇到了一个让我头疼的问题——数据库连接池的回收策略设置错误。这可不是一个小问题,它直接影响了系统的稳定性和性能。说实话,最开始我还真没太当回事儿,心想这不就是个小配置嘛,弄错了改一下不就行了?结果一看才发现事情没那么简单,越研究越觉得头大,到最后彻底明白过来——这不是动动手指改个数字能搞定的事儿! 这个问题其实很常见,很多开发人员在使用数据库连接池时都会遇到类似的情况。我当时就纳闷了:这回收策略怎么这么磨人啊?是我哪儿配错了,还是我对HessianRPC这块儿理解得不够透彻呢?抱着这些小问号,我就这么一头扎进去了,开启了我的探索小冒险。 二、问题的本质 为什么回收策略如此重要? 先来说说为什么数据库连接池的回收策略这么重要。其实啊,数据库连接池就像是一个专门帮大家管数据库连接的小管家,它的主要任务就是让大家用起来更方便、更快,同时还能省下不少资源,不浪费!要是回收策略没弄好,连接池里的连接可能就老也放不出来,然后就像多米诺骨牌一样,一连串的问题就跟着来了。 举个例子吧,假设你的系统正在高峰期运行,突然因为某个查询语句卡住了,导致连接池中的所有连接都被占用。要是没弄对回收的办法,这些连接就会一直挂着,啥时候超时了或者系统挂了才肯罢休。这种情况下,你的系统不仅性能下降,还可能面临服务中断的风险。 所以,当你在使用HessianRPC时,一定要认真对待连接池的回收策略。这个策略决定了连接什么时候可以被回收,以及如何避免不必要的资源消耗。 三、实践中的困惑 从代码中发现问题 接下来,我们来看一段典型的HessianRPC代码片段: java public class DatabaseService { private PoolingDataSource dataSource; public DatabaseService() { dataSource = new PoolingDataSource(); dataSource.setMinPoolSize(5); dataSource.setMaxPoolSize(20); dataSource.setInitialPoolSize(10); dataSource.setIdleConnectionTestPeriod(60); dataSource.setAcquireIncrement(5); } public void performQuery(String query) throws SQLException { Connection conn = null; Statement stmt = null; ResultSet rs = null; try { conn = dataSource.getConnection(); stmt = conn.createStatement(); rs = stmt.executeQuery(query); while (rs.next()) { System.out.println(rs.getString("column_name")); } } finally { if (rs != null) rs.close(); if (stmt != null) stmt.close(); if (conn != null) conn.close(); } } } 这段代码看起来没什么问题,对吧?但问题往往就藏在细节里。比如,dataSource.setTestOnBorrow(true) 这个方法,很多人可能会忘记设置。听着,要是你不把这个选项打开的话,当你要从连接池里拿连接的时候,连接池就懒得去管这条连接是不是还能用。那问题就来了,没准你就得了个坏家伙——一个根本没法用的连接! 再比如,setMinPoolSize 和 setMaxPoolSize 的关系也很重要。如果 minPoolSize 设置得比 maxPoolSize 大,那连接池的行为就会变得不可预测。我当时就因为没注意到这个点,结果一到高并发的时候,系统就老是出现连接不够用的问题,烦死了! 四、解决方案 一步步优化回收策略 既然问题已经浮出水面,那我们就来解决它吧!首先,我们需要明确几个关键点: 1. 连接测试 确保每次获取连接时都进行有效性测试。 2. 最大最小值设置 合理设置 minPoolSize 和 maxPoolSize,避免资源浪费。 3. 连接回收 设置合适的回收时间,防止连接长时间占用。 基于这些原则,我们可以调整代码如下: java dataSource.setTestOnBorrow(true); // 每次获取连接前测试其有效性 dataSource.setMinPoolSize(10); // 最小连接数 dataSource.setMaxPoolSize(50); // 最大连接数 dataSource.setIdleTimeout(300); // 空闲连接的最大存活时间(秒) dataSource.setAcquireIncrement(5); // 每次增加的连接数 通过这些设置,我们可以在一定程度上缓解连接池的压力。嘿,告诉你一个小窍门啊!你可以根据自己的业务需求,灵活调整连接池的大小,想大就大,想小就小, totally up to you!例如,在高峰时段适当增加 maxPoolSize,而在低谷时段减少它。 五、反思与总结 学习的旅程永无止境 回顾整个过程,我深刻体会到,技术学习是一个不断试错和改进的过程。一开始捣鼓 HessianRPC 的时候,我就是照着文档把配置抄下来了,压根没琢磨这些参数到底是干啥的,就觉得照着做就行了吧,管它什么意思呢!直到出现问题,我才意识到自己对底层机制的理解是多么浅薄。 不过,也正是因为这次经历,我学会了更加细致地思考每一个配置项的作用。而且,通过实际动手调试代码,我发现了很多之前忽略的小细节。比如,有时候一个小小的布尔值设置错误,就能让整个系统陷入混乱。 最后,我想说的是,无论是使用HessianRPC还是其他技术框架,都要保持一颗好奇的心。只有真正理解了工具的工作原理,才能在遇到问题时从容应对。希望这篇文章能给大家带来一些启发,让我们一起在这个充满挑战的技术世界中不断进步!
2025-05-14 16:14:51
73
风轻云淡
ElasticSearch
...方法: 比如你的底层数据库用的是sql数据库(比如mysql):你可能会想到在对应字段上使用field1 like '%?%',?即用户输出的关键词 比如你的底层数据库用的是mongo:你可能会想到在对应字段上使用db.collection.find({ "field1": { $regex: /aaa/ } })做查询,aaa即用户输入的关键词 比如你的底层数据库用的是elasticsearch:那厉害了,专业全文搜索神奇,全文搜索或搜索相关的需求使用elasticsearch绝对是最合适的选择 比如你的底层数据库用的是hive、impala、clickhouse等大数据计算引擎:鸟枪换炮,其实用作全文索引和搜索的场景并不合适,你可能依旧会使用sql数据库那样用like做交互 2. 方案选择 调研之后,可能会发现对于数据量相对大一点的搜索场景,在当下流行的数据库或计算引擎中,elasticsearch是其中最合适的解决方案。 无论是sql的like、还是mongo的regex,在线上环境下,数据量较多的情况下,都不是很高效的查询,甚至有的公司的dba会禁止在线上使用类似的查询语法。 与elasticsearch是“亲戚”的,大家还常提到lucene、solr,但是无论从现在的发展趋势还是公司运维人才的储备(不得不说当下的运维人才中,对es熟悉的人才会更多一些),elasticsearch是相对较合适的选择。 一些大数据计算引擎,其实更多的适合OLAP场景。当然也完全可以使用,因为比如clickhouse、starrocks等的查询速度已经发展的非常快。但你会发现在中文分词搜索上,实现起来有一定困扰。 所以,如果你不差机器,首选方案还是elasticsearch。 3. elasticsearch的适用场景 3.1 经典的日志搜索场景 提到elasticsearch不得不提到它的几个好朋友: 一些公司里经常用elasticsearch来收集日志,然后用kibana来展示和分析。 展开来说,举个例子,你的app打印日志打印到了线上日志文件,当app出现故障你需要做定位筛查的时候,可能需要登录线上机器用grep命令各种查看。 但如果你不差机器资源,可以搭建上述架构,app的日志会被收集到elasticsearch中,最终你可以在kibana中查看日志,kibana里面可以很方面的做各种筛查操作。 这个流畅大概是这样的: 3.2 通用搜索场景 但是没有上图的beats、logstash、kibana,elasticsearch可以自己工作吗?完全可以的! elasticsearch也支持单机部署,数据规模不是很大的情况下,表现也是不错的。所以,你也不用担心因为自己机器资源不够而对elasticsearch望而却步。当然,单机部署的情况下,更多的适合自己玩,对于可靠性的要求就不能太苛刻了。 如果你在用宝塔,那你可以在宝塔面板,左侧“软件商店”中直接找到elasticsearch,并“没有痛苦”的安装。 本篇文章主要讨论选型,所以不涉及安装细节。 3.2.1 性能顾虑 上面提到了“表现”,其实性能只是elasticsearch的一个方面,主要你的机器资源足够(机器资源?对,包括你的机器个数,elasticsearch可以非常方便的横向扩展,以及单机的配置,cpu+内存,内存越高越好,elasticsearch比较吃内存!),它一定会给你很好的性能反应。试想,公司里的app打印线上日志的行数其实可比一般业务系统产生的订单数量要大很多很多,elasticsearch都可以常在日志的实时分析,所以如果你要做通用场景,而且机器资源不是问题,这是完全行得通的。 3.2.2 易用性和可玩性 此外,在使用elasticsearch的时候,会有很多的可玩性。这里不引经据典,呈现很多elasticsearch官方文章的列举优秀特性(当然,确实很优秀!)。 这里举几个例子: (1)中文分词:第一章提到的其它引擎几乎很难实现,elasticsearch对分词器的支持是原生的,因为elasticsearch天生就为全文索引而生,elasticsearch的汉语名字就是“弹性搜索”。这家伙可是专门搞搜索的! 有的朋友可能不了解分词器,比如你的一个字段里存储“今天我要吃冰激凌”,在分词器的加持下,es最终会存储为“今天|我|要|吃|冰激凌”,并且使用倒排索引的形式进行存储。当你搜索“冰激凌”的时候,可以很快的反馈回来。 关于elasticsearch的原理,这里不展开说明,分词器和倒排索引是elasticsearch的最基本的概念。如果有不了解的朋友,可以自行百度一下。而且这两个概念,与elasticsearch其实不挂钩,是搜索中的通用概念。 关于倒排索引,其核心表现如下图: 如果你要用mysql、mongo实现中文分词,这......其实挺麻烦的,可能在后面的版本支持中会实现的很好,但在当前的流行版本中,它们对中文分词是不够友好的。 mysql5.7之后支持外挂第三方分词器,支持中文分词。而在数据量较大的情况下,mysql的多机器部署几乎很难实现,elasticsearch可以很容易的水平扩展。 mongo支持西方语言的分词,但不支持中文、日语、汉语等东方语言,你需要在自己的逻辑代码中实现分词器。 ngram分词,你看看效果:依旧是“今天我要吃冰激凌”,ngram二元分词后即将得到结果“今天、天我、我要、要吃、吃冰、冰激、激凌”。这....,那你搜索冰激凌就搜不出来!咋办呢,当然可以使用三元分词。但是更好的解决方案还是中文分词器,但它们原生并不支持的。 (2)自定义排名场景:比如你的搜索“冰激凌”,结果中返回了有10条,这10条应该有你想对它指定的顺序。最简单的就是用默认的得分,但是如果你想人为干预这个得分怎么办? elasticsearch支持function_score功能(可以不用,这个是增强功能),es会在计算最终得分之前回调这个你指定的function_score回调函数,传入原始得分、行的原始数据,你可以在里面做计算,比如查询其它参考表、或查看是否是广告位,以得到新的score返回给用户。 function_scrore的功能不展开描述,是一个在自定义得分场景下十分有用又简单易用的功能!下面是一个使用示例,不仅如此,它是支持自定义函数的,自由度非常高。 (3)文本高亮:你用mysql或mongo也可以实现,比如用户搜索“冰激凌”,你只需要在逻辑代码中对“冰激凌”替换为“<span class='highlight-term'>冰激凌</span>”,然后前端做样式即可。但如果用户搜索了“好吃的冰激凌”咋办呢?还有就是英文大小写的场景,用户搜索"MAIN",那结果及时匹配到了“main”(小写的),这个单词是否应该高亮呢?也许这时候你会用业务代码实现toLowerCase下基于位置下标的匹配。 挺麻烦的吧,elasticsearch,自动可以返回高亮字段!并且可以自由指定高亮的html前后标签。 (4)实在太多了....这家伙天生为索引而生,而且版本还在不断地迭代。不差机器的话,用用吧! 4. 退而求其次 4.1 普通数据库 尽管elasticsearch在搜索场景下,是非常好用的利器!但是它比较消耗机器资源,如果你的数据规模并不大,而且想快速实现功能。你可以使用mysql或mongo来代替,完全没有问题。 技术是为了解决特定业务场景下的问题,结合当前手头的资源,适合自己的才是最好的。也许你搞了一个单机器的elasticsearch,单机器内存只有2G,它的表现并不会比mysql、mongo来的好。 当然,如果你为了使用上边提到的一些优秀的独有的特性,那elasticsearch一定还是最佳选择! 对于mysql(关系型数据库)和mongo(文档数据库)的区别这里不展开描述了,但对于搜索而言,两种都合适。有时候选型也不用很纠结,其实都是差不太多的东西,适合自己的、自己熟悉的、运维起来顺手的,就是最好的。 4.2 普通数据库实现中文分词搜索的原理 尽管mysql在5.7以后支持外挂第三方分词器,mongo在截止目前的版本中也不支持中文分词(你可能会看到一些文章中说可以指定language为chinese,但其实会报错的)。 其实当你选择普通数据库,你就不得不在逻辑代码中自己实现一套索引分词+搜索分词逻辑。 索引分词+搜索分词?为什么分开写,如果你有用过elasticsearch或solr,你会知道,在指定字段的时候,需要指定index分词器和search分词器。 下面以mongo为例做简要说明。 4.2.1 index分词器 意思是当数据“索引”截断如何分词。首先,这里必须要承认,数据之后存储了,才能被查询。在搜索中,这句话可以换成是“数据只有被索引了,才能被搜索”。 这时候请求打过来了,要索引一条数据,其中某字段是“今天我要吃冰激凌”,分词后得到“今天|我|要|吃|冰激凌”,这个就可以入库了。 如果你使用elasticsearch或solr,这个过程是自动的。如果你使用不支持外观分词器的常规数据库,这个过程你就要手动了,并把分词后的结果用空格分开(最好使用空格,因为西方语言的分词规则就是按空格拆分,以及逗号句号),存入数据库的一个待搜索的字段上。 效果如下图: 本站的其它博文中有介绍IKAnalyzer:https://www.52itw.com/java/6268.html 4.2.2 search分词器 当用户的查询请求打过来,用户输入了“好吃的冰激凌”,分词后得到“好吃|冰激凌”(“的”作为停用词stopwords,被自动忽略了,IKAnalyzer可以指定停用词表)。 于是这时候就回去上图的数据库表里面搜索“好吃 冰激凌”(与index分词器结果统一,还是用空格分隔)。 当然,对于mongo而言,你需要事先开启全文索引db.xxx.ensureIndex({content: "text"}),xxx是集合名,content是字段名,text是全文索引的标识。 mongo搜索的时候用这个语法:db.xxx.find( { $text: { $search: "好吃 冰激凌" } },{ score: { $meta: "textScore" } }).sort( { score: { $meta: "textScore" } } ) 4.2.3 索引库和存储库分开 为了减少单表的大小,为了让普通的列表查询、普通筛选可以跑的更快,你可以对原有的数据原封不动的做一张表。 然后对于搜索场景,再单独对需要被搜索的字段单独拎一张表出来! 然后二者之间做增量信号同步或定时差额同步,可能会有延迟,这个就看你能容忍多长时间(悄悄告诉你,elasticsearch也需要指定这个refresh时间,一般是1s到几秒、甚至分钟级。当然,二者的这个时间对饮的底层目的是不一样的)。 这样,搜索的时候先查询搜索库,拿到一个指针id的列表,然后拿到指针id的列表区存储里把数据一次性捞出来。当然,也是支持分页的,你查询搜索库其实也是普通的数据库查询嘛,支持分页参数的。 4.3 存储库和索引库的延伸阅读 很多有名的开源软件也是使用的存储库与索引库分离的技术方案,如apache atlas: apache atlas对于大数据领域的数据资产元数据管理、数据血缘上可谓是专家,也涉及资产搜索的特性,它的实现思路就是:从搜索库中做搜索、拿到key、再去存储库中做查询。 搜索库:上图右下角,可以看到使用的是elasticsearch、solr或lucene,多个选一个 存储库:上图左下角,可以看到使用的是Cassandra、HBase或BerkeleyDB,多个选一个 虽然apache atlas在只有搜索库或只有存储库的时候也可以很好的工作,但只针对于数据量并不大的场景。 搜索库,擅长搜索!存储库,擅长海量存储!搜索库多样化搜索,然后去存储库做点查。 当你的数据达到海量的时候,es+hbase也是一种很好的解决方案,不在这里展开说明了。
2024-01-27 17:49:04
540
admin-tim
转载文章
...涵盖必备基础、爬虫和数据分析 ③ 100多个Python实战案例,含50个超大型项目详解,学习不再是只会理论 ④ 20款主流手游迫解 爬虫手游逆行迫解教程包 ⑤ 爬虫与反爬虫攻防教程包,含15个大型网站迫解 ⑥ 爬虫APP逆向实战教程包,含45项绝密技术详解 ⑦ 超300本Python电子好书,从入门到高阶应有尽有 ⑧ 华为出品独家Python漫画教程,手机也能学习 ⑨ 历年互联网企业Python面试真题,复习时非常方便 👉Python学习视频600合集👈 观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 👉实战案例👈 光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。 👉100道Python练习题👈 检查学习结果。 👉面试刷题👈 资料领取 上述这份完整版的Python全套学习资料已经上传CSDN官方,朋友们如果需要可以微信扫描下方CSDN官方认证二维码输入“领取资料” 即可领取 好文推荐 了解python的前景:https://blog.csdn.net/weixin_49891576/article/details/127187029 了解python的兼职:https://blog.csdn.net/weixin_49891576/article/details/127125308 本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_49891576/article/details/130861900。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-06-04 23:38:21
106
转载
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
pgrep -f pattern
- 根据进程的完整命令行字符串查找进程ID。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"