... 以上就是线形回归在应用时的注意事项。本篇文章为转载内容。原文链接：https://blog.csdn.net/baidu_26137595/article/details/123766191。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-23 15:52:56

106

转载

转载文章

[转载]JVM G1源码分析（一）——卡表和位图

...。 ·借助额外的数据结构描述这种引用关系，例如使用类似位图（bitmap）的方法，记录A和B的内存块之间的引用关系，用一个位来描述一个字，假设在32位机器上（一个字为32位），需要32KB（32KB×32=1M）的空间来描述一个分区。那么我们就可以在这个对象ObjA所在分区A里面添加一个额外的指针，这个指针指向另外一个分区B的位图，如果我们可以把对象ObjA和指针关系进行映射，那么当访问ObjA的时候，顺便访问这个额外的指针，从这个指针指向的位图就能找到被ObjA引用的分区B对应的内存块。通常我们只需要判定位图里面对应的位是否有1，有的话则认为发生了引用。 class CardTable: public CHeapObj<mtGC> {friend class VMStructs;public:typedef uint8_t CardValue;// All code generators assume that the size of a card table entry is one byte.// They need to be updated to reflect any change to this.// This code can typically be found by searching for the byte_map_base() method.STATIC_ASSERT(sizeof(CardValue) == 1);protected:// The declaration order of these const fields is important; see the// constructor before changing.const MemRegion _whole_heap; // the region covered by the card tableconst size_t _page_size; // page size used when mapping _byte_mapsize_t _byte_map_size; // in bytesCardValue _byte_map; // the card marking arrayCardValue _byte_map_base;// Some barrier sets create tables whose elements correspond to parts of// the heap; the CardTableBarrierSet is an example. Such barrier sets will// normally reserve space for such tables, and commit parts of the table// "covering" parts of the heap that are committed. At most one covered// region per generation is needed.static constexpr int max_covered_regions = 2;// The covered regions should be in address order.MemRegion _covered[max_covered_regions];// The last card is a guard card; never committed.MemRegion _guard_region;inline size_t compute_byte_map_size(size_t num_bytes);enum CardValues {clean_card = (CardValue)-1,dirty_card = 0,CT_MR_BS_last_reserved = 1};// a word's worth (row) of clean card valuesstatic const intptr_t clean_card_row = (intptr_t)(-1);// CardTable entry sizestatic uint _card_shift;static uint _card_size;static uint _card_size_in_words;size_t last_valid_index() const {return cards_required(_whole_heap.word_size()) - 1;}private:void initialize_covered_region(void region0_start, void region1_start);MemRegion committed_for(const MemRegion mr) const;public:CardTable(MemRegion whole_heap);virtual ~CardTable() = default;void initialize(void region0_start, void region1_start);// Barrier set functions.// Initialization utilities; covered_words is the size of the covered region// in, um, words.inline size_t cards_required(size_t covered_words) const {assert(is_aligned(covered_words, _card_size_in_words), "precondition");return covered_words / _card_size_in_words;}// Dirty the bytes corresponding to "mr" (not all of which must be// covered.)void dirty_MemRegion(MemRegion mr);// Clear (to clean_card) the bytes entirely contained within "mr" (not// all of which must be covered.)void clear_MemRegion(MemRegion mr);// Return true if "p" is at the start of a card.bool is_card_aligned(HeapWord p) {CardValue pcard = byte_for(p);return (addr_for(pcard) == p);}// Mapping from address to card marking array entryCardValue byte_for(const void p) const {assert(_whole_heap.contains(p),"Attempt to access p = " PTR_FORMAT " out of bounds of "" card marking array's _whole_heap = [" PTR_FORMAT "," PTR_FORMAT ")",p2i(p), p2i(_whole_heap.start()), p2i(_whole_heap.end()));CardValue result = &_byte_map_base[uintptr_t(p) >> _card_shift];assert(result >= _byte_map && result < _byte_map + _byte_map_size,"out of bounds accessor for card marking array");return result;}// The card table byte one after the card marking array// entry for argument address. Typically used for higher bounds// for loops iterating through the card table.CardValue byte_after(const void p) const {return byte_for(p) + 1;}void invalidate(MemRegion mr);// Provide read-only access to the card table array.const CardValue byte_for_const(const void p) const {return byte_for(p);}const CardValue byte_after_const(const void p) const {return byte_after(p);}// Mapping from card marking array entry to address of first wordHeapWord addr_for(const CardValue p) const {assert(p >= _byte_map && p < _byte_map + _byte_map_size,"out of bounds access to card marking array. p: " PTR_FORMAT" _byte_map: " PTR_FORMAT " _byte_map + _byte_map_size: " PTR_FORMAT,p2i(p), p2i(_byte_map), p2i(_byte_map + _byte_map_size));// As _byte_map_base may be "negative" (the card table has been allocated before// the heap in memory), do not use pointer_delta() to avoid the assertion failure.size_t delta = p - _byte_map_base;HeapWord result = (HeapWord) (delta << _card_shift);assert(_whole_heap.contains(result),"Returning result = " PTR_FORMAT " out of bounds of "" card marking array's _whole_heap = [" PTR_FORMAT "," PTR_FORMAT ")",p2i(result), p2i(_whole_heap.start()), p2i(_whole_heap.end()));return result;}// Mapping from address to card marking array index.size_t index_for(void p) {assert(_whole_heap.contains(p),"Attempt to access p = " PTR_FORMAT " out of bounds of "" card marking array's _whole_heap = [" PTR_FORMAT "," PTR_FORMAT ")",p2i(p), p2i(_whole_heap.start()), p2i(_whole_heap.end()));return byte_for(p) - _byte_map;}CardValue byte_for_index(const size_t card_index) const {return _byte_map + card_index;}// Resize one of the regions covered by the remembered set.void resize_covered_region(MemRegion new_region);// Card-table-RemSet-specific things.static uintx ct_max_alignment_constraint();static uint card_shift() {return _card_shift;}static uint card_size() {return _card_size;}static uint card_size_in_words() {return _card_size_in_words;}static constexpr CardValue clean_card_val() { return clean_card; }static constexpr CardValue dirty_card_val() { return dirty_card; }static intptr_t clean_card_row_val() { return clean_card_row; }// Initialize card sizestatic void initialize_card_size();// Card marking array base (adjusted for heap low boundary)// This would be the 0th element of _byte_map, if the heap started at 0x0.// But since the heap starts at some higher address, this points to somewhere// before the beginning of the actual _byte_map.CardValue byte_map_base() const { return _byte_map_base; }virtual bool is_in_young(const void p) const = 0;}; class G1CardTable : public CardTable {friend class VMStructs;friend class G1CardTableChangedListener;G1CardTableChangedListener _listener;public:enum G1CardValues {g1_young_gen = CT_MR_BS_last_reserved << 1,// During evacuation we use the card table to consolidate the cards we need to// scan for roots onto the card table from the various sources. Further it is// used to record already completely scanned cards to avoid re-scanning them// when incrementally evacuating the old gen regions of a collection set.// This means that already scanned cards should be preserved.//// The merge at the start of each evacuation round simply sets cards to dirty// that are clean; scanned cards are set to 0x1.//// This means that the LSB determines what to do with the card during evacuation// given the following possible values://// 11111111 - clean, do not scan// 00000001 - already scanned, do not scan// 00000000 - dirty, needs to be scanned.//g1_card_already_scanned = 0x1};static const size_t WordAllClean = SIZE_MAX;static const size_t WordAllDirty = 0;STATIC_ASSERT(BitsPerByte == 8);static const size_t WordAlreadyScanned = (SIZE_MAX / 255) g1_card_already_scanned;G1CardTable(MemRegion whole_heap): CardTable(whole_heap), _listener() {_listener.set_card_table(this);}static CardValue g1_young_card_val() { return g1_young_gen; }static CardValue g1_scanned_card_val() { return g1_card_already_scanned; }void verify_g1_young_region(MemRegion mr) PRODUCT_RETURN;void g1_mark_as_young(const MemRegion& mr);size_t index_for_cardvalue(CardValue const p) const {return pointer_delta(p, _byte_map, sizeof(CardValue));}// Mark the given card as Dirty if it is Clean. Returns whether the card was// Clean before this operation. This result may be inaccurate as it does not// perform the dirtying atomically.inline bool mark_clean_as_dirty(CardValue card);// Change Clean cards in a (large) area on the card table as Dirty, preserving// already scanned cards. Assumes that most cards in that area are Clean.inline void mark_range_dirty(size_t start_card_index, size_t num_cards);// Change the given range of dirty cards to "which". All of these cards must be Dirty.inline void change_dirty_cards_to(CardValue start_card, CardValue end_card, CardValue which);inline uint region_idx_for(CardValue p);static size_t compute_size(size_t mem_region_size_in_words) {size_t number_of_slots = (mem_region_size_in_words / _card_size_in_words);return ReservedSpace::allocation_align_size_up(number_of_slots);}// Returns how many bytes of the heap a single byte of the Card Table corresponds to.static size_t heap_map_factor() { return _card_size; }void initialize(G1RegionToSpaceMapper mapper);bool is_in_young(const void p) const override;}; 以位为粒度的位图能准确描述每一个字的引用关系，但是一个位通常包含的信息太少，只能描述2个状态：引用还是未引用。实际应用中JVM在垃圾回收的时候需要更多的状态，如果增加至一个字节来描述状态，则位图需要256KB的空间，这个数字太大，开销占了25%。所以一个可能的做法位图不再描述一个字，而是一个区域，JVM选择512字节为单位，即用一个字节描述512字节的引用关系。选择一个区域除了空间利用率的问题之外，实际上还有现实的意义。我们知道Java对象实际上不是一个字能描述的（有一个参数可以控制对象最小对齐的大小，默认是8字节，实际上Java在JVM中还有一些附加信息，所以对齐后最小的Java对象是16字节），很多Java对象可能是几十个字节或者几百个字节，所以用一个字节描述一个区域是有意义的。但是我没有找到512的来源，为什么512效果最好？没有相应的数据来支持这个数字，而且这个值不可以配置，不能修改，但是有理由相信512字节的区域是为了节约内存额外开销。按照这个值，1MB的内存只需要2KB的额外空间就能描述引用关系。这又带来另一个问题，就是512字节里面的内存可能被引用多次，所以这是一个粗略的关系描述，那么在使用的时候需要遍历这512字节。再举一个例子，假设有两个对象B、C都在这512字节的区域内。为了方便处理，记录对象引用关系的时候，都使用对象的起始位置，然后用这个地址和512对齐，因此B和C对象的卡表指针都指向这一个卡表的位置。那么对于引用处理也有可有两种处理方法：·处理的时候会以堆分区为处理单位，遍历整个堆分区，在遍历的时候，每次都会以对象大小为步长，结合卡表，如果该卡表中对应的位置被设置，则说明对象和其他分区的对象发生了引用。具体内容在后文中介绍Refine的时候还会详细介绍。·处理的时候借助于额外的数据结构，找到真正对象的位置，而不需要从头开始遍历。在后文的并发标记处理时就使用了这种方法，用于找到第一个对象的起始位置。在G1除了512字节粒度的卡表之外，还有bitMap，例如使用bitMap可以描述一个分区对另外一个分区的引用情况。在JVM中bitMap使用非常多，例如还可以描述内存的分配情况。在G1除了512字节粒度的卡表之外，还有bitMap，例如使用bitMap可以描述一个分区对另外一个分区的引用情况。在JVM中bitMap使用非常多，例如还可以描述内存的分配情况。G1在混合收集算法中用到了并发标记。在并发标记的时候使用了bitMap来描述对象的分配情况。例如1MB的分区可以用16KB（16KB×ObjectAlignmentInBytes×8=1MB）来描述，即16KB额外的空间。其中ObjectAlignmentInBytes是8字节，指的是对象对齐，第二个8是指一个字节有8位。即每一个位可以描述64位。例如一个对象长度对齐之后为24字节，理论上它占用3个位来描述这个24字节已被使用了，实际上并不需要，在标记的时候只需要标记这3个位中的第一个位，再结合堆分区对象的大小信息就能准确找出。其最主要的目的是为了效率，标记一个位和标记3个位相比能节约不少时间，如果对象很大，则更划算。这些都是源码的实现细节，大家在阅读源码时需要细细斟酌。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_16500963/article/details/132133125。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-16 20:37:50

246

转载

转载文章

[转载]Quartz学习总结（1）——Spring集成Quartz框架

...与J2EE与J2SE应用程序相结合也可以单独使用。Quartz可以用来创建简单或为运行十个，百个，甚至是好几万个Jobs这样复杂的程序。Jobs可以做成标准的Java组件或 EJBs。Quartz 是个开源的作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。Quartz 允许开发人员根据时间间隔（或天）来调度作业。它实现了作业和触发器的多对多关系，还能把多个作业与不同的触发器关联。整合了 Quartz 的应用程序可以重用来自不同事件的作业，还可以为一个事件组合多个作业。虽然可以通过属性文件（在属性文件中可以指定 JDBC 事务的数据源、全局作业和/或触发器侦听器、插件、线程池，以及更多）配置 Quartz，但它根本没有与应用程序服务器的上下文或引用集成在一起。结果就是作业不能访问 Web 服务器的内部函数；例如，在使用 WebSphere 应用服务器时，由 Quartz 调度的作业并不能影响服务器的动态缓存和数据源。二、java中实现定时任务分类从实现的技术上来分类，目前主要有三种技术（或者说有三种产品）： Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务。使用这种方式可以让你的程序按照某一个频度执行，但不能在指定时间运行。一般用的较少，这篇文章将不做详细介绍。使用Quartz，这是一个功能比较强大的的调度器，可以让你的程序在指定时间执行，也可以按照某一个频度执行，配置起来稍显复杂，稍后会详细介绍。 Spring3.0以后自带的task，可以将它看成一个轻量级的Quartz，而且使用起来比Quartz简单许多，稍后会介绍。从作业类的继承方式来讲，可以分为两类：作业类需要继承自特定的作业类基类，如Quartz中需要继承自org.springframework.scheduling.quartz.QuartzJobBean；java.util.Timer中需要继承自java.util.TimerTask。作业类即普通的java类，不需要继承自任何基类。注:个人推荐使用第二种方式，因为这样所以的类都是普通类，不需要事先区别对待。从任务调度的触发时机来分，这里主要是针对作业使用的触发器，主要有以下两种：每隔指定时间则触发一次，在Quartz中对应的触发器为：org.springframework.scheduling.quartz.SimpleTriggerBean 每到指定时间则触发一次，在Quartz中对应的调度器为：org.springframework.scheduling.quartz.CronTriggerBean 注：并非每种任务都可以使用这两种触发器，如java.util.TimerTask任务就只能使用第一种。Quartz和spring task都可以支持这两种触发条件。三、Quartz与Spring的集成第一种，作业类继承自特定的基类：org.springframework.scheduling.quartz.QuartzJobBean。第一步：定义作业类 Java代码 import org.quartz.JobExecutionContext; import org.quartz.JobExecutionException; import org.springframework.scheduling.quartz.QuartzJobBean; public class Job1 extends QuartzJobBean { private int timeout; private static int i = 0; //调度工厂实例化后，经过timeout时间开始执行调度 public void setTimeout(int timeout) { this.timeout = timeout; } / 要调度的具体任务 / @Override protected void executeInternal(JobExecutionContext context) throws JobExecutionException { System.out.println("定时任务执行中…"); } } 第二步：spring配置文件中配置作业类JobDetailBean Xml代码 <bean name="job1" class="org.springframework.scheduling.quartz.JobDetailBean"> <property name="jobClass" value="com.gy.Job1" /> <property name="jobDataAsMap"> <map> <entry key="timeout" value="0" /> </map> </property> </bean> 说明：org.springframework.scheduling.quartz.JobDetailBean有两个属性，jobClass属性即我们在java代码中定义的任务类，jobDataAsMap属性即该任务类中需要注入的属性值。第三步：配置作业调度的触发方式（触发器） Quartz的作业触发器有两种，分别是 org.springframework.scheduling.quartz.SimpleTriggerBean org.springframework.scheduling.quartz.CronTriggerBean 第一种SimpleTriggerBean，只支持按照一定频度调用任务，如每隔30分钟运行一次。配置方式如下： Xml代码 <bean id="simpleTrigger" class="org.springframework.scheduling.quartz.SimpleTriggerBean"> <property name="jobDetail" ref="job1" /> <property name="startDelay" value="0" /> <property name="repeatInterval" value="2000" /> </bean> 第二种CronTriggerBean，支持到指定时间运行一次，如每天12:00运行一次等。配置方式如下： Xml代码 <bean id="cronTrigger" class="org.springframework.scheduling.quartz.CronTriggerBean"> <property name="jobDetail" ref="job1" /> <!—每天12:00运行一次 --> <property name="cronExpression" value="0 0 12 ?" /> </bean> 关于cronExpression表达式的语法参见附录。第四步：配置调度工厂 Xml代码 <bean class="org.springframework.scheduling.quartz.SchedulerFactoryBean"> <property name="triggers"> <list> <ref bean="cronTrigger" /> </list> </property> </bean> 说明：该参数指定的就是之前配置的触发器的名字。第五步：启动你的应用即可，即将工程部署至tomcat或其他容器。第二种，作业类不继承特定基类。 Spring能够支持这种方式，归功于两个类： org.springframework.scheduling.timer.MethodInvokingTimerTaskFactoryBean org.springframework.scheduling.quartz.MethodInvokingJobDetailFactoryBean 这两个类分别对应spring支持的两种实现任务调度的方式，即前文提到到java自带的timer task方式和Quartz方式。这里我只写MethodInvokingJobDetailFactoryBean的用法，使用该类的好处是,我们的任务类不再需要继承自任何类，而是普通的pojo。第一步：编写任务类 Java代码 public class Job2 { public void doJob2() { System.out.println("不继承QuartzJobBean方式-调度进行中..."); } } 可以看出，这就是一个普通的类，并且有一个方法。第二步：配置作业类 Xml代码 <bean id="job2" class="org.springframework.scheduling.quartz.MethodInvokingJobDetailFactoryBean"> <property name="targetObject"> <bean class="com.gy.Job2" /> </property> <property name="targetMethod" value="doJob2" /> <property name="concurrent" value="false" /> </bean> 说明：这一步是关键步骤，声明一个MethodInvokingJobDetailFactoryBean，有两个关键属性：targetObject指定任务类，targetMethod指定运行的方法。往下的步骤就与方法一相同了，为了完整，同样贴出。第三步：配置作业调度的触发方式（触发器） Quartz的作业触发器有两种，分别是 org.springframework.scheduling.quartz.SimpleTriggerBean org.springframework.scheduling.quartz.CronTriggerBean 第一种SimpleTriggerBean，只支持按照一定频度调用任务，如每隔30分钟运行一次。配置方式如下： Xml代码 <bean id="simpleTrigger" class="org.springframework.scheduling.quartz.SimpleTriggerBean"> <property name="jobDetail" ref="job2" /> <property name="startDelay" value="0" /> <property name="repeatInterval" value="2000" /> </bean> 第二种CronTriggerBean，支持到指定时间运行一次，如每天12:00运行一次等。配置方式如下： Xml代码 <bean id="cronTrigger" class="org.springframework.scheduling.quartz.CronTriggerBean"> <property name="jobDetail" ref="job2" /> <!—每天12:00运行一次 --> <property name="cronExpression" value="0 0 12 ?" /> </bean> 以上两种调度方式根据实际情况，任选一种即可。第四步：配置调度工厂 Xml代码 <bean class="org.springframework.scheduling.quartz.SchedulerFactoryBean"> <property name="triggers"> <list> <ref bean="cronTrigger" /> </list> </property> </bean> 说明：该参数指定的就是之前配置的触发器的名字。第五步：启动你的应用即可，即将工程部署至tomcat或其他容器。到此，spring中Quartz的基本配置就介绍完了，当然了，使用之前，要导入相应的spring的包与Quartz的包，这些就不消多说了。其实可以看出Quartz的配置看上去还是挺复杂的，没有办法，因为Quartz其实是个重量级的工具，如果我们只是想简单的执行几个简单的定时任务，有没有更简单的工具，有！四、Spring-Task 上节介绍了在Spring 中使用Quartz，本文介绍Spring3.0以后自主开发的定时任务工具，spring task，可以将它比作一个轻量级的Quartz，而且使用起来很简单，除spring相关的包外不需要额外的包，而且支持注解和配置文件两种形式，下面将分别介绍这两种方式。第一种：配置文件方式第一步：编写作业类即普通的pojo，如下： Java代码 import org.springframework.stereotype.Service; @Service public class TaskJob { public void job1() { System.out.println(“任务进行中。。。”); } } 第二步：在spring配置文件头中添加命名空间及描述 Xml代码 <beans xmlns="http://www.springframework.org/schema/beans" xmlns:task="http://www.springframework.org/schema/task" 。。。。。。 xsi:schemaLocation="http://www.springframework.org/schema/task http://www.springframework.org/schema/task/spring-task-3.0.xsd"> 第三步：spring配置文件中设置具体的任务 Xml代码 <task:scheduled-tasks> <task:scheduled ref="taskJob" method="job1" cron="0 ?"/> </task:scheduled-tasks> <context:component-scan base-package=" com.gy.mytask " /> 说明：ref参数指定的即任务类，method指定的即需要运行的方法，cron及cronExpression表达式，具体写法这里不介绍了，详情见上篇文章附录。 <context:component-scan base-package="com.gy.mytask" />这个配置不消多说了，spring扫描注解用的。到这里配置就完成了，是不是很简单。第二种：使用注解形式也许我们不想每写一个任务类还要在xml文件中配置下，我们可以使用注解@Scheduled，我们看看源文件中该注解的定义： Java代码 @Target({java.lang.annotation.ElementType.METHOD, java.lang.annotation.ElementType.ANNOTATION_TYPE}) @Retention(RetentionPolicy.RUNTIME) @Documented public @interface Scheduled { public abstract String cron(); public abstract long fixedDelay(); public abstract long fixedRate(); } 可以看出该注解有三个方法或者叫参数，分别表示的意思是： cron：指定cron表达式 fixedDelay：官方文档解释：An interval-based trigger where the interval is measured from the completion time of the previous task. The time unit value is measured in milliseconds.即表示从上一个任务完成开始到下一个任务开始的间隔，单位是毫秒。 fixedRate：官方文档解释：An interval-based trigger where the interval is measured from the start time of the previous task. The time unit value is measured in milliseconds.即从上一个任务开始到下一个任务开始的间隔，单位是毫秒。下面我来配置一下。第一步：编写pojo Java代码 import org.springframework.scheduling.annotation.Scheduled; import org.springframework.stereotype.Component; @Component(“taskJob”) public class TaskJob { @Scheduled(cron = "0 0 3 ?") public void job1() { System.out.println(“任务进行中。。。”); } } 第二步：添加task相关的配置： Xml代码 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:aop="http://www.springframework.org/schema/aop" xmlns:context="http://www.springframework.org/schema/context" xmlns:tx="http://www.springframework.org/schema/tx" xmlns:task="http://www.springframework.org/schema/task" xsi:schemaLocation=" http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-3.0.xsd http://www.springframework.org/schema/aop http://www.springframework.org/schema/aop/spring-aop-3.0.xsd http://www.springframework.org/schema/context http://www.springframework.org/schema/jdbc/spring-jdbc-3.0.xsd http://www.springframework.org/schema/tx http://www.springframework.org/schema/tx/spring-tx-3.0.xsd http://www.springframework.org/schema/task http://www.springframework.org/schema/task/spring-task-3.0.xsd" default-lazy-init="false"> <context:annotation-config /> <!—spring扫描注解的配置 --> <context:component-scan base-package="com.gy.mytask" /> <!—开启这个配置，spring才能识别@Scheduled注解 --> <task:annotation-driven scheduler="qbScheduler" mode="proxy"/> <task:scheduler id="qbScheduler" pool-size="10"/> 说明：理论上只需要加上<task:annotation-driven />这句配置就可以了，这些参数都不是必须的。 Ok配置完毕，当然spring task还有很多参数，我就不一一解释了，具体参考xsd文档http://www.springframework.org/schema/task/spring-task-3.0.xsd。附录： cronExpression的配置说明，具体使用以及参数请百度google 字段允许值允许的特殊字符秒 0-59 , - / 分 0-59 , - / 小时 0-23 , - / 日期 1-31 , - ? / L W C 月份 1-12 或者 JAN-DEC , - / 星期 1-7 或者 SUN-SAT , - ? / L C 年（可选）留空, 1970-2099 , - / - 区间通配符 ? 你不想设置那个字段下面只例出几个式子 CRON表达式含义 "0 0 12 ?" 每天中午十二点触发 "0 15 10 ? " 每天早上10：15触发 "0 15 10 ?" 每天早上10：15触发 "0 15 10 ? " 每天早上10：15触发 "0 15 10 ? 2005" 2005年的每天早上10：15触发 "0 14 ?" 每天从下午2点开始到2点59分每分钟一次触发 "0 0/5 14 ?" 每天从下午2点开始到2：55分结束每5分钟一次触发 "0 0/5 14,18 ?" 每天的下午2点至2：55和6点至6点55分两个时间段内每5分钟一次触发 "0 0-5 14 ?" 每天14:00至14:05每分钟一次触发 "0 10,44 14 ? 3 WED" 三月的每周三的14：10和14：44触发 "0 15 10 ? MON-FRI" 每个周一、周二、周三、周四、周五的10：15触发 Cron 表达式包括以下 7 个字段：秒分小时月内日期月周内日期年（可选字段）特殊字符 Cron 触发器利用一系列特殊字符，如下所示：反斜线（/）字符表示增量值。例如，在秒字段中“5/15”代表从第 5 秒开始，每 15 秒一次。问号（?）字符和字母 L 字符只有在月内日期和周内日期字段中可用。问号表示这个字段不包含具体值。所以，如果指定月内日期，可以在周内日期字段中插入“?”，表示周内日期值无关紧要。字母 L 字符是 last 的缩写。放在月内日期字段中，表示安排在当月最后一天执行。在周内日期字段中，如果“L”单独存在，就等于“7”，否则代表当月内周内日期的最后一个实例。所以“0L”表示安排在当月的最后一个星期日执行。在月内日期字段中的字母（W）字符把执行安排在最靠近指定值的工作日。把“1W”放在月内日期字段中，表示把执行安排在当月的第一个工作日内。井号（）字符为给定月份指定具体的工作日实例。把“MON2”放在周内日期字段中，表示把任务安排在当月的第二个星期一。星号（）字符是通配字符，表示该字段可以接受任何可能的值。字段允许值允许的特殊字符秒 0-59 , - / 分 0-59 , - / 小时 0-23 , - / 日期 1-31 , - ? / L W C 月份 1-12 或者 JAN-DEC , - / 星期 1-7 或者 SUN-SAT , - ? / L C 年（可选）留空, 1970-2099 , - / 表达式意义 "0 0 12 ?" 每天中午12点触发 "0 15 10 ? " 每天上午10:15触发 "0 15 10 ?" 每天上午10:15触发 "0 15 10 ? " 每天上午10:15触发 "0 15 10 ? 2005" 2005年的每天上午10:15触发 "0 14 ?" 在每天下午2点到下午2:59期间的每1分钟触发 "0 0/5 14 ?" 在每天下午2点到下午2:55期间的每5分钟触发 "0 0/5 14,18 ?" 在每天下午2点到2:55期间和下午6点到6:55期间的每5分钟触发 "0 0-5 14 ?" 在每天下午2点到下午2:05期间的每1分钟触发 "0 10,44 14 ? 3 WED" 每年三月的星期三的下午2:10和2:44触发 "0 15 10 ? MON-FRI" 周一至周五的上午10:15触发 "0 15 10 15 ?" 每月15日上午10:15触发 "0 15 10 L ?" 每月最后一日的上午10:15触发 "0 15 10 ? 6L" 每月的最后一个星期五上午10:15触发 "0 15 10 ? 6L 2002-2005" 2002年至2005年的每月的最后一个星期五上午10:15触发 "0 15 10 ? 63" 每月的第三个星期五上午10:15触发每天早上6点 0 6 每两个小时 0 /2 晚上11点到早上8点之间每两个小时，早上八点 0 23-7/2，8 每个月的4号和每个礼拜的礼拜一到礼拜三的早上11点 0 11 4 1-3 1月1日早上4点 0 4 1 1 本篇文章为转载内容。原文链接：https://zhanghaiyang.blog.csdn.net/article/details/51397459。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-10-27 18:50:19

344

转载

转载文章

[转载]python 类的定制_Python基础：20类的定制

...大机制在实际开发中的应用。近期，随着Python 3.10版本的发布，官方对一些特殊方法进行了优化和新增，例如__match__方法用于支持模式匹配语法，使得代码更加简洁易读。此外，在数据科学领域，NumPy库通过自定义特殊方法实现了与Python内置类型无缝衔接的高性能数组运算，如__array_ufunc__方法允许用户控制NumPy如何处理用户自定义的数据类型。而在软件工程实践中，特殊方法更是无处不在。比如Django框架内Model类的设计就大量运用了特殊方法，如__str__用于模型对象的字符串表示，__getattr__、__setattr__等用于属性管理，以及save()方法背后的__init__、__new__等构造逻辑。这些都充分体现了Python特殊方法在构建复杂系统时的重要性。不仅如此，对于面向对象设计原则的理解，诸如封装、多态和继承，也能够在特殊方法的使用上得到生动体现。以重载比较操作符为例，通过实现__eq__、__lt__等方法，开发者能够根据业务需求为自定义类赋予灵活而精准的比较逻辑，从而实现更符合领域特性的行为表现。总之，Python特殊方法不仅提供了丰富的扩展能力，还在不同场景下展现了其强大的灵活性和实用性。无论是跟进最新的Python语言特性更新，还是深入研究经典开源项目源码，或是解决实际编程问题，理解并熟练运用特殊方法都是提升Python编程水平的关键所在。

2023-04-19 14:30:42

132

转载

转载文章

[转载]Android 注解Annotation及在流行框架中使用的原理

...Java注解功能及其应用后，我们可以看到这一特性在现代软件开发中发挥着重要作用。事实上，注解不仅被广泛应用于Android开发，如Butter Knife这样的库，也在Java企业级开发、Spring框架等领域有着不可或缺的地位。例如，Spring通过注解驱动的编程模型（Annotation-based programming model），开发者可以便捷地实现依赖注入、事务管理等功能。近期，随着JDK17的发布，Java社区对注解的关注度进一步提升。在新版本中，尽管注解的基本使用方式没有变化，但对模块化系统（JPMS）的支持使得注解在模块间的交互和权限控制上有了新的应用场景。同时，社区也在探索更高效的注解处理机制，以减少反射带来的性能开销，例如Project Lombok项目就尝试通过注解处理器自动生成代码，从而避免运行时反射。此外，Google在今年初宣布了Jetpack Compose的稳定版，这是一种声明式UI构建工具，同样大量运用了注解技术来简化界面组件的创建与维护。这意味着注解在Android领域的应用将进一步深化，帮助开发者提高生产力并优化代码结构。综上所述，无论是在传统的Java SE领域还是在新兴的Android开发中，注解的重要性都在不断提升，并且随着技术的发展，注解的应用场景将会更加丰富多元，成为现代编程语言不可忽视的关键特性之一。对于开发者来说，持续关注注解相关的最新研究进展和技术实践，将有助于提高自身编码效率和程序设计质量。

2023-03-28 22:30:35

104

转载

转载文章

[转载]Docker-部署运行MySQL容器

...ker 容器中运行的应用程序使用的数据。我们鼓励 mysql 映像的用户熟悉可用的选项，包括：让 Docker 通过使用自己的内部卷管理将数据库文件写入主机系统上的磁盘来管理数据库数据的存储。这是默认设置，对用户来说简单且相当透明。缺点是对于直接在主机系统（即外部容器）上运行的工具和应用程序，可能很难找到这些文件。在主机系统（容器外部）上创建一个数据目录，并将其挂载到容器内部可见的目录。这会将数据库文件放置在主机系统上的已知位置，并使主机系统上的工具和应用程序可以轻松访问这些文件。缺点是用户需要确保目录存在，例如主机系统上的目录权限和其他安全机制设置正确。 Docker 文档是了解不同存储选项和变体的一个很好的起点，并且有多个博客和论坛帖子在该领域讨论和提供建议。我们将在这里简单地展示上面后一个选项的基本过程：在主机系统上的合适卷上创建数据目录，例如 /my/own/datadir。像这样启动你的 mysql 容器： $ docker run --name some-mysql -v /my/own/datadir:/var/lib/mysql -e MYSQL_ROOT_PASSWORD=my-secret-pw -d mysql:tag 命令的 -v /my/own/datadir:/var/lib/mysql 部分将底层主机系统中的 /my/own/datadir 目录挂载为容器内的 /var/lib/mysql ，默认情况下 MySQL 将写入其数据文件。 2.5.2. 在 MySQL 初始化完成之前没有连接如果容器启动时没有初始化数据库，则会创建一个默认数据库。虽然这是预期的行为，但这意味着在初始化完成之前它不会接受传入的连接。在使用同时启动多个容器的自动化工具（例如 docker-compose）时，这可能会导致问题。如果您尝试连接到 MySQL 的应用程序没有处理 MySQL 停机时间或等待 MySQL 正常启动，那么在服务启动之前放置一个连接重试循环可能是必要的。有关官方图像中此类实现的示例，请参阅 WordPress 或 Bonita。 2.5.3. 针对现有数据库的使用如果您使用已经包含数据库的数据目录（特别是 mysql 子目录）启动 mysql 容器实例，则应该从运行命令行中省略 $MYSQL_ROOT_PASSWORD 变量；在任何情况下都将被忽略，并且不会以任何方式更改预先存在的数据库。 2.5.4. 以任意用户身份运行如果你知道你的目录的权限已经被适当地设置了（例如对一个现有的数据库运行，如上所述）或者你需要使用特定的 UID/GID 运行 mysqld，那么可以使用 --user 调用这个镜像设置为任何值（root/0 除外）以实现所需的访问/配置： $ mkdir data$ ls -lnd datadrwxr-xr-x 2 1000 1000 4096 Aug 27 15:54 data$ docker run -v "$PWD/data":/var/lib/mysql --user 1000:1000 --name some-mysql -e MYSQL_ROOT_PASSWORD=my-secret-pw -d mysql:tag 2.5.5. 创建数据库转储大多数普通工具都可以工作，尽管在某些情况下它们的使用可能有点复杂，以确保它们可以访问 mysqld 服务器。确保这一点的一种简单方法是使用 docker exec 并从同一容器运行该工具，类似于以下内容： $ docker exec some-mysql sh -c 'exec mysqldump --all-databases -uroot -p"$MYSQL_ROOT_PASSWORD"' > /some/path/on/your/host/all-databases.sql 2.5.6. 从转储文件恢复数据用于恢复数据。您可以使用带有 -i 标志的 docker exec 命令，类似于以下内容： $ docker exec -i some-mysql sh -c 'exec mysql -uroot -p"$MYSQL_ROOT_PASSWORD"' < /some/path/on/your/host/all-databases.sql 备注 docker安装完MySQL，后面就是MySQL容器在跑，基本上就是当MySQL服务去操作，以前MySQL怎么做现在还是一样怎么做，只是个别操作因为docker包了一层，麻烦一点。有需要的话，我们也可以基于MySQL官方镜像去定制我们自己的镜像，就比如主从镜像之类的。本篇文章为转载内容。原文链接：https://blog.csdn.net/muluo7fen/article/details/122731852。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-05-29 17:31:06

101

转载

转载文章

[转载]云计算与虚拟化工具之KVM，KVM和VMware的区别

...形显示层面会有问题应用虚拟化：没接触过，公司比较穷买不起,基本上只有银行等国企才会用Xenapp ICA 八、虚拟化工具KVM介绍 KVM 全称：Kernel-based Virtual Machine（内核级虚拟化机器）原本由以色列人创建，现在被红帽收购 ESXI 虚拟套件，现在是免费使用 VMware vSphere Hypervisor – 安装和配置提示：一台服务器首选ESXI 九、KVM安装调整虚拟机虚拟化Intel使用的是Intel VT-X ；虚拟化AMD使用的是AMD-V 创建虚拟机步骤 1.准备虚拟机硬盘 2.需要系统iso镜像3.需要安装一个vnc的客户端来连接查看系统环境 [root@linux-node1 ~] cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) [root@linux-node1 ~] uname -r 3.10.0-327.36.2.el7.x86_64 检查是否有vmx或者svm [root@linux-node1 ~] grep -E '(vmx|svm)' /proc/cpuinfo 安装kvm用户态模块 [root@linux-node1 ~] yum list|grep kvm libvirt-daemon-kvm.x86_64 1.2.17-13.el7_2.5 updates pcp-pmda-kvm.x86_64 3.10.6-2.el7 base qemu-kvm.x86_64 10:1.5.3-105.el7_2.7 updates qemu-kvm-common.x86_64 10:1.5.3-105.el7_2.7 updates qemu-kvm-tools.x86_64 10:1.5.3-105.el7_2.7 updates [root@linux-node1 ~] yum install qemu-kvm qemu-kvm-tools libvirt -y libvirt 用来管理kvm kvm属于内核态，不需要安装。但是需要一些类似于依赖的 kvm属于内核态，不需要安装。但是需要安装一些类似于依赖的东西启动 [root@linux-node1 ~] systemctl start libvirtd.service [root@linux-node1 ~] systemctl enable libvirtd.service 启动之后我们可以使用ifconfig进行查看，libvirtd已经为我们安装了一个桥接网卡 libvirtd为我们启动了一个dnsmasqp，这个主要是用来dhcp连接的，这个工具会给我们的虚拟机分配IP地址 [root@linux-node1 ~] ps -ef|grep dns nobody 5233 1 0 14:27 ? 00:00:00 /sbin/dnsmasq --conf-file=/var/lib/libvirt/dnsmasq/default.conf --leasefile-ro --dhcp-script=/usr/libexec/libvirt_leaseshelper root 5234 5233 0 14:27 ? 00:00:00 /sbin/dnsmasq --conf-file=/var/lib/libvirt/dnsmasq/default.conf --leasefile-ro --dhcp-script=/usr/libexec/libvirt_leaseshelperoot 5310 2783 0 14:31 pts/0 00:00:00 grep --color=auto dns 查看磁盘空间大小最好是20G以上 [root@linux-node1 tmp] df -h 上传镜像提示：如果使用rz上传镜像可能会出现错误，所以我们使用dd命令，复制系统的镜像。只需要挂载上光盘即可 [root@linux-node1 opt] dd if=/dev/cdrom of=/opt/CentOS-7.2.iso [root@linux-node1 opt] ll total 33792 -rw-r--r-- 1 root root 34603008 Jun 12 18:18 CentOS-7.2-x86_64-DVD-1511.iso 下载VNC 下载地址：http://www.tightvnc.com/download/2.8.5/tightvnc-2.8.5-gpl-setup-64bit.msi 安装完VNC如下图创建磁盘提示： qemu-img软件包是我们安装qemu-kvm-tools 依赖给安装上的 [root@linux-node1 opt] qemu-img create -f raw /opt/CentOS-7.2-x86_64.raw 10GFormatting '/opt/Centos-7-x86_64.raw', fmt=raw size=10737418240 [root@linux-node1 opt] [root@linux-node1 opt] ll /opt/Centos-7-x86_64.raw -rw-r--r-- 1 root root 10737418240 Oct 26 14:53 /opt/Centos-7-x86_64.raw-f 制定虚拟机格式，raw是裸磁盘/opt/Centos 存放路径 10G 代表镜像大小安装启动虚拟机的包 [root@linux-node1 tmp] yum install -y virt-install 安装虚拟机 [root@linux-node1 tmp] virt-install --help 我们可以指定虚拟机的CPU、磁盘、内存等 [root@linux-node1 opt] virt-install --name CentOS-7.2-x86_64 --virt-type kvm --ram 1024 --cdrom=/opt/CentOS-7.2.iso --disk path=/opt/CentOS-7.2-x86_64.raw --network network=default --graphics vnc,listen=0.0.0.0 --noautoconsole --name = 给虚拟机起个名字 --ram = 内存大小 --cdrom = 镜像位置，就是我们上传iso镜像的位置，我放在/tmp下了 --disk path = 指定磁盘--network network= 网络配置 default 就会用我们刚刚ifconfig里面桥接的网卡--graphics vnc,listen= 监听vnc，分区说明提示：我们不分交换分区，因为公有云上的云主机都是没有交换分区的十、Libvirt介绍 libvirt是一个开源免费管理工具，可以管理KVM、VMware等他需要起一个后台的进程，它提供了API。像openstack就是通过libvirt API来管理虚拟机 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vcp4lgAZ-1596980494935)(libvirt.jpg)] 二、KVM虚拟机和VMware区别虚拟机监控程序（KVM）是虚拟化平台的根基。从传统供应商到各种开源替代品，可供选择的虚拟机监控程序有很多。 VMware 是一款实现虚拟化的热门产品，可以提供 ESXi 虚拟机监控程序和 vSphere 虚拟化平台。基于内核的虚拟机（KVM）则是 Linux® 系统上的一种开源解决方案。 VMware vSphere 与 VMware ESXi VMware 可以提供 ESXi 虚拟机监控程序和 vSphere 虚拟化平台。VMware ESXi 是一个能够直接安装到物理服务器上的裸机虚拟机监控程序，可以帮你整合硬件。你可以用 VMware 的虚拟化技术来创建和部署虚拟机（VM），从而现代化改造自己的基础架构，来交付和管理各种新旧应用。选用 VMware vSphere 后，你需要使用 VMware 的控制堆栈来管理虚拟机，而且有多个许可证授权级别可供使用。 KVM 开源虚拟化技术 KVM 是一种开源虚拟化技术，能将 Linux 内核转变成可以实现虚拟化的虚拟机监控程序，而且可以替代专有的虚拟化技术（比如 VMware 提供的专有虚拟化技术）。迁移到基于 KVM 的虚拟化平台，你就可以检查、修改和完善虚拟机监控程序背后的源代码。能够访问源代码，就如同掌握了开启无限可能的钥匙，能够让你虚拟化传统工作负载和应用，并为云原生和基于容器的工作负载奠定基础。由于 KVM 内置于 Linux 内核中，所以使用和部署起来非常方便。 KVM 虚拟机和 VMware vSphere 的主要区别 VMware 可以提供一个完善稳定的虚拟机监控程序，以及出色的性能和多样化的功能。但是，专有虚拟化会阻碍你获得开展云、容器和自动化投资所需的资源。解除供应商锁定，你就可以任享自由、灵活与丰富的资源，从而为未来的云原生和容器化环境打下基础。生产就绪型的 KVM 具有支持物理和虚拟基础架构的功能，可以让你以更低的运营成本为企业工作负载提供支持。相比使用 VMware vSphere 等其他解决方案，选用基于 KVM 的虚拟化选项能够带来很多优势。开源Linux KVM的优势：更低的总拥有成本，从而省下运营预算，用来探索现代化创新技术。不再受供应商捆绑。无需为不用的产品付费，也不会受到软件选择限制。跨平台互操作性：KVM 可以在 Linux 和 Windows 平台上运行，所以你可以充分利用现有的基础架构投资。出色简便性：可以通过单个虚拟化平台，在数百个其他硬件或软件上创建、启动、停止、暂停、迁移和模板化数百个虚拟机。卓越性能：应用在 KVM 上的运行速度比其他虚拟机监控程序都快。开源优势：不但能访问源代码，还能灵活地与各种产品集成。享受 Linux 操作系统的现有功能：安全防护功能内存管理进程调度器设备驱动程序网络堆栈红帽 KVM 企业级虚拟化的优势选择红帽® 虚拟化，就等于选择了 KVM。红帽虚拟化是一款适用于虚拟化服务器和技术工作站的完整基础架构解决方案。红帽虚拟化基于强大的红帽企业 Linux® 平台和 KVM 构建而成，能让你轻松、敏捷、安全地使用资源密集型虚拟化工作负载。红帽虚拟化可凭借更加优越的性能、具有竞争力的价格和值得信赖的红帽环境，帮助企业优化 IT 基础架构。红帽的虚拟化产品快速、经济、高效，能够帮助你从容应对当前的挑战，并为未来的技术发展奠定基础。VMware 等供应商提供的纵向扩展虚拟化解决方案不但成本高昂，而且无法帮助企业完成所需的转型，因而难以支持在混合云中运行云原生应用。要转而部署混合云环境，第一步要做的就是摆脱专有虚拟化。红帽虚拟化包含 sVirt 和安全增强型 Linux（SELinux），是红帽企业 Linux 专为检测和预防当前 IT 环境中的复杂安全隐患而开发的技术。业完成所需的转型，因而难以支持在混合云中运行云原生应用。要转而部署混合云环境，第一步要做的就是摆脱专有虚拟化。红帽虚拟化包含 sVirt 和安全增强型 Linux（SELinux），是红帽企业 Linux 专为检测和预防当前 IT 环境中的复杂安全隐患而开发的技术。借助红帽虚拟化，你可以尽享开源虚拟机监控程序的所有优势，还能获得企业级技术支持、更新和补丁，使你的环境保持最新状态，持续安心运行。开源和 RESTful API，以及 Microsoft Windows 的认证，可帮你实现跨平台的互操作性。提供的 API 和软件开发工具包（SDK）则有助于将我们的解决方案扩展至你现有和首选管理工具，并提供相关支持。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_34799070/article/details/107900861。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-06 08:58:59

121

转载

转载文章

[转载]C10K 和 C1000K

....6版本以后得到广泛应用。相比于select和poll，epoll通过在内核中维护一个红黑树结构来管理所有关注的文件描述符集合，避免了每次调用时重复传递描述符列表带来的开销，并且采用水平触发和边缘触发两种模式，仅对就绪的描述符发送通知，大大提升了高并发场景下的性能表现。借助epoll，单个线程可以更高效地处理大量并发连接，有效解决了C10K问题，并为解决更高并发级别的C1000K甚至C10M问题提供了基础支持。

2023-04-11 18:25:52

260

转载

转载文章

[转载]【总结】AWS的(助理)架构师认证体系详解

...高可用、低成本、安全应用的能力 – 在工作上或社区中得到尊重和认可 – 可以把认证放到简历中，linkedin中整合了AWS认证徽章对企业雇主 – 具备AWS上服务和工具的使用的认可 – 客户认可，降低AWS项目实施风险 – 增加客户满意度 3.3 再认证模式因为AWS的服务在更新，因此每两年要重新认证（证件的有效期2年），再次参加考试时，题目、时间将会更少，且认证费用更低 3.4 助理架构师认证的知识领域四大知识域 1 设计：高可用、高效率、可容错低、可扩展的系统 2 实施和部署：强调部署操作能力 3 数据安全性：在部署操作时，始终保持数据保存和传输的安全 4 排除故障：在系统出现问题时，可以快速找到问题并解决问题知识权重 - 设计：60%的题目 - 实施和部署：10%的题目 - 数据安全：20%的题目 - 排除故障：10%的题目 PS：考试不会按照上面的次序、考试不会注明考试题目的分类 3.5 认证过程需要在网上注册，找到距离家里比较近的地方考试（考点）到了现场需要携带身份证，证明自己并不允许带手机入场证件上必须有照片签署NDA保证不会泄露考题考试中心的电脑中考试（80分钟，55个考题）考试后马上知道分数和是否通过（不会看到每道题目是否正确）通过后的成绩、认证证书等将发到email邮箱中 3.6 考试机制助理级别考试的重点是：单一服务和小规模的组合服务的掌握程度所有题目都是选择题（多选或单选）不惩罚打错，所以留白没意义，可以猜一个 55道题可以给不确定的题目打标签，没提交前都可以回来改答案 3.7 题目示例单选题多选题（会告诉你有多少个答案）汇总查看答案以及mark（标记） 4 AWS架构的7大设计原则 4.1 松耦合松耦合是容错、运维自动扩容的基础，在设计上应该尽量减少模块间的依赖性，将不会成为未来应用调整、发展的阻碍松耦合模式的情况不要标示（依赖）特定对象，依赖特定对象耦合性将非常高 – 使用负载均衡器 – 域名解析 – 弹性IP – 可以动态找到配合的对象，为松耦合带来方便，为应用将来的扩展带来好处不要依赖其他模块的正确处理或及时的处理 – 使用尽量使用异步的处理，而不是同步的（SQS可以帮到用户） 4.2 模块出错后工作不会有问题问问某个模块出了问题，应用会怎么样？在设计的时候，在出了问题会有影响的模块，进行处理，建立自动恢复性 4.3 实现弹性在设计上，不要假定模块是正常的、始终不变的 – 可以配合AutoScaling、EIP和可用区AZ来满足允许模块的失败重启 – 无状态设计比有状态设计好 – 使用ELB、云监控去检测“实例”运行状态有引导参数的实例（实现自动配置） – 例如：加入user data在启动的时候，告知它应该做的事情在关闭实例的时候，保存其配置和个性化 – 例如用DynamoDB保存session信息弹性后就不会为了超配资源而浪费钱了 4.4 安全是整体的事，需要在每个层面综合考虑基础架构层计算/网络架构层数据层应用层 4.5 最小授权原则只付于操作者完成工作的必要权限所有用户的操作必须授权三种类型的权限能操作AWS – 主账户 – IAM用户 – 授权服务(主要是开发的app） 5 设计：高可用、高效率、可容错、可扩展的系统本部分的目标是设计出高可用、高效率低成本、可容错、可扩展的系统架构 - 高可用 – 了解AWS服务自身的高可靠性（例如弹性负载均衡）—-因为ELB是可以多AZ部署的 – 用好这些服务可以减少可用性的后顾之忧 - 高效率(低成本) – 了解自己的容量需求，避免超额分配 – 利用不同的价格策略，例如：使用预留实例 – 尽量使用AWS的托管服务（如SNS、SQS） - 可容错 – 了解HA和容错的区别 – 如果说HA是结果，那么容错则是保障HA的一个重要策略 – HA强调系统不要出问题，而容错是在系统出了问题后尽量不要影响业务 - 可扩展性 – 需要了解AWS哪些服务自身就可以扩展，例如SQS、ELB – 了解自动伸缩组（AS）运用好 AWS 7大架构设计原则的：松耦合、实现弹性 6 实施和部署设计本部分的在设计的基础上找到合适的工具来实现对比第一部分“设计”，第一章主要针对用什么，而第二章则讨论怎么用主要考核AWS云的核心的服务目录和核心服务，包括：计算机和网络 – EC2、VPC 存储和内容分发 – S3、Glacier 数据库相关分类 – RDS 部署和管理服务 – CloudFormation、CloudWatch、IAM 应用服务 – SQS、SNS 7 数据安全数据安全的基础，是AWS责任共担的安全模型模型，必须要读懂数据安全包括4个层面：基础设施层、计算/网络层、数据层、应用层 - 基础设施层 1. 基础硬件安全 2. 授权访问、流程等 - 计算/网络层 1. 主要靠VPC保障网络（防护、路由、网络隔离、易管理） 2. 认识安全组和NACLs以及他们的差别安全组比ACL多一点，安全组可以针对其他安全组，ACL只能针对IP 安全组只允许统一，ACL可以设置拒绝安全组有状态！很重要（只要一条入站规则通过，那么出站也可以自动通过），ACL没有状态（必须分别指定出站、入站规则）安全组的工作的对象是网卡（实例）、ACL工作的对象是子网认识4种网关，以及他们的差别共有4种网关，支撑流量进出VPC internet gatway：互联网的访问 virtual private gateway：负责VPN的访问 direct connect：负责企业直连网络的访问 vpc peering：负责VPC的peering的访问数据层数据传输安全 – 进入和出AWS的安全 – AWS内部传输安全通过https访问API 链路的安全 – 通过SSL访问web – 通过IP加密访问VPN – 使用直连 – 使用OFFLINE的导入导出数据的持久化保存 – 使用EBS – 使用S3访问访问 – 使用IAM策略 – 使用bucket策略 – 访问控制列表临时授权 – 使用签名的URL 加密 – 服务器端加密 – 客户端加密应用层主要强调的是共担风险模型多种类型的认证鉴权给用户在应用层的保障建议 – 选择一种认证鉴权机制（而不要不鉴权） – 用安全的密码和强安全策略 – 保护你的OS（如打开防火墙） – 用强壮的角色来控制权限（RBAC）判断AWS和用户分担的安全中的标志是，哪些是AWS可以控制的，那些不能，能的就是AWS负责，否则就是用户（举个例子：安全组的功能由AWS负责—是否生效，但是如何使用是用户负责—自己开放所有端口跟AWS无关） AWS可以保障的用户需要保障的工具与服务操作系统物理内部流程安全应用程序物理基础设施安全组网络设施虚拟化设施 OS防火墙网络规则管理账号 8 故障排除问题经常包括的类型： - EC2实例的连接性问题 - 恢复EC2实例或EBS卷上的数据 - 服务使用限制问题 8.1 EC2实例的连接性问题经常会有多个原因造成无法连接外部VPC到内部VPC的实例 – 网关（IGW–internet网关、VPG–虚拟私有网关）的添加问题 – 公司网络到VPC的路由规则设置问题 – VPC各个子网间的路由表问题 – 弹性IP和公有IP的问题 – NACLs（网络访问规则） – 安全组 – OS层面的防火墙 8.2 恢复EC2实例或EBS卷上的数据注意EBS或EC2没有任何强绑定关系 – EBS是可以从旧实例上分离的 – 如有必要尽快做将EBS卷挂载到新的、健康的实例上执行流程可以针对恢复没有工作的启动卷（boot volume） – 将root卷分离出来 – 像数据一样挂载到其他实例 – 修复文件 – 重新挂载到原来的实例中重新启动 8.3 服务使用限制问题 AWS有很多软性限制 – 例如AWS初始化的时候，每个类型的EBS实例最多启动20个还有一些硬性限制例如 – 每个账号最多拥有100个S3的bucket – …… 别的服务限制了当前服务 – 例如无法启动新EC2实例，原因可能是EBS卷达到上限 – Trusted Advisor这个工具可以根据服务水平的不同给出你一些限制的参考（从免费试用，到商业试用，和企业试用的建议）常见的软性限制公共的限制 – 每个用户最多创建20个实例，或更少的实例类型 – 每个区域最多5个弹性ip – 每个vpc最多100个安全组 – 最多20个负载均衡 – 最多20个自动伸缩组 – 5000个EBS卷、10000个快照，4w的IOPS和总共20TB的磁盘 – …更多则需要申请了你不需要记住限制 – 知道限制，并保持数值敏感度就好 – 日后遇到问题时可以排除掉软限制的相关的问题 9. 总结 9.1 认证的主要目标是：确认架构师能否搜集需求，并且使用最佳实践，在AWS中构建出这个系统是否能为应用的整个生命周期给出指导意见 9.2 希望架构师(助理或专家级)考试前的准备：深度掌握至少1门高级别语言（c，c++，java等）掌握AWS的三份白皮书 – aws概览 – aws安全流程 – aws风险和应对 – 云中的存储选项 – aws的架构最佳实践按照客户需求，使用AWS组件来部署混合系统的经验使用AWS架构中心网站了解更多信息 9.3 经验方面的建议助理架构师 – 至少6个月的实际操作经验、在AWS中管理生产系统的经验 – 学习过AWS的基本课程专家架构师 – 至少2年的实际操作经验、在AWS中管理多种不同种类的复杂生产系统的经验（多种服务、动态伸缩、高可用、重构或容错） – 在AWS中执行构建的能力，架构的高级概念能力 9.4 相关资源认证学习的资源地址 - 可以自己练习，模拟考试需要付费的接下来就去网上报名参加考试本篇文章为转载内容。原文链接：https://blog.csdn.net/QXK2001/article/details/51292402。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-29 22:08:40

270

转载

转载文章

[转载]【观察】安超OS的“一小步”，中国云的“一大步”

...代的来临，企业级客户应用部署的范围也从传统数据中心扩展至公有云、私有云乃至混合云模式，其应用服务的复杂性和多样性随之快速上升，由此也带来了一系列巨大的挑战。所以，如何让上云更简单、更高效、更安全，更贴近业务，成为业界共同思考和关注的话题。在此背景下，今年8月8日，华云数据正式发布了国产通用型云操作系统安超OS，这是一款具有应用创新特性的轻量级云创新平台，拥有全栈、安全、创新、无厂商锁定的特性，能够真正让政府和企业客户通过简单便捷的操作实现云部署和数字化转型。更为关键的是，安超OS还是构建于生态开放基础之上的云操作系统，这让更多的合作伙伴也能借助这一创新的平台，和华云数据一起赋能数字中国，共同走向成功。因此，国产通用型云操作系统安超OS的发布，对于中国政府和企业更好的实现上云、应用云、管理云、优化云，无疑具有十分重要的价值和意义。从这个角度来说，安超OS的“一小步”，也正是中国云的“一大步”。安超OS应运而生背后众所周知，随着数据量的不断增长和对IT系统安全性、可控性要求的不断提升，越来越多的企业发现无法通过单一的公有云或者私有云服务，满足其所有的工作负载和业务创新需求，特别是在中国这种情况更加的明显。华云数据集团董事长、总裁许广彬一方面，目前中国企业现有的IT基础设施架构，让他们很难“一步上公有云”，这也决定了私有云仍然会成为众多政府和企业在未来相当长一段时间采用云服务的主流模式。来自IDC的数据从一个侧面也证实了这一现状，数据显示仅2018年中国的私有云IT基础设施架构市场的相关支出就增长了49.2%，同时过去6年中国在这方面支出的增长速度更是远高于全球市场，预测2023年中国将成为全球最大的私有云IT基础架构市场。另一方面，无论是传统的私有云还是公有云厂商的专有云，同样也很难满足中国企业的具体需求。比如，传统私有云的定制化尽管满足了行业企业客户复杂的IT环境和利旧的需求，但存在碎片化、不可进化的问题，也无法达到公有云启用便捷、功能不断进化、统一运维、按需付费的消费级体验，成为传统私有云规模化增长的掣肘。当然，过去几年国内外公有云巨头也纷纷推出面向私有云市场的专有云产品，但其设计思路是以公有云为核心，其价值更多在于公有云服务在防火墙内的延伸，其初衷是“将数据迁移到中心云上”，这同样不适合，更难以匹配中国企业希望“将云移动到数据上”的最终目标。正是源于这些客户“痛点”和市场现状，让华云数据产生了打造一款通用型云操作系统的想法。今年3月1日，华云数据宣布对超融合软件厂商Maxta全部资产完成了合法合规收购。至此，华云数据将独家拥有Maxta的包括产品技术、专利软著、品牌、市场在内的全球范围的资产所有权。在此基础上，华云数据又把Maxta与华云自身的优势产品相融合，正式推出了安超OS国产通用型云操作系统，并在国产化与通用型方向做了三个方面的重要演进：首先，兼容国产服务器、CPU、操作系统。安超OS对代码进行了全新的架构扩展，创建并维护新的一套代码分支，从源码级完成众多底层的对国产服务器、CPU、操作系统的支持。其次，扩展通用型云操作系统的易用性。安超OS以VM为核心做为管理理念，以业务应用的视觉管理基础设施，为云操作系统开发了生命周期管理系统（LCM），提供像服务器操作系统的光盘ISO安装方式，可以30分钟完成云操作系统的搭建，并具备一键集群启停、一键日志收集、一键运维巡检业务等通用型云操作系统所必备的易用性功能。最后，增强国内行业、企业所需的安全性。安超OS的所有源代码都通过了相关部门的安全检查，确保没有“后门”等漏洞，杜绝安全隐患，并且通过了由中国数据中心联盟、云计算开源产业联盟组织，中国信息通信研究院（工信部电信研究院）测试评估的可信云认证。不难看出，安超OS不仅具有全球领先的技术，同时又充分满足中国市场和中国客户的需求。正如华云数据集团董事长、总裁许广彬所言：“唯改革者进，唯创新者强，华云数据愿意用全球视野推动中国云计算发展，用云创新驱动数字经济挺进新纵深，植根中国，奉献中国，引领中国，腾飞中国。” 五大维度解读安超OS 那么，什么是云操作系统？安超OS通用型云操作系统又有什么与众不同之处呢? 华云数据集团联席总裁、首席技术官谭瑞忠在华云数据集团联席总裁、首席技术官谭瑞忠看来，云操作系统是基于服务器操作系统，高度的融合了基础设施的资源，实现了资源弹性伸缩扩展，以及具备运维自动化智能化等云计算的特点。同时，云操作系统具有和计算机操作系统一样的高稳定性，高性能，高易用性等特征。但是，相比计算机操作系统，云计算的操作系统会更为复杂，属于云计算后台数据中心的整体管理运营系统，是构架于服务器、存储、网络等基础硬件资源和PC操作系统、中间件、数据库等基础软件之上的、管理海量的基础硬件、软件资源的云平台综合管理系统。更为关键的是，和国内外很多基础设备厂商基于自已的产品与理解推出了云操作系统不同，安超OS走的是通用型云操作系统的技术路线，它不是采用软硬件一体的封闭或半封闭的云操作系统平台，所以这也让安超OS拥有安全稳定、广泛兼容、业务优化、简洁运维、高性价比方面的特性，具体而言：一是，在安全稳定方面，安超OS采用全容错架构设计，从数据一致性校验到磁盘损坏，从节点故障到区域性灾难，提供端到端的容错和灾备方案，为企业构筑高可用的通用型云环境，为企业的业务运营提供坚实与安全可靠的基础平台。二是，在广泛兼容方面，安超OS所有产品技术、专利软著、品牌都拥有国内自主权，符合国家相关安全自主可信的规范要求，无服务器硬件锁定，支持国内外主流品牌服务器，同时适配大多数芯片、操作系统和中间件，支持利旧与升级，更新硬件时无需重新购买软件，为企业客户提供显著的投资保护，降低企业IT成本。三是，在业务优化方面，安超OS具备在同一集群内提供混合业务负载的独特能力，可在一套安超OS环境内实现不同业务的优化：为每类应用定制不同的存储数据块大小，优化应用读写效率，提供更高的业务性能；数据可按组织架构逻辑隔离，部门拥有独立的副本而无需新建一套云环境，降低企业IT的成本与复杂度；数据重构优先级保证关键业务在故障时第一时间恢复，也能避免业务链启动错误的场景出现。四是，在简捷运维方面，安超OS是一款轻量级云创新平台，其所有管理策略以虚拟机和业务为核心，不需要配置或管理卷、LUN、文件系统、RAID等需求，从根本上简化了云操作系统的管理。通过标准ISO安装，可实现30分钟平台极速搭建，1分钟业务快速部署，一键集群启停与一键运维巡检。降低企业IT技术门槛，使IT部门从技术转移并聚焦于业务推进和变革，助力企业实现软件定义数据中心。五是，在高性价比方面，安超OS在设计之初，华云数据就考虑到它是一个小而美、大而全的产品，所以给客户提供组件化授权，方便用户按需购买，按需使用，避免一次性采购过度，产生配置浪费。并且安超OS提供在线压缩等容量优化方案，支持无限个数无损快照，无硬件绑定，支持License迁移。由此可见，安超OS通用型云操作系统的本质，其实就是一款以安全可信为基础，以业务优化为核心的轻量级云创新平台，能够让中国政府和企业在数字化转型中，更好的发挥云平台的价值，同时也能有效的支持他们的业务创新。生态之上的云操作系统纵观IT发展的过程，每个时代都离不开通用型操作系统：在PC时代，通用型操作系统是Windows、Linux；在移动互联时代，通用型操作系统是安卓(Android)，而这些通用型操作系统之所以能够成功，背后其实也离不开生态的开放和壮大。如果以此类比的话，生态合作和生态开放同样也是华云安超OS产品的核心战略，这也让安超OS超越了传统意义上的云创新平台，是一款架构于生态开放之上的云操作系统。华云数据集团副董事长、执行副总裁马杜据华云数据集团副董事长、执行副总裁马杜介绍，目前华云数据正与业内众多合作伙伴建立了生态合作关系，覆盖硬件、软件、芯片、应用、方案等多个领域，通过生态合作，华云数据希望进一步完善云数据中心的产业链生态，与合作伙伴共建云计算生态圈。其中，在基础架构方面，华云数据与飞腾、海光、申威等芯片厂商以及中标麒麟、银河麒麟等国产操作系统实现了互认证，与VMware、Dell EMC、广达、浪潮、曙光、长城、Citrix、Veeam、SevOne、XSKY、锐捷网络、上海仪电、NEXIFY等多家国内外知名IT厂商达成了战略合作，共同为中国政企用户提供基于云计算的通用行业解决方案与垂直行业解决方案，助推用户上云实现创新加速模式。同时，在解决方案方面，华云数据也一直在完善自身的产业链，建立最广泛的生态体系。例如，PaaS平台领域的合作伙伴包括灵雀云、Daocloud、时速云、优创联动、长城超云、蓝云、星环科技、华夏博格、时汇信息、云赛、热璞科技、思捷、和信创天、酷站科技、至臻科技达成合作关系；数据备份领域有金蝶、爱数、Veeam、英方云、壹进制；安全领域有亚信安全、江南安全、绿盟、赛亚安全、默安科技；行业厂商包括善智互联、蓝美视讯、滴滴、天港集团、航天科工等合作伙伴，由此形成了非常有竞争力的整体解决方案。不仅如此，华云数据与众多生态厂家共同完成了兼容性互认证测试，构建了一个最全面的基础架构生态体系，为推出的国产通用型云操作系统提供了一个坚实的基础。也让该系统提高了其包括架构优化能力、技术研发能力、资源整合能力、海量运营能力在内的综合能力，为客户提供稳定、可靠的上云服务，赋能产业变革。值得一提的是，华云数据还发布了让利于合作伙伴的渠道合作策略，通过和合作伙伴的合作共赢，华云数据希望将安超OS推广到国内的全行业，让中国企业都能用上安全、放心的国产通用型云操作系统，并让安超OS真正成为未来中国企业上云的重要推手。显而易见，数字化的转型与升级，以及数字经济的落地和发展，任重而道远，艰难而伟大，而华云数据正以安超OS云操作系统为核心构建的新生态模式和所释放的新能力，不仅会驱动华云数据未来展现出更多的可能性，激发出更多新的升维竞争力，更将会加速整个中国政府和企业的数字化转型步伐。全文总结，在云计算落地中国的过程中，华云数据既是早期的探索者，也是落地的实践者，更是未来的推动者。特别是安超OS云操作系统的推出，背后正是华云凭借较强的技术驾驭能力，以及对中国企业用户痛点的捕捉，使得华云能够走出一条差异化的创新成长之路，也真正重新定义了“中国云”未来的发展壮大之路。申耀的科技观察，由科技与汽车跨界媒体人申斯基（微信号：shenyao）创办，16年媒体工作经验，拥有中美两地16万公里自驾经验，专注产业互联网、企业数字化、渠道生态以及汽车科技内容的观察和思考。本篇文章为转载内容。原文链接：https://blog.csdn.net/W5AeN4Hhx17EDo1/article/details/99899011。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-16 21:41:38

302

转载

转载文章

[转载]靶机渗透练习13-hackme1

...入是一种常见的Web应用程序安全漏洞，攻击者通过在输入字段中插入恶意的SQL代码来欺骗服务器执行非授权操作。在文章的上下文中，攻击者发现靶机上的web应用存在SQL注入漏洞，并通过构造特定的SQL查询语句（如\ x or 1=1\ ）成功获取了所有用户信息，说明该应用没有对用户输入进行充分的过滤和转义处理，导致攻击者可以操纵数据库查询并获取敏感数据。 php-reverse-shell.php , php-reverse-shell.php是一个预编译的PHP脚本，用于建立一个从目标服务器回连到攻击者控制主机的反向Shell通道。在渗透测试场景中，当攻击者发现web应用存在文件上传漏洞时，会利用这个脚本将它上传到靶机，并修改其中的IP地址和端口号以指向攻击者的监听位置。一旦受害者触发或访问被上传的恶意PHP文件，攻击者就能获得一个命令行交互界面，从而实现对靶机的远程控制。 MD5解密 , MD5（Message-Digest Algorithm 5）是一种广泛使用的密码散列函数，它可以产生一个固定长度、唯一代表原始输入信息的128位散列值。在本文中，超级管理员的密码经过MD5加密存储在数据库中。为了破解密码，攻击者需要使用在线MD5解密工具或字典库尝试匹配原始明文。在实战中，攻击者成功解密出MD5哈希值对应的密码为\ Uncrackable\ ，这表明该系统在密码保护方面可能存在不足，即未采取更安全的加盐哈希或其他复杂加密方式。

2023-01-02 12:50:54

497

转载

转载文章

[转载]java中访问不可视字段_Kotlin与Java的不同之处

...这经常出现在像解析 JSON 或者做其他“动态”事情的应用中。在这种情况下，你可以使用映射实例自身作为委托来实现委托属性。例如： class User(map: Map 在上例中，委托属性会从构造函数传入的map中取值(通过字符串键——属性的名称)，如果遇到声明的属性名在map 中找不到对应的key 名，或者key 对应的value 值的类型与声明的属性的类型不一致，会抛出异常。内联函数当一个函数被声明为inline时，它的函数体是内联的，也就是说，函数体会被直接替换到函数被调用地方 inline函数(内联函数)从概念上讲是编译器使用函数实现的真实代码来替换每一次的函数调用，带来的最直接的好处就是节省了函数调用的开销，而缺点就是增加了所生成字节码的尺寸。基于此，在代码量不是很大的情况下，我们是否有必要将所有的函数定义为内联？让我们分两种情况进行说明：将普通函数定义为内联：众所周知，JVM内部已经实现了内联优化，它会在任何可以通过内联来提升性能的地方将函数调用内联化，并且相对于手动将普通函数定义为内联，通过JVM内联优化所生成的字节码，每个函数的实现只会出现一次，这样在保证减少运行时开销的同时，也没有增加字节码的尺寸；所以我们可以得出结论，对于普通函数，我们没有必要将其声明为内联函数，而是交给JVM自行优化。将带有lambda参数的函数定义为内联：是的，这种情况下确实可以提高性能；但在使用的过程中，我们会发现它是有诸多限制的，让我们从下面的例子开始展开说明： inline 假如我们这样调用doSomething: fun main(args: Array<String>) { 上面的调用会被编译成： fun main(args: Array<String>) { 从上面编译的结果可以看出，无论doSomething函数还是action参数都被内联了，很棒，那让我们换一种调用方式： fun main(args: Array<String>) { 上面的调用会被编译成： fun main(args: Array<String>) { doSomething函数被内联，而action参数没有被内联，这是因为以函数型变量的形式传递给doSomething的lambda在函数的调用点是不可用的，只有等到doSomething被内联后，该lambda才可以正常使用。通过上面的例子，我们对lambda表达式何时被内联做一下简单的总结：当lambda表达式以参数的形式直接传递给内联函数，那么lambda表达式的代码会被直接替换到最终生成的代码中。当lambda表达式在某个地方被保存起来，然后以变量形式传递给内联函数，那么此时的lambda表达式的代码将不会被内联。上面对lambda的内联时机进行了讨论，消化片刻后让我们再看最后一个例子： inline 上面的例子是否有问题？是的，编译器会抛出“Illegal usage of inline-parameter”的错误，这是因为Kotlin规定内联函数中的lambda参数只能被直接调用或者传递给另外一个内联函数，除此之外不能作为他用；那我们如果确实想要将某一个lambda传递给一个非内联函数怎么办？我们只需将上述代码这样改造即可： inline 很简单，在不需要内联的lambda参数前加上noinline修饰符就可以了。以上便是我对内联函数的全部理解，通过掌握该特性的运行机制，相信大家可以做到在正确的时机使用该特性，而非滥用或因恐惧弃而不用。 Kotlin下单例模式饿汉式实现 //Java实现懒汉式 //Java实现上述代码中，我们可以发现在Kotlin实现中，我们让其主构造函数私有化并自定义了其属性访问器，其余内容大同小异。如果有小伙伴不清楚Kotlin构造函数的使用方式。请点击 - - - 构造函数不清楚Kotlin的属性与访问器，请点击 - - -属性和字段线程安全的懒汉式 //Java实现大家都知道在使用懒汉式会出现线程安全的问题，需要使用使用同步锁，在Kotlin中，如果你需要将方法声明为同步，需要添加@Synchronized注解。双重校验锁式 //Java实现哇！小伙伴们惊喜不，感不感动啊。我们居然几行代码就实现了多行的Java代码。其中我们运用到了Kotlin的延迟属性 Lazy。 Lazy内部实现 public 观察上述代码，因为我们传入的mode = LazyThreadSafetyMode.SYNCHRONIZED，那么会直接走 SynchronizedLazyImpl，我们继续观察SynchronizedLazyImpl。 Lazy接口 SynchronizedLazyImpl实现了Lazy接口，Lazy具体接口如下： public 继续查看SynchronizedLazyImpl，具体实现如下： SynchronizedLazyImpl内部实现 private 通过上述代码，我们发现 SynchronizedLazyImpl 覆盖了Lazy接口的value属性，并且重新了其属性访问器。其具体逻辑与Java的双重检验是类似的。到里这里其实大家还是肯定有疑问，我这里只是实例化了SynchronizedLazyImpl对象，并没有进行值的获取，它是怎么拿到高阶函数的返回值呢？。这里又涉及到了委托属性。委托属性语法是：val/var : by 。在 by 后面的表达式是该委托，因为属性对应的 get()(和 set())会被委托给它的 getValue() 和 setValue() 方法。属性的委托不必实现任何的接口，但是需要提供一个 getValue() 函数(和 setValue()——对于 var 属性)。而Lazy.kt文件中，声明了Lazy接口的getValue扩展函数。故在最终赋值的时候会调用该方法。 internal.InlineOnly 静态内部类式 //Java实现静态内部类的实现方式，也没有什么好说的。Kotlin与Java实现基本雷同。补充在该篇文章结束后，有很多小伙伴咨询，如何在Kotlin版的Double Check，给单例添加一个属性，这里我给大家提供了一个实现的方式。(不好意思，最近才抽出时间来解决这个问题) class SingletonDemo private constructor( 其中关于?:操作符，如果 ?: 左侧表达式非空，就返回其左侧表达式，否则返回右侧表达式。请注意，当且仅当左侧为空时，才会对右侧表达式求值。 Kotlin 智能类型转换对于子父类之间的类型转换先看这样一段 Java 代码 public 尽管在 main 函数中，对 person 这个对象进行了类型判断，但是在使用的时候还是需要强制转换成 Student 类型，这样是不是很不智能？同样的情况在 Kotlin 中就变得简单多了 fun main(args: Array<String>) { 在 Kotlin 中，只要对类型进行了判断，就可以直接通过父类的对象去调用子类的函数了安全的类型转换还是上面的那个例子，如果我们没有进行类型判断，并且直接进行强转，会怎么样呢？ public static void main(String[] args) { 结果就只能是 Exception in thread "main" java.lang.ClassCastException 那么在 Kotlin 中是不是会有更好的解决方法呢？ val person: Person = Person() 在转换操作符后面添加一个 ?，就不会把程序 crash 掉了，当转化失败的时候，就会返回一个 null 在空类型中的智能转换需要提前了解 Kotlin 类型安全的相关知识(Kotlin 中的类型安全(对空指针的优化处理)) String? = aString 在定义的时候定义成了有可能为 null，按照之前的写法，我们需要这样写 String? = 但是已经进行了是否为 String 类型的判断，所以就一定不是空类型了，也就可以直接输出它的长度了 T.()->Unit 、 ()->Unit 在做kotlin开发中，经常看到一些系统函数里，用函数作为参数 public .()-Unit与()->Unit的区别是我们调用时，在代码块里面写this，的时候，两个this代表的含义不一样，T.()->Unit里的this代表的是自身实例，而()->Unit里，this代表的是外部类的实例。推荐阅读对 Kotlin 与 Java 编程语言的思考使用 Kotlin 做开发一个月后的感想扫一扫关注我的公众号如果你想要跟大家分享你的文章，欢迎投稿~ 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_39611037/article/details/109984124。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-23 23:56:14

470

转载

转载文章

[转载]Linux内存映射——mmap

...的地址空间之内，这些应用程序就可以直接使用输入输出的地址空间，从而提高读写的效率。Linux提供了mmap()函数，用来映射物理内存。在驱动程序中，应用程序以设备文件为对象，调用mmap()函数，内核进行内存映射的准备工作，生成vm_area_struct结构体，然后调用设备驱动程序中定义的mmap函数。 2.mmap系统调用 mmap将一个文件或者其它对象映射进内存。文件被映射到多个页上，如果文件的大小不是所有页的大小之和，最后一个页不被使用的空间将会清零。munmap执行相反的操作，删除特定地址区域的对象映射。当使用mmap映射文件到进程后,就可以直接操作这段虚拟地址进行文件的读写等操作,不必再调用read,write等系统调用.但需注意,直接对该段内存写时不会写入超过当前文件大小的内容. 采用共享内存通信的一个显而易见的好处是效率高，因为进程可以直接读写内存，而不需要任何数据的拷贝。对于像管道和消息队列等通信方式，则需要在内核和用户空间进行四次的数据拷贝，而共享内存则只拷贝两次数据：一次从输入文件到共享内存区，另一次从共享内存区到输出文件。实际上，进程之间在共享内存时，并不总是读写少量数据后就解除映射，有新的通信时，再重新建立共享内存区域。而是保持共享区域，直到通信完毕为止，这样，数据内容一直保存在共享内存中，并没有写回文件。共享内存中的内容往往是在解除映射时才写回文件的。因此，采用共享内存的通信方式效率是非常高的。基于文件的映射，在mmap和munmap执行过程的任何时刻，被映射文件的st_atime可能被更新。如果st_atime字段在前述的情况下没有得到更新，首次对映射区的第一个页索引时会更新该字段的值。用PROT_WRITE 和 MAP_SHARED标志建立起来的文件映射，其st_ctime 和 st_mtime在对映射区写入之后，但在msync()通过MS_SYNC 和 MS_ASYNC两个标志调用之前会被更新。用法： include <sys/mman.h> void mmap(void start, size_t length, int prot, int flags, int fd, off_t offset); int munmap(void start, size_t length); 返回说明：成功执行时，mmap()返回被映射区的指针，munmap()返回0。失败时，mmap()返回MAP_FAILED[其值为(void )-1]，munmap返回-1。errno被设为以下的某个值 EACCES：访问出错 EAGAIN：文件已被锁定，或者太多的内存已被锁定 EBADF：fd不是有效的文件描述词 EINVAL：一个或者多个参数无效 ENFILE：已达到系统对打开文件的限制 ENODEV：指定文件所在的文件系统不支持内存映射 ENOMEM：内存不足，或者进程已超出最大内存映射数量 EPERM：权能不足，操作不允许 ETXTBSY：已写的方式打开文件，同时指定MAP_DENYWRITE标志 SIGSEGV：试着向只读区写入 SIGBUS：试着访问不属于进程的内存区参数： start：映射区的开始地址。 length：映射区的长度。 prot：期望的内存保护标志，不能与文件的打开模式冲突。是以下的某个值，可以通过or运算合理地组合在一起 PROT_EXEC //页内容可以被执行 PROT_READ //页内容可以被读取 PROT_WRITE //页可以被写入 PROT_NONE //页不可访问 flags：指定映射对象的类型，映射选项和映射页是否可以共享。它的值可以是一个或者多个以下位的组合体 MAP_FIXED //使用指定的映射起始地址，如果由start和len参数指定的内存区重叠于现存的映射空间，重叠部分将会被丢弃。如果指定的起始地址不可用，操作将会失败。并且起始地址必须落在页的边界上。 MAP_SHARED //与其它所有映射这个对象的进程共享映射空间。对共享区的写入，相当于输出到文件。直到msync()或者munmap()被调用，文件实际上不会被更新。 MAP_PRIVATE //建立一个写入时拷贝的私有映射。内存区域的写入不会影响到原文件。这个标志和以上标志是互斥的，只能使用其中一个。 MAP_DENYWRITE //这个标志被忽略。 MAP_EXECUTABLE //同上 MAP_NORESERVE //不要为这个映射保留交换空间。当交换空间被保留，对映射区修改的可能会得到保证。当交换空间不被保留，同时内存不足，对映射区的修改会引起段违例信号。 MAP_LOCKED //锁定映射区的页面，从而防止页面被交换出内存。 MAP_GROWSDOWN //用于堆栈，告诉内核VM系统，映射区可以向下扩展。 MAP_ANONYMOUS //匿名映射，映射区不与任何文件关联。 MAP_ANON //MAP_ANONYMOUS的别称，不再被使用。 MAP_FILE //兼容标志，被忽略。 MAP_32BIT //将映射区放在进程地址空间的低2GB，MAP_FIXED指定时会被忽略。当前这个标志只在x86-64平台上得到支持。 MAP_POPULATE //为文件映射通过预读的方式准备好页表。随后对映射区的访问不会被页违例阻塞。 MAP_NONBLOCK //仅和MAP_POPULATE一起使用时才有意义。不执行预读，只为已存在于内存中的页面建立页表入口。 fd：有效的文件描述词。如果MAP_ANONYMOUS被设定，为了兼容问题，其值应为-1。 offset：被映射对象内容的起点。 3.munmap系统调用 include <sys/mman.h> int munmap( void addr, size_t len ) 该调用在进程地址空间中解除一个映射关系，addr是调用mmap()时返回的地址，len是映射区的大小。当映射关系解除后，对原来映射地址的访问将导致段错误发生。 4.msync系统调用 include <sys/mman.h> int msync ( void addr , size_t len, int flags) 一般说来，进程在映射空间的对共享内容的改变并不直接写回到磁盘文件中，往往在调用munmap（）后才执行该操作。可以通过调用msync()实现磁盘上文件内容与共享内存区的内容一致。二系统调用mmap()用于共享内存的两种方式（1）使用普通文件提供的内存映射：适用于任何进程之间；此时，需要打开或创建一个文件，然后再调用mmap()；典型调用代码如下： [cpp] view plaincopy fd=open(name, flag, mode); if(fd<0) ... ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0); 通过mmap()实现共享内存的通信方式有许多特点和要注意的地方（2）使用特殊文件提供匿名内存映射：适用于具有亲缘关系的进程之间；由于父子进程特殊的亲缘关系，在父进程中先调用mmap()，然后调用fork()。那么在调用fork()之后，子进程继承父进程匿名映射后的地址空间，同样也继承mmap()返回的地址，这样，父子进程就可以通过映射区域进行通信了。注意，这里不是一般的继承关系。一般来说，子进程单独维护从父进程继承下来的一些变量。而mmap()返回的地址，却由父子进程共同维护。对于具有亲缘关系的进程实现共享内存最好的方式应该是采用匿名内存映射的方式。此时，不必指定具体的文件，只要设置相应的标志即可. 三 mmap进行内存映射的原理 mmap系统调用的最终目的是将,设备或文件映射到用户进程的虚拟地址空间,实现用户进程对文件的直接读写,这个任务可以分为以下三步: 1.在用户虚拟地址空间中寻找空闲的满足要求的一段连续的虚拟地址空间,为映射做准备(由内核mmap系统调用完成) 每个进程拥有3G字节的用户虚存空间。但是，这并不意味着用户进程在这3G的范围内可以任意使用，因为虚存空间最终得映射到某个物理存储空间（内存或磁盘空间），才真正可以使用。那么，内核怎样管理每个进程3G的虚存空间呢？概括地说，用户进程经过编译、链接后形成的映象文件有一个代码段和数据段（包括data段和bss段），其中代码段在下，数据段在上。数据段中包括了所有静态分配的数据空间，即全局变量和所有申明为static的局部变量，这些空间是进程所必需的基本要求，这些空间是在建立一个进程的运行映像时就分配好的。除此之外，堆栈使用的空间也属于基本要求，所以也是在建立进程时就分配好的，如图3.1所示：图3.1 进程虚拟空间的划分在内核中,这样每个区域用一个结构struct vm_area_struct 来表示.它描述的是一段连续的、具有相同访问属性的虚存空间，该虚存空间的大小为物理内存页面的整数倍。可以使用 cat /proc/<pid>/maps来查看一个进程的内存使用情况,pid是进程号.其中显示的每一行对应进程的一个vm_area_struct结构. 下面是struct vm_area_struct结构体的定义： [cpp] view plaincopy struct vm_area_struct { struct mm_struct vm_mm; / The address space we belong to. / unsigned long vm_start; / Our start address within vm_mm. / unsigned long vm_end; / The first byte after our end address within vm_mm. / / linked list of VM areas per task, sorted by address / struct vm_area_struct vm_next, vm_prev; pgprot_t vm_page_prot; / Access permissions of this VMA. / unsigned long vm_flags; / Flags, see mm.h. / struct rb_node vm_rb; / For areas with an address space and backing store, linkage into the address_space->i_mmap prio tree, or linkage to the list of like vmas hanging off its node, or linkage of vma in the address_space->i_mmap_nonlinear list. / union { struct { struct list_head list; void parent; / aligns with prio_tree_node parent / struct vm_area_struct head; } vm_set; struct raw_prio_tree_node prio_tree_node; } shared; / A file's MAP_PRIVATE vma can be in both i_mmap tree and anon_vma list, after a COW of one of the file pages. A MAP_SHARED vma can only be in the i_mmap tree. An anonymous MAP_PRIVATE, stack or brk vma (with NULL file) can only be in an anon_vma list. / struct list_head anon_vma_chain; / Serialized by mmap_sem & page_table_lock / struct anon_vma anon_vma; / Serialized by page_table_lock / / Function pointers to deal with this struct. / const struct vm_operations_struct vm_ops; / Information about our backing store: / unsigned long vm_pgoff; / Offset (within vm_file) in PAGE_SIZE units, not PAGE_CACHE_SIZE / struct file vm_file; / File we map to (can be NULL). / void vm_private_data; / was vm_pte (shared mem) / unsigned long vm_truncate_count;/ truncate_count or restart_addr / ifndef CONFIG_MMU struct vm_region vm_region; / NOMMU mapping region / endif ifdef CONFIG_NUMA struct mempolicy vm_policy; / NUMA policy for the VMA / endif }; 通常，进程所使用到的虚存空间不连续，且各部分虚存空间的访问属性也可能不同。所以一个进程的虚存空间需要多个vm_area_struct结构来描述。在vm_area_struct结构的数目较少的时候，各个vm_area_struct按照升序排序，以单链表的形式组织数据（通过vm_next指针指向下一个vm_area_struct结构）。但是当vm_area_struct结构的数据较多的时候，仍然采用链表组织的化，势必会影响到它的搜索速度。针对这个问题，vm_area_struct还添加了vm_avl_hight（树高）、vm_avl_left（左子节点）、vm_avl_right（右子节点）三个成员来实现AVL树，以提高vm_area_struct的搜索速度。　　假如该vm_area_struct描述的是一个文件映射的虚存空间，成员vm_file便指向被映射的文件的file结构，vm_pgoff是该虚存空间起始地址在vm_file文件里面的文件偏移，单位为物理页面。图3.2 进程虚拟地址示意图因此,mmap系统调用所完成的工作就是准备这样一段虚存空间,并建立vm_area_struct结构体,将其传给具体的设备驱动程序 2 建立虚拟地址空间和文件或设备的物理地址之间的映射(设备驱动完成) 建立文件映射的第二步就是建立虚拟地址和具体的物理地址之间的映射,这是通过修改进程页表来实现的.mmap方法是file_opeartions结构的成员: int (mmap)(struct file ,struct vm_area_struct ); linux有2个方法建立页表: (1) 使用remap_pfn_range一次建立所有页表. int remap_pfn_range(struct vm_area_struct vma, unsigned long virt_addr, unsigned long pfn, unsigned long size, pgprot_t prot); 返回值: 成功返回 0, 失败返回一个负的错误值参数说明: vma 用户进程创建一个vma区域 virt_addr 重新映射应当开始的用户虚拟地址. 这个函数建立页表为这个虚拟地址范围从 virt_addr 到 virt_addr_size. pfn 页帧号, 对应虚拟地址应当被映射的物理地址. 这个页帧号简单地是物理地址右移 PAGE_SHIFT 位. 对大部分使用, VMA 结构的 vm_paoff 成员正好包含你需要的值. 这个函数影响物理地址从 (pfn<<PAGE_SHIFT) 到 (pfn<<PAGE_SHIFT)+size. size 正在被重新映射的区的大小, 以字节. prot 给新 VMA 要求的"protection". 驱动可(并且应当)使用在vma->vm_page_prot 中找到的值. (2) 使用nopage VMA方法每次建立一个页表项. struct page (nopage)(struct vm_area_struct vma, unsigned long address, int type); 返回值: 成功则返回一个有效映射页,失败返回NULL. 参数说明: address 代表从用户空间传过来的用户空间虚拟地址. 返回一个有效映射页. (3) 使用方面的限制： remap_pfn_range不能映射常规内存，只存取保留页和在物理内存顶之上的物理地址。因为保留页和在物理内存顶之上的物理地址内存管理系统的各个子模块管理不到。640 KB 和 1MB 是保留页可能映射，设备I/O内存也可以映射。如果想把kmalloc()申请的内存映射到用户空间，则可以通过mem_map_reserve()把相应的内存设置为保留后就可以。 (4) remap_pfn_range与nopage的区别 remap_pfn_range一次性建立页表,而nopage通过缺页中断找到内核虚拟地址，然后通过内核虚拟地址找到对应的物理页 remap_pfn_range函数只对保留页和物理内存之外的物理地址映射，而对常规RAM，remap_pfn_range函数不能映射，而nopage函数可以映射常规的RAM。 3 当实际访问新映射的页面时的操作(由缺页中断完成) (1) page cache及swap cache中页面的区分：一个被访问文件的物理页面都驻留在page cache或swap cache中，一个页面的所有信息由struct page来描述。struct page中有一个域为指针mapping ，它指向一个struct address_space类型结构。page cache或swap cache中的所有页面就是根据address_space结构以及一个偏移量来区分的。 (2) 文件与 address_space结构的对应：一个具体的文件在打开后，内核会在内存中为之建立一个struct inode结构，其中的i_mapping域指向一个address_space结构。这样，一个文件就对应一个address_space结构，一个 address_space与一个偏移量能够确定一个page cache 或swap cache中的一个页面。因此，当要寻址某个数据时，很容易根据给定的文件及数据在文件内的偏移量而找到相应的页面。 (3) 进程调用mmap()时，只是在进程空间内新增了一块相应大小的缓冲区，并设置了相应的访问标识，但并没有建立进程空间到物理页面的映射。因此，第一次访问该空间时，会引发一个缺页异常。 (4) 对于共享内存映射情况，缺页异常处理程序首先在swap cache中寻找目标页（符合address_space以及偏移量的物理页），如果找到，则直接返回地址；如果没有找到，则判断该页是否在交换区 (swap area)，如果在，则执行一个换入操作；如果上述两种情况都不满足，处理程序将分配新的物理页面，并把它插入到page cache中。进程最终将更新进程页表。注：对于映射普通文件情况（非共享映射），缺页异常处理程序首先会在page cache中根据address_space以及数据偏移量寻找相应的页面。如果没有找到，则说明文件数据还没有读入内存，处理程序会从磁盘读入相应的页面，并返回相应地址，同时，进程页表也会更新. (5) 所有进程在映射同一个共享内存区域时，情况都一样，在建立线性地址与物理地址之间的映射之后，不论进程各自的返回地址如何，实际访问的必然是同一个共享内存区域对应的物理页面。四总结 1.对于mmap的内存映射，是将物理内存映射到进程的虚拟地址空间中去，那么进程对文件的访问就相当于直接对内存的访问，从而加快了读写操作的效率。在这里，remap_pfn_range函数是一次性的建立页表，而nopage函数是根据page fault产生的进程虚拟地址去找到内核相对应的逻辑地址，再通过这个逻辑地址去找到page。完成映射过程。remap_pfn_range不能对常规内存映射，只能对保留的内存与物理内存之外的进行映射。 2.在这里，要分清几个地址，一个是物理地址，这个很简单，就是物理内存的实际地址。第二个是内核虚拟地址，即内核可以直接访问的地址，如kmalloc,vmalloc等内核函数返回的地址，kmalloc返回的地址也称为内核逻辑地址。内核虚拟地址与实际的物理地址只有一个偏移量。第三个是进程虚拟地址，这个地址处于用户空间。而对于mmap函数映射的是物理地址到进程虚拟地址，而不是把物理地址映射到内核虚拟地址。而ioremap函数是将物理地址映射为内核虚拟地址。 3.用户空间的进程调用mmap函数，首先进行必要的处理，生成vma结构体，然后调用remap_pfn_range函数建立页表。而用户空间的mmap函数返回的是映射到进程地址空间的首地址。所以mmap函数与remap_pfn_range函数是不同的，前者只是生成mmap，而建立页表通过remap_pfn_range函数来完成。本篇文章为转载内容。原文链接：https://blog.csdn.net/wh8_2011/article/details/52373213。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-20 22:49:12

464

转载

转载文章

[转载]一文看懂 .NET 的异常处理机制、原则以及最佳实践

...关键字，用于异常处理结构（try-catch-finally）中。无论 try 块中的代码是否引发异常，finally 块中的代码都将被执行。其主要用途是在执行完 try 块后清理资源，比如关闭文件、网络连接或者释放其他系统资源，以确保即使在发生异常的情况下，也能正确地完成清理操作，避免资源泄露等问题。应用程序全局处理异常 , 在 .NET 应用程序中，存在一些应用程序域级别的全局异常处理机制，例如 AppDomain.UnhandledException 和 AppDomain.FirstChanceException 等事件。这些全局异常处理方式允许开发人员注册一个统一的事件处理器，用来捕获和处理整个应用程序中未被任何局部 catch 块捕获到的异常，或者是首次出现但尚未处理的异常。全局异常处理常用于记录崩溃日志、进行最后的资源清理以及向用户展示友好的错误提示信息等场景，对于保证应用系统的稳定性和可靠性至关重要。

2023-04-13 13:38:26

转载

转载文章

[转载]arm-1

...为一种开源指令集体系结构，在嵌入式领域逐渐崭露头角，得到了SiFive等公司的大力推广和应用，有关RISC-V的生态建设和市场前景可深入研究。 2. Linux内核更新与优化：Linux 5.13版内核正式发布，该版本在硬件支持、性能优化以及安全增强等方面有显著提升，尤其对于嵌入式设备的支持更加全面。例如，对新型NAND Flash控制器的原生支持得到加强，有助于提高存储效率和稳定性。 3. Linux文件系统创新：科研人员正不断探索新的文件系统技术以适应大数据时代的需求。如Facebook主导开发的开源文件系统——Rocksteady，旨在提供超大规模数据中心所需的高效能、高稳定性和低延迟特性。此外，持久化内存（PMEM）技术的发展也在推动着Linux文件系统的变革，如pmemfs文件系统，它利用持久性内存的优势实现高性能的数据存取。 4. 跨平台开发与容器化趋势：随着云原生理念的普及，嵌入式开发开始关注容器化技术在边缘计算场景的应用。Docker和Kubernetes等工具正在帮助开发者更便捷地构建和部署跨平台的嵌入式应用，通过统一的容器环境简化了不同处理器架构间的移植难题。 5. 用户权限管理与安全实践：针对Linux系统安全问题，近年来有许多关于如何强化用户权限管理的研究报告和技术文章发表。例如，SELinux策略的深入解读，以及如何结合最小权限原则进行服务账户设置，避免因权限过高导致的安全风险，这些内容都是嵌入式系统安全运维的重要参考。

2023-11-23 17:18:30

转载

转载文章

[转载]饿了么：云端调度，饭来张口

...承担从底层硬件到上层应用的“全栈运维”运营能力与维修能力，当2015年夏天上海数据中心故障发生，主核心交换机宕机时，备核心交换机Bug同时被触发，从事故发生到硬件厂商携维修设备打车赶往现场维修的整个过程中，饥饿的消费者无法订餐吃饭，技术团队第一次经历业务中断而束手无策，才下定决心大笔投入混合云灾备的建设，“吃一堑，长一智”，持续向淘宝学习电商云生产与灾备架构，以自动化运维替代人肉运维，从灾备向多活演进，成为饿了么企业架构转型的必经之路。 4）大数据精益运营：不论网络打车还是网络订餐，共享服务平台脱颖而出的关键成功要素是智能调度算法，以大数据训练算法提升调度效率，饿了么在高峰时段内让百万“骑士”（送餐快递员）完成更多订单是算法持续优化的目标，而这背后隐藏着诸多复杂因素，包括考虑餐厅、骑士、消费者三者的实时动态位置关系，把新订单插入现有“骑士”的行进路线中，估计每家餐厅出餐时间，每个骑手的行进速度、道路熟悉程度各不相同，新老消费者获客成本、高价低价订单的优先级皆不相同。种种考量因素合并到一起，对于人类调度员来说，每天中午和晚上的高峰都是巨大的挑战。以上海商城路配送站为例，一个调度员每6秒钟就要调度1单，他需要考虑骑手已有订单量、路线熟悉度等。因此可以说，这份工作已经完全不适合人类。但对人工智能而言，阿里云ET则非常擅长处理这类超复杂、大规模、实时性要求高的“非人”问题。饿了么是中国最大的在线外卖和即时配送平台，日订单量900万单、180万骑手、100万家餐饮店，既是史无前例的计算存储挑战，又是人无我有的战略发展机遇。饿了么携手阿里云人工智能团队，通过海量数据训练优化全球最大实时智能调度系统。在基础架构层，云计算解决弹性支撑业务量波动的基础生存问题，在数据智能层，利用大数据训练核心调度算法、提升餐饮店的商业价值，才是业务决胜的“技术神器”。在针对大数据资源的“专家+机器”运营分析中，不断发现新的特征： 1）区域差异性：饿了么与阿里云联合研发小组测试中发现有2个配送站点出现严重超时问题。后来才知道：2个站点均在成都，当地人民喜欢早、中餐一起吃，高峰从11点就开始了。习惯了北上广节奏的ET到成都就懵了。据阿里云人工智能专家闵万里分析：“不存在一套通用的算法可以适配所有站点，所以我们需要让ET自己学习或者向人类运营专家请教当地的风土人情、饮食习惯”。除此之外，饿了么覆盖的餐厅不仅有高大上的连锁店，还有大街小巷的各类难以琢磨的特色小吃，难度是其他智能调度业务的数倍。 2）复杂路径规划：吃一口热饭有多难？送餐路径规划比驾车出行路径规划难度更高，要考虑“骑士”地图熟悉程度、天气状况、拼单效率、送餐顺序、时间对客户满意度影响、送达写字楼电梯等待时间等各种实际情况，究竟ET是如何实现智能派单并确保效率最优的呢？简单来说，ET会将配送站新接订单插入到每个骑手已有的任务中，重新规划一轮最短配送路径，对比哪个骑手新增时间最短。为了能够准确预估新增时间，ET需要知道全国100万家餐厅的出餐速度、超过180万骑手各自的骑行速度、每个顾客坐电梯下楼取餐的时间。一般来说，餐厅出餐等待时间占到了整个送餐时间的三分之一。ET要想提高骑手效率，必须准确预估出餐时间以减少骑手等待，但又不能让餐等人，最后饭凉了。饿了么旗下蜂鸟配送“准时达”服务单均配送时长缩短至30分钟以内。 3）天气特殊影响：天气等环境因素对送餐响应时间影响显著，要想计算骑手的送餐路程时间，ET需要知道每个骑手在不同区域、不同天气下的送餐速度。如果北京雾霾，ET能看见吗？双方研发团队为ET内置了恶劣天气的算法模型。通常情况下，每逢恶劣天气，外卖订单将出现大涨，对应的餐厅出餐速度和骑手骑行速度都将受到影响，这些ET都会考虑在内。如果顾客在下雪天点个火锅呢？ET也知道，将自动识别其为大单，锁定某一个骑手专门完成配送。 4）餐饮营销顾问：饿了么整体业务涉及C端（消费者）、B端（餐饮商户）、D端（物流配送）、BD端（地推营销），以往区域业务开拓考核新店数量，现在会重点关注餐饮外卖“健康度”，对于营业额忽高忽低、在线排名变化的餐饮店，都需要BD专家根据大数据帮助餐饮店经营者找出原因并给出解决建议，避免新店外卖刚开始就淹没在区域竞争中，销量平平的新店会离开平台，通过机器学习把餐饮运营专家的经验、以及人看不到的隐含规律固化下来，以数据决策来发现餐饮店经营问题、产品差异定位，让餐饮商户尝到甜头，才愿意继续经营。举个例子，饿了么员工都喜欢楼下一家鸡排店的午餐，但大数据发现这家店的外卖营收并不如实体店那么火爆，9元“鸡排+酸梅汁”是所有人都喜欢的爆款产品，可为什么同样菜品遭遇“线下火、线上冷”呢？数据预警后，BD顾问指出线上外卖鸡排产品没有写明“含免费酸梅汁一杯”的关键促销内容，导致大多数外卖消费者订一份鸡排一杯酸梅汁，却收到一份鸡排两杯酸梅汁，体验自然不好。饿了么是数据驱动、智能算法调度的自动化生活服务平台，通过O2O数据的在线实时分析，与阿里云人工智能团队不断改进算法，以“全局最优”取代“局部最优”，保证平台上所有餐饮商户都能享受到数据智能的科技红利。 “上云用数”的外部价值诸多，从饿了么内部反馈来看，上云不仅没有让运维团队失去价值，反而带来了“云原生应用”(Cloud Native Application)、“云上多活”、“CDN云端压测”、“安全风控一体化”等创新路径与方案，通过敏捷基础设施(IaaS)、微服务架构(PaaS和SaaS)、持续交付管理、DevOps等云最佳实践，摆脱“人肉”支撑的种种困境，进而实现更快的上线速度、细致的故障探测和发现、故障时能自动隔离、故障时能够自动恢复、方便的水平扩容。饿了么CTO张雪峰先生说：“互联网平台型组织，业务量涨数倍，企业人数稳定降低，才是技术驱动的正确商业模式。” 在不久的将来，你每天订餐、出行、娱乐、工作留下的大数据，会“驯养”出无处不在、无所不能的智能机器人管家，家庭助理帮你点菜，无人机为你送餐，聊天机器人接受你的投诉……当然这个无比美妙的“未来世界”背后，皆有阿里云的数据智能母体“ET”。本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_34126557/article/details/90592502。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-01-31 14:48:26

343

转载

转载文章

[转载]JavaScript中的时间与日期、正则表达式和Function类型

...表达式在实际项目中的应用，可以查阅一些近期开发者博客或技术文章，了解他们在表单验证、URL解析、文本搜索替换等方面的实战案例。例如，一篇名为“利用正则表达式优化用户输入验证策略”的文章详尽探讨了如何结合现代浏览器特性，如约束验证API，配合正则表达式进行高效的数据校验。此外，对于正则表达式的性能优化也是值得关注的话题。有研究指出，在处理大量数据时，某些复杂的正则可能导致性能瓶颈。阅读相关的性能分析报告和技术分享，可以帮助开发者掌握编写高性能正则表达式的技巧，并避免潜在的性能陷阱。最后，关于UTC时间戳在跨时区开发中的重要性，可参考有关国际协作项目中如何妥善处理时间问题的文章，了解如何借助JavaScript Date对象正确转换和处理不同时区的时间信息，从而确保在全球范围内应用程序的正常运行。尤其在当前全球化的互联网环境下，理解和掌握这一技能愈发关键。

2023-01-24 13:01:25

529

转载

转载文章

[转载]Android面试实战总结

...roid开发中，是指应用程序在运行过程中由于占用内存过多，超过了系统分配给它的最大内存空间，导致系统无法再为其分配内存，从而引发的一种程序错误。文中提到面试者讨论了如何通过优化内存管理、避免内存泄露等方式来预防OOM问题，确保应用能够在有限的内存资源下流畅运行。 ListView优化 , ListView是Android SDK中提供的一个用于展示大量数据列表的UI组件，它支持滚动和视图重用机制以提高性能。然而，如果不进行适当的优化，当加载大量数据时可能会出现卡顿、延迟或内存溢出等问题。文章中的面试过程涉及到了ListView优化的关键点，如复用convertView以减少对象创建、减少findViewById调用次数、分页加载数据以及图片缓存策略等，这些措施都是为了提升ListView的滚动流畅度和整体性能。图片三级缓存机制 , 在移动应用尤其是Android应用开发中，图片资源的高效管理和加载对于用户体验至关重要。三级缓存机制是一种常见的优化手段，主要包括内存缓存、本地缓存（文件缓存）和网络缓存三层结构。当需要加载图片时，首先检查内存缓存中是否存在该图片，若存在则直接使用；若不存在，则查询本地缓存，如果找到则从本地读取并加载至内存缓存；若本地也未存储，则发起网络请求下载图片，并将下载后的图片同时保存至内存缓存和本地缓存，以便后续快速访问。这样做的目的是减少对网络带宽和内存资源的消耗，防止因频繁加载图片导致的卡顿、延迟甚至OOM问题，提升应用性能和用户体验。在文中，面试者详细介绍了自己如何利用这一机制来优化项目中的图片处理部分。

2023-06-19 17:42:52

336

转载

转载文章

[转载]小白鼠的逆袭

...有构成意识所需的神经结构，神经化学及神经生理基础物质，并且能展现出有意图的行为。因此，证据已充分显示，负责产生意识的神经基础物质并非人类所独有。非人类动物，包括所有哺乳动物，鸟类，以及章鱼等其他生物，均拥有这些神经基础物质。” 确实，我承认心流并不只存在与人类，而是存在与所有生物之中。但是笛卡尔的理念也并不是完全错误的，因为心流虽然是生命的特质，但不是人类的特质，我想笛卡尔的理论中把心灵换做灵魂可能会更妥当一些，尽管灵魂的存在目前还是个未知数。或许我说完接下来的例子，会解释的更充分些。对于心流的存在，生物学家给出了一个简单的不能再简单的解释，那就是，如果没有感觉和欲望，那么就无法解释生物的各种行为。拿人来做例子或许会比较难以理解，但是拿动物做例子却简单的过分，那就是：当人去踢狗的时候，如果狗没有感到疼痛，愤怒，产生躲避的欲望，那么它就会因此而受到伤害。也就是说，这些种种的感觉与欲望，是那些最原始的东西，即进化论为了使生命更好的活着而产生的，只因人类把自己放在比动物高很多个层次的阶级上，而忽略了这个很简单的问题。心流的产生问题的关键，在于心流的产生。这样稍微改动下，上文所提到的笛卡尔的理论或许会更合理些：人与动物都存在感觉与欲望，但是动物的感觉与欲望是依靠自身结构在外界的输入下产生的一种内部输出，而人类的感觉和欲望则是一种可以被称作“灵魂”的东西控制下产生的。从而确立了人类高于动物的地位。前者很容易理解，现在的科学研究也已经很透彻了。例如兔子见到狮子，电信号便从眼睛传到大脑，刺激某些神经元，又结合之前的记忆神经元，放出更多的信号，整条线路的神经元一一受到刺激，最后指令传到肾上腺，让肾上腺素传遍全身，心脏的跳动也随之加快，肾上腺素也使信号的传递速度更快了些，同时在运动中枢的神经元也向腿部肌肉发出信号，让肌肉随着信号有序的完成伸展和收缩。外在的表现就是兔子从狮子旁边逃之夭夭。至于其中的恐惧的感觉和想要逃跑的欲望，都只不过是内部神经元信号的一种状态。而对于后者，则难以解释。正因为对前者的理解透彻，对后者的解释才显得很难说通。两个过程本来是相同的过程，只是后者多了对于每个人有且唯一的“灵魂”的存在的介入，但是，它究竟何时介入，如何介入，正如前者所描述的，在这样一个信号的传递网络里，究竟有哪一步，是需要“灵魂”来控制的。思前想后，好像并没有必须存在的那么一个步骤。也就是可能，前者所描述的那个信号传递步骤，适用于所有生物，当然也包括人类。简单的总结简单的总结一下，关于确定存在的心流和不确定存在的灵魂。首先，心流是确定存在，并且存在与所有生物当中，是生物进化产生的，为了更好的活着。其中，记忆储存的是之前的心流状态，当然不是全部的心流状态；感觉是当时的生物内部信号的一种状态，成为现态；欲望是一种内部输出，欲望，感觉和记忆相结合再结合会产生对外部的输出。其次，“灵魂”在这里表示为一个个体的有且唯一的存在。它不参与生物的任何过程，但是却有选择的监视生物的心流。也可以这样说，生物体本身有选择的展示一部分心流以供灵魂检阅，灵魂也是从生物所展示的心流中有选择的检阅。这才是人类的特质。我们真正的自我，就是这样一个有且唯一的灵魂，它无法介入它所在的生物体的任何事情，但是可以在一定程度上知道它所在的生物体的状态。也可以这样理解，生物体本身是一个封装的很好的复杂程序，心流则是程序的内部变量，程序不断的接收外部输入并向外部输出，我们本身的灵魂所在则置身于程序之外，就像我们坐在电脑前，无法知道这个复杂程序究竟是如何运行的，但是通过它输出在显示屏中的一些内部变量，即心流的一些数据，我们可以大致的判断出，程序在干些什么。对于这样的解释你可能难以接受，接下来的两个例子或许会让你接受这一事实。现在科学家只要扫描人脑，就能在测试者自己有所感知之前，预测他们会有什么欲望，会做出怎样的决定。例如，在一次实验中，受试者躺在一台巨大的脑部设备里，两手各自拿着一个开关，受试者可以随机的选择在何时按下那个开关。而科学家通过观察受试者的大脑神经活动，就能在受试者做决定之前知道受试者做了怎样的决定。也就是说，当这些内部输出被外部观测者“灵魂”所察觉的时候，心流自身已经做出了决定。7 或许你没有亲自做过这个实验，并不相信实验的结论，但是还有一个实验，你现在就可以给自己做一个测试。相信对于大家心算100以内的乘法没有什么问题，那么请各位充分运用自己的自由意志，即本文中的“灵魂”去控制你的大脑心算5672，注意在计算的过程中不要让自己的大脑去思考其他的任何事情，用尽快的速度计算出结果。当然，你会发现你根本做不到，无论如何你都无法控制那先奇奇怪怪的想法出现在你的大脑里，至于大脑为什么会像你控制的那样去计算5672，接下来我会给出人类的大脑思维模型。生物的模型生物的模型分为两部分，一部分我称为确定机，一部分我称为概率机。确定机确定机是指只要输入确定，那么就会产生确定输出的部分，而对于输入的概率性则不予考虑。例如，当生物多次看到同一个画面的时候会在大脑里形成同样的图像，因为每次输入的光信号都是一样的，在生物内部进行的信号传递过程也是一样的，所以在大脑里形成的图像输出也是一样的。现在人类所生产的绝大多数工具就是一个确定机的模型，如果相同的输入，不管输入多少次都会得到相同的输出。确定机也是生物模型的基础部分，构成生物的绝大部分，实际上，除了大脑，生物的任何部分都是一个确定机的模型，而大脑也有一部分的确定机模型。对于确定机，所有的内部过程和输出都不会被“灵魂”检阅，当然生物上可以通过解剖或其他更先进的方式去检查生物内部确定机的工作状态。概率机概率机是指即使输入确定，输出的确定性也指限制在一定的概率范围之内，会以不同但是给定的概率输出多个输出。当然给定的概率可以是确定机给出的确定概率（只在输入确定的情况下才确定），也可以是概率机给出的概率概率。概率机构成生物的大脑部分，当然一部分低等生物只由确定机构成。对于概率机，有一部分输出会被“灵魂”检阅，而“灵魂”是否检阅取决于“灵魂”本身，当然，对于概率机的工作状态，也可以通过解剖或其他更先进的方式去检查。生物思考的过程对于不同的生物，大脑可以同时进行的事情是有限的。就像现在的电脑手机一样，有严格的内存限制，对于大脑来说，同时启用着多个线程，每个线程所占用的内存不同，但是所有线程所占用的内存总和不得超限。对于每个线程，会随机的考虑一些事件，这些事件包括记忆中的事件，和当时正在发生的事件，对于每个事件出现在线程中的概率不同。不同事件的概率遵循的规律大致有以下几条： 1.对记忆中的事件，事件越久远概率越低。 2.对当时正在发生的事件，概率大致相同。 3.与当时线程中事件有关的事件概率高，无关的概率低。 4.与线程中的事件相关的个数越多，概率越高 5.对不同的心流状态，概率分配有所不同。 6.每个个体对不同的事件有不同的概率分配方案。 7.待补充。可以说，大脑中的一切过程都是随机的。那这样的话，生物的思考过程究竟如何进行呢？其实很简单，单个概率可能代表随机，但是多个概率就有可能表示必然。我还是举那个5672的例子，为什么你会真的去心算这个结果，大致的过程是这样的，如果大脑的思考频率以毫秒计的话，假设看5672用了200毫秒，其中每毫秒除了这一事件，还有其他的99个事件，那么刚看完就开始计算的概率为1-0.99200=0.8660203251,看完后1秒之内还没有开始计算的概率为0.991000= 4.31712474107 e-5，可以说即使大脑中随机的杂念再多，思考的过程也会如约开始。假设线程中与事件相关的事件出现的概率为0.3，同理，在开始计算后1秒内大部分时间都在思考与计算有关的内容，当然也有可能会走神，即出现大范围的无关事件，但是这只会影响最后计算出结果的时间先后，并不会影响整个过程的进行。这也就是说，大脑的思考过程，其实就是由多个概率所确定的必然事件。灵魂的旁观者综上所述，作为个体唯一存在的“灵魂”处在一个旁观者的位置，而所谓的自由意识，主观意识不过是概率机的产物。那么这样就产生了两个问题。第一个问题，你不觉得“灵魂”所在的肉体更像是一个囚笼吗？“灵魂”可以偶尔窥探外界，但无法做任何事情，只能默默得看着一切发生。尴尬的以为是自己做的，实际上就像看电影，每次看电影的时候，我都会以为我处在电影里面的世界。而现实就是，因为“灵魂”只能看肉体主演的这部“电影”，所以看的入迷了。其实，人类从解放双手，开发智力，使用工具，到探索宇宙，最大的进步莫过于发现自己其实仍处于囚笼之中。要怪就怪这囚笼建造地太过美好。而创建这一囚笼的“上帝”，把我们关在肉体这个囚笼里面，并且把我们的感知限制在有限的范围内，有限的嗅觉，16至20000赫兹的听觉，400纳米到700纳米的视觉，在感知中隔绝了我们对我们的唯一存在——“灵魂”的感知。第二个问题，对于自己本身来说，表征自己存在的“灵魂”自己是可以确定的，而对于其他人，因为限制了对“灵魂”的感知，所以无法确认别人，别的生物体内这一旁观者的存在。也可以这么理解，你知道自己被关在一间囚笼里面，而不知道隔壁囚笼是否也关了一个存在。那么世界这个大监狱里面，可能只有一小部分，甚至只有你一个孤独的存在。而究竟为何我们或我被困于此，我不得而知，可能就像我们做研究的时候的小白鼠一样，“上帝”也在观察着我们或我的一举一动，这也是我这篇文章取这个题目的原因。小白鼠的逆袭，一开始我只是平凡的活着，说实在的其实做一个平凡人安安稳稳的一生还是很不错的，但是知道了这个囚笼的存在，就总想着打破它，因为在想到可能只有自己一个存在的时候，会是多么的孤独。就像一个人去看电影，哪怕电影的内容再精彩，再引人入胜，但当电影结束的时候，你才发现，原来我是一个人来的呀。联系作者有志向联系读者的：1612860@mail.nankai.edu.cn 未完待续。。。本篇文章相当于《小白鼠的逆袭》的导读，下一篇我会出逆袭第一步：《思考的最简单模型及其编程实现》，可能用C++，也可能用Java，Python，看作者的心情吧。预计近几个月出吧，快则个把月，多则不知道了，毕竟作者本身还是比较忙的，忙七忙八也不知道在忙什么，嗯，就这样。小号：在有多个游戏账号的前提下，等级高的号叫作大号，等级较低或者新创建的号叫作小号。 ↩︎ https://baijiahao.baidu.com/s?id=1586028525096880374&wfr=spider&for=pc. ↩︎ http://tieba.baidu.com/p/5127924201. ↩︎ http://tieba.baidu.com/p/5127924201. ↩︎ http://www.lwlm.com/sixiangzhexue/201704/840820.htm. ↩︎ 详细讨论请参见：《未来简史：从智人到智神》第三章：人类的特质。 ↩︎ “Unconscious determinants of free decisions in the human brain” in nature neuroscience, http://www.rifters.com/real/articles/NatureNeuroScience_Soon_et_al.pdf. ↩︎ 本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_39384184/article/details/79288150。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-01-02 11:30:59

620

转载

转载文章

[转载]Linux的常见问题解答和管理技巧2

...行操作，无需直接编辑复杂的配置文件。在本文的语境中，超级用户可以利用Xconfigurator来识别和设置显卡的各种参数，如分辨率、颜色深度等，以确保显卡能够在Linux系统下正常工作并提供良好的显示效果。 XF86Setup , XF86Setup 是一个早期Linux环境中用于配置显卡和显示器的图形界面工具，相较于命令行方式更为直观易用。在该文章中提到，若用户拥有XF86Setup工具，则可以通过它来进行详细的显卡与显示器设置，包括调整屏幕分辨率、刷新率以及针对不同显卡芯片类型的具体配置。 so 文件 , 在Linux操作系统中，.so 文件是动态链接库（Shared Object）的文件格式，类似于Windows系统中的.dll文件。当应用程序运行时，如果需要调用额外的功能模块，就会依赖于这些.so文件。在文中提到的场景中，当用户尝试安装某个软件却提示缺少.so文件时，意味着该程序需要特定版本或类型的库文件支持才能正确安装和运行，用户需找到包含所需.so文件的相应RPM包进行安装以解决此问题。

2023-10-27 09:27:49

255

转载

转载文章

[转载]史上最通俗，彻底搞懂字符乱码问题的本质

...1、引言 IM等社交应用的开发工作中，乱码问题也很常见，比如: 1）IM聊天消息中的Emoji表情为什么发给后端后MySQL数据库里会乱码； 2）文件名中带有中文的大文件聊天消息发送后，对方看到的文名是乱码； 3）Http rest接口调用时，后端读取到APP端传过来的参数有中文乱码问题； ... ... 那么，对于乱码这个看似不起眼，但并不是一两话能讲清楚的问题，是很有必要从根源了解字符集和编码原理，知其然知其所以然显然是一个优秀码农的基本素养，所以，便有了本文，希望能帮助到你。推荐阅读：关于字符编码知识的详细讲解请见《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》。学习交流： - 即时通讯/推送技术开发交流5群：215477170 [推荐] - 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》（本文同步发布于：http://www.52im.net/thread-2868-1-1.html） 2、关于作者卢钧轶：爱捣腾Linux的DBA。曾任职于大众点评网DBA团队，主要关注MySQL、Memcache、MMM等产品的高性能和高可用架构。个人微博：米雪儿侬好的cenalulu Github地址：https://github.com/cenalulu 3、系列文章本文是IM开发干货系列文章中的第21篇，总目录如下：《IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递》《IM消息送达保证机制实现(二)：保证离线消息的可靠投递》《如何保证IM实时消息的“时序性”与“一致性”？》《IM单聊和群聊中的在线状态同步应该用“推”还是“拉”？》《IM群聊消息如此复杂，如何保证不丢不重？》《一种Android端IM智能心跳算法的设计与实现探讨（含样例代码）》《移动端IM登录时拉取数据如何作到省流量？》《通俗易懂：基于集群的移动端IM接入层负载均衡方案分享》《浅谈移动端IM的多点登陆和消息漫游原理》《IM开发基础知识补课(一)：正确理解前置HTTP SSO单点登陆接口的原理》《IM开发基础知识补课(二)：如何设计大量图片文件的服务端存储架构？》《IM开发基础知识补课(三)：快速理解服务端数据库读写分离原理及实践建议》《IM开发基础知识补课(四)：正确理解HTTP短连接中的Cookie、Session和Token》《IM群聊消息的已读回执功能该怎么实现？》《IM群聊消息究竟是存1份(即扩散读)还是存多份(即扩散写)？》《IM开发基础知识补课(五)：通俗易懂，正确理解并用好MQ消息队列》《一个低成本确保IM消息时序的方法探讨》《IM开发基础知识补课(六)：数据库用NoSQL还是SQL？读这篇就够了！》《IM里“附近的人”功能实现原理是什么？如何高效率地实现它？》《IM开发基础知识补课(七)：主流移动端账号登录方式的原理及设计思路》《IM开发基础知识补课(八)：史上最通俗，彻底搞懂字符乱码问题的本质》（本文） 4、正文概述字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题。当遇到纷繁复杂的字符集，各种火星文和乱码时，问题的定位往往变得非常困难。本文内容就将会从原理方面对字符集和编码做个简单的科普介绍，同时也会介绍一些通用的乱码故障定位的方法以方便读者以后能够更从容的定位相关问题。在正式介绍之前，先做个小申明：如果你希望非常精确的理解各个名词的解释，那么可以详细阅读这篇《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》。本文是博主通过自己理解消化后并转化成易懂浅显的表述后的介绍，会尽量以简单明了的文字来从要源讲解字符集、字符编码的概念，以及在遭遇乱码时的一些常用诊断技巧，希望能助你对于“乱码”问题有更深地理解。 5、什么是字符集在介绍字符集之前，我们先了解下为什么要有字符集。我们在计算机屏幕上看到的是实体化的文字，而在计算机存储介质中存放的实际是二进制的比特流。那么在这两者之间的转换规则就需要一个统一的标准，否则把我们的U盘插到老板的电脑上，文档就乱码了；小伙伴QQ上传过来的文件，在我们本地打开又乱码了。于是为了实现转换标准，各种字符集标准就出现了。简单的说：字符集就规定了某个文字对应的二进制数字存放方式（编码）和某串二进制数值代表了哪个文字（解码）的转换关系。那么为什么会有那么多字符集标准呢？这个问题实际非常容易回答。问问自己为什么我们的插头拿到英国就不能用了呢？为什么显示器同时有DVI、VGA、HDMI、DP这么多接口呢？很多规范和标准在最初制定时并不会意识到这将会是以后全球普适的准则，或者处于组织本身利益就想从本质上区别于现有标准。于是，就产生了那么多具有相同效果但又不相互兼容的标准了。说了那么多我们来看一个实际例子，下面就是“屌”这个字在各种编码下的十六进制和二进制编码结果，怎么样有没有一种很屌的感觉？ 6、什么是字符编码字符集只是一个规则集合的名字，对应到真实生活中，字符集就是对某种语言的称呼。例如：英语，汉语，日语。对于一个字符集来说要正确编码转码一个字符需要三个关键元素： 1）字库表（character repertoire）：是一个相当于所有可读或者可显示字符的数据库，字库表决定了整个字符集能够展现表示的所有字符的范围； 2）编码字符集（coded character set）：即用一个编码值code point来表示一个字符在字库中的位置； 3）字符编码（character encoding form）：将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。例如在ASCII中“A”在表中排第65位，而编码后A的数值是 0100 0001 也即十进制的65的二进制转换结果。看到这里，可能很多读者都会有和我当初一样的疑问：字库表和编码字符集看来是必不可少的，那既然字库表中的每一个字符都有一个自己的序号，直接把序号作为存储内容就好了。为什么还要多此一举通过字符编码把序号转换成另外一种存储格式呢？其实原因也比较容易理解：统一字库表的目的是为了能够涵盖世界上所有的字符，但实际使用过程中会发现真正用的上的字符相对整个字库表来说比例非常低。例如中文地区的程序几乎不会需要日语字符，而一些英语国家甚至简单的ASCII字库表就能满足基本需求。而如果把每个字符都用字库表中的序号来存储的话，每个字符就需要3个字节（这里以Unicode字库为例），这样对于原本用仅占一个字符的ASCII编码的英语地区国家显然是一个额外成本（存储体积是原来的三倍）。算的直接一些，同样一块硬盘，用ASCII可以存1500篇文章，而用3字节Unicode序号存储只能存500篇。于是就出现了UTF-8这样的变长编码。在UTF-8编码中原本只需要一个字节的ASCII字符，仍然只占一个字节。而像中文及日语这样的复杂字符就需要2个到3个字节来存储。关于字符编码知识的详细讲解请见：《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》。 7、UTF-8和Unicode的关系看完上面两个概念解释，那么解释UTF-8和Unicode的关系就比较简单了。 Unicode就是上文中提到的编码字符集，而UTF-8就是字符编码，即Unicode规则字库的一种实现形式。随着互联网的发展，对同一字库集的要求越来越迫切，Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字，并将为他们编号。详见：Unicode百科介绍。 Unicode的编号从 0000 开始一直到10FFFF 共分为17个Plane，每个Plane中有65536个字符。而UTF-8则只实现了第一个Plane，可见UTF-8虽然是一个当今接受度最广的字符集编码，但是它并没有涵盖整个Unicode的字库，这也造成了它在某些场景下对于特殊字符的处理困难（下文会有提到）。 8、UTF-8编码简介为了更好的理解后面的实际应用，我们这里简单的介绍下UTF-8的编码实现方法。即UTF-8的物理存储和Unicode序号的转换关系。 UTF-8编码为变长编码，最小编码单位（code unit）为一个字节。一个字节的前1-3个bit为描述性部分，后面为实际序号部分： 1）如果一个字节的第一位为0，那么代表当前字符为单字节字符，占用一个字节的空间。0之后的所有部分（7个bit）代表在Unicode中的序号； 2）如果一个字节以110开头，那么代表当前字符为双字节字符，占用2个字节的空间。110之后的所有部分（5个bit）加上后一个字节的除10外的部分（6个bit）代表在Unicode中的序号。且第二个字节以10开头； 3）如果一个字节以1110开头，那么代表当前字符为三字节字符，占用3个字节的空间。110之后的所有部分（5个bit）加上后两个字节的除10外的部分（12个bit）代表在Unicode中的序号。且第二、第三个字节以10开头； 4）如果一个字节以10开头，那么代表当前字节为多字节字符的第二个字节。10之后的所有部分（6个bit）和之前的部分一同组成在Unicode中的序号。具体每个字节的特征可见下表，其中“x”代表序号部分，把各个字节中的所有x部分拼接在一起就组成了在Unicode字库中的序号。如下图所示。我们分别看三个从一个字节到三个字节的UTF-8编码例子：细心的读者不难从以上的简单介绍中得出以下规律： 1）3个字节的UTF-8十六进制编码一定是以E开头的； 2）2个字节的UTF-8十六进制编码一定是以C或D开头的； 3）1个字节的UTF-8十六进制编码一定是以比8小的数字开头的。 9、为什么会出现乱码乱码也就是英文常说的mojibake（由日语的文字化け音译）。简单的说乱码的出现是因为：编码和解码时用了不同或者不兼容的字符集。对应到真实生活中：就好比是一个英国人为了表示祝福在纸上写了bless（编码过程）。而一个法国人拿到了这张纸，由于在法语中bless表示受伤的意思，所以认为他想表达的是受伤（解码过程）。这个就是一个现实生活中的乱码情况。在计算机科学中一样：一个用UTF-8编码后的字符，用GBK去解码。由于两个字符集的字库表不一样，同一个汉字在两个字符表的位置也不同，最终就会出现乱码。我们来看一个例子，假设我们用UTF-8编码存储“很屌”两个字，会有如下转换：于是我们得到了E5BE88E5B18C这么一串数值，而显示时我们用GBK解码进行展示，通过查表我们获得以下信息：解码后我们就得到了“寰堝睂”这么一个错误的结果，更要命的是连字符个数都变了。 10、如何识别乱码的本来想要表达的文字要从乱码字符中反解出原来的正确文字需要对各个字符集编码规则有较为深刻的掌握。但是原理很简单，这里用以MySQL数据库中的数据操纵中最常见的UTF-8被错误用GBK展示时的乱码为例，来说明具体反解和识别过程。 10.1 第1步：编码假设我们在页面上看到“寰堝睂”这样的乱码，而又得知我们的浏览器当前使用GBK编码。那么第一步我们就能先通过GBK把乱码编码成二进制表达式。当然查表编码效率很低，我们也可以用以下SQL语句直接通过MySQL客户端来做编码工作： mysql [localhost] {msandbox} > selecthex(convert('寰堝睂'using gbk)); +-------------------------------------+ | hex(convert('寰堝睂'using gbk)) | +-------------------------------------+ | E5BE88E5B18C | +-------------------------------------+ 1 row inset(0.01 sec) 10.2 第2步：识别现在我们得到了解码后的二进制字符串E5BE88E5B18C。然后我们将它按字节拆开。然后套用之前UTF-8编码介绍章节中总结出的规律，就不难发现这6个字节的数据符合UTF-8编码规则。如果整个数据流都符合这个规则的话，我们就能大胆假设乱码之前的编码字符集是UTF-8。 10.3 第3步：解码然后我们就能拿着 E5BE88E5B18C 用UTF-8解码，查看乱码前的文字了。当然我们可以不查表直接通过SQL获得结果： mysql [localhost] {msandbox} ((none)) > selectconvert(0xE5BE88E5B18C using utf8); +------------------------------------+ | convert(0xE5BE88E5B18C using utf8) | +------------------------------------+ | 很屌 | +------------------------------------+ 1 row inset(0.00 sec) 11、常见的IM乱码问题处理之MySQL中的Emoji字符所谓Emoji就是一种在Unicode位于 \u1F601-\u1F64F 区段的字符。这个显然超过了目前常用的UTF-8字符集的编码范围 \u0000-\uFFFF。Emoji表情随着IOS的普及和微信的支持越来越常见。下面就是几个常见的Emoji（IM聊天软件中经常会被用到）：那么Emoji字符表情会对我们平时的开发运维带来什么影响呢？最常见的问题就在于将他存入MySQL数据库的时候。一般来说MySQL数据库的默认字符集都会配置成UTF-8（三字节），而utf8mb4在5.5以后才被支持，也很少会有DBA主动将系统默认字符集改成utf8mb4。那么问题就来了，当我们把一个需要4字节UTF-8编码才能表示的字符存入数据库的时候就会报错：ERROR 1366: Incorrect string value: '\xF0\x9D\x8C\x86' for column 。如果认真阅读了上面的解释，那么这个报错也就不难看懂了：我们试图将一串Bytes插入到一列中，而这串Bytes的第一个字节是 \xF0 意味着这是一个四字节的UTF-8编码。但是当MySQL表和列字符集配置为UTF-8的时候是无法存储这样的字符的，所以报了错。那么遇到这种情况我们如何解决呢？有两种方式： 1）升级MySQL到5.6或更高版本，并且将表字符集切换至utf8mb4； 2）在把内容存入到数据库之前做一次过滤，将Emoji字符替换成一段特殊的文字编码，然后再存入数据库中。之后从数据库获取或者前端展示时再将这段特殊文字编码转换成Emoji显示。第二种方法我们假设用 --1F601-- 来替代4字节的Emoji，那么具体实现python代码可以参见Stackoverflow上的回答。 12、参考文献 [1] 如何配置Python默认字符集 [2] 字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8 [3] Unicode中文编码表 [4] Emoji Unicode Table [5] Every Developer Should Know About The Encoding 附录：更多IM开发方面的文章 [1] IM开发综合文章：《新手入门一篇就够：从零开发移动端IM》《移动端IM开发者必读(一)：通俗易懂，理解移动网络的“弱”和“慢”》《移动端IM开发者必读(二)：史上最全移动弱网络优化方法总结》《从客户端的角度来谈谈移动端IM的消息可靠性和送达机制》《现代移动端网络短连接的优化手段总结：请求速度、弱网适应、安全保障》《腾讯技术分享：社交网络图片的带宽压缩技术演进之路》《小白必读：闲话HTTP短连接中的Session和Token》《IM开发基础知识补课：正确理解前置HTTP SSO单点登陆接口的原理》《移动端IM开发需要面对的技术问题》《开发IM是自己设计协议用字节流好还是字符流好？》《请问有人知道语音留言聊天的主流实现方式吗？》《一个低成本确保IM消息时序的方法探讨》《完全自已开发的IM该如何设计“失败重试”机制？》《通俗易懂：基于集群的移动端IM接入层负载均衡方案分享》《微信对网络影响的技术试验及分析（论文全文）》《即时通讯系统的原理、技术和应用（技术论文）》《开源IM工程“蘑菇街TeamTalk”的现状：一场有始无终的开源秀》《QQ音乐团队分享：Android中的图片压缩技术详解（上篇）》《QQ音乐团队分享：Android中的图片压缩技术详解（下篇）》《腾讯原创分享(一)：如何大幅提升移动网络下手机QQ的图片传输速度和成功率》《腾讯原创分享(二)：如何大幅压缩移动网络下APP的流量消耗（上篇）》《腾讯原创分享(三)：如何大幅压缩移动网络下APP的流量消耗（下篇）》《如约而至：微信自用的移动端IM网络层跨平台组件库Mars已正式开源》《基于社交网络的Yelp是如何实现海量用户图片的无损压缩的？》《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》《腾讯技术分享：腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》《字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8》《全面掌握移动端主流图片格式的特点、性能、调优等》《子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践》《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》《自已开发IM有那么难吗？手把手教你自撸一个Andriod版简易IM (有源码)》《融云技术分享：解密融云IM产品的聊天消息ID生成策略》《适合新手：从零开发一个IM服务端（基于Netty，有完整源码）》《拿起键盘就是干：跟我一起徒手开发一套分布式IM系统》 >> 更多同类文章 …… [2] 有关IM架构设计的文章：《浅谈IM系统的架构设计》《简述移动端IM开发的那些坑：架构设计、通信协议和客户端》《一套海量在线用户的移动端IM架构设计实践分享(含详细图文)》《一套原创分布式即时通讯(IM)系统理论架构方案》《从零到卓越：京东客服即时通讯系统的技术架构演进历程》《蘑菇街即时通讯/IM服务器开发之架构选择》《腾讯QQ1.4亿在线用户的技术挑战和架构演进之路PPT》《微信后台基于时间序的海量数据冷热分级架构设计实践》《微信技术总监谈架构：微信之道——大道至简(演讲全文)》《如何解读《微信技术总监谈架构：微信之道——大道至简》》《快速裂变：见证微信强大后台架构从0到1的演进历程（一）》《17年的实践：腾讯海量产品的技术方法论》《移动端IM中大规模群消息的推送如何保证效率、实时性？》《现代IM系统中聊天消息的同步和存储方案探讨》《IM开发基础知识补课(二)：如何设计大量图片文件的服务端存储架构？》《IM开发基础知识补课(三)：快速理解服务端数据库读写分离原理及实践建议》《IM开发基础知识补课(四)：正确理解HTTP短连接中的Cookie、Session和Token》《WhatsApp技术实践分享：32人工程团队创造的技术神话》《微信朋友圈千亿访问量背后的技术挑战和实践总结》《王者荣耀2亿用户量的背后：产品定位、技术架构、网络方案等》《IM系统的MQ消息中间件选型：Kafka还是RabbitMQ？》《腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面》《以微博类应用场景为例，总结海量社交系统的架构设计步骤》《快速理解高性能HTTP服务端的负载均衡技术原理》《子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践》《知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路》《IM开发基础知识补课(五)：通俗易懂，正确理解并用好MQ消息队列》《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》《微信技术分享：微信的海量IM聊天消息序列号生成实践（容灾方案篇）》《新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践》《一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践》《阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史》《阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路》《社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等》《社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进》《社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节》《社交软件红包技术解密(四)：微信红包系统是如何应对高并发的》《社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的》《社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践》《社交软件红包技术解密(七)：支付宝红包的海量高并发技术实践》《社交软件红包技术解密(八)：全面解密微博红包技术方案》《社交软件红包技术解密(九)：谈谈手Q红包的功能逻辑、容灾、运维、架构等》《即时通讯新手入门：一文读懂什么是Nginx？它能否实现IM的负载均衡？》《即时通讯新手入门：快速理解RPC技术——基本概念、原理和用途》《多维度对比5款主流分布式MQ消息队列，妈妈再也不担心我的技术选型了》《从游击队到正规军(一)：马蜂窝旅游网的IM系统架构演进之路》《从游击队到正规军(二)：马蜂窝旅游网的IM客户端架构演进和实践总结》《IM开发基础知识补课(六)：数据库用NoSQL还是SQL？读这篇就够了！》《瓜子IM智能客服系统的数据架构设计（整理自现场演讲，有配套PPT）》《阿里钉钉技术分享：企业级IM王者——钉钉在后端架构上的过人之处》 >> 更多同类文章 …… （本文同步发布于：http://www.52im.net/thread-2868-1-1.html）本篇文章为转载内容。原文链接：https://blog.csdn.net/hellojackjiang2011/article/details/103586305。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-04-29 12:29:21

522

转载

转载文章

[转载]今日头条、抖音推荐算法原理全文详解！

...种算法组合，包括模型结构调整。因为很难有一套通用的模型架构适用于所有的推荐场景。现在很流行将LR和DNN结合，前几年Facebook也将LR和GBDT算法做结合。今日头条旗下几款产品都在沿用同一套强大的算法推荐系统，但根据业务场景不同，模型架构会有所调整。模型之后再看一下典型的推荐特征，主要有四类特征会对推荐起到比较重要的作用。第一类是相关性特征，就是评估内容的属性和与用户是否匹配。显性的匹配包括关键词匹配、分类匹配、来源匹配、主题匹配等。像FM模型中也有一些隐性匹配，从用户向量与内容向量的距离可以得出。第二类是环境特征，包括地理位置、时间。这些既是bias特征，也能以此构建一些匹配特征。第三类是热度特征。包括全局热度、分类热度，主题热度，以及关键词热度等。内容热度信息在大的推荐系统特别在用户冷启动的时候非常有效。第四类是协同特征，它可以在部分程度上帮助解决所谓算法越推越窄的问题。协同特征并非考虑用户已有历史。而是通过用户行为分析不同用户间相似性，比如点击相似、兴趣分类相似、主题相似、兴趣词相似，甚至向量相似，从而扩展模型的探索能力。模型的训练上，头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快，这对信息流产品非常重要。用户需要行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。我们线上目前基于storm集群实时处理样本数据，包括点击、展现、收藏、分享等动作类型。模型参数服务器是内部开发的一套高性能的系统，因为头条数据规模增长太快，类似的开源系统稳定性和性能无法满足，而我们自研的系统底层做了很多针对性的优化，提供了完善运维工具，更适配现有的业务场景。目前，头条的推荐算法模型在世界范围内也是比较大的，包含几百亿原始特征和数十亿向量特征。整体的训练过程是线上服务器记录实时特征，导入到Kafka文件队列中，然后进一步导入Storm集群消费Kafka数据，客户端回传推荐的label构造训练样本，随后根据最新样本进行在线训练更新模型参数，最终线上模型得到更新。这个过程中主要的延迟在用户的动作反馈延时，因为文章推荐后用户不一定马上看，不考虑这部分时间，整个系统是几乎实时的。但因为头条目前的内容量非常大，加上小视频内容有千万级别，推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略，每次推荐时从海量内容中筛选出千级别的内容库。召回策略最重要的要求是性能要极致，一般超时不能超过50毫秒。召回策略种类有很多，我们主要用的是倒排的思路。离线维护一个倒排，这个倒排的key可以是分类，topic，实体，来源等。排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断，高效的从很大的内容库中筛选比较靠谱的一小部分内容。二、内容分析内容分析包括文本分析，图片分析和视频分析。头条一开始主要做资讯，今天我们主要讲一下文本分析。文本分析在推荐系统中一个很重要的作用是用户兴趣建模。没有内容及文本标签，无法得到用户兴趣标签。举个例子，只有知道文章标签是互联网，用户看了互联网标签的文章，才能知道用户有互联网标签，其他关键词也一样。另一方面，文本内容的标签可以直接帮助推荐特征，比如魅族的内容可以推荐给关注魅族的用户，这是用户标签的匹配。如果某段时间推荐主频道效果不理想，出现推荐窄化，用户会发现到具体的频道推荐（如科技、体育、娱乐、军事等）中阅读后，再回主feed,推荐效果会更好。因为整个模型是打通的，子频道探索空间较小，更容易满足用户需求。只通过单一信道反馈提高推荐准确率难度会比较大，子频道做的好很重要。而这也需要好的内容分析。上图是今日头条的一个实际文本case。可以看到，这篇文章有分类、关键词、topic、实体词等文本特征。当然不是没有文本特征，推荐系统就不能工作，推荐系统最早期应用在Amazon,甚至沃尔玛时代就有，包括Netfilx做视频推荐也没有文本特征直接协同过滤推荐。但对资讯类产品而言，大部分是消费当天内容，没有文本特征新内容冷启动非常困难，协同类特征无法解决文章冷启动问题。今日头条推荐系统主要抽取的文本特征包括以下几类。首先是语义标签类特征，显式为文章打上语义标签。这部分标签是由人定义的特征，每个标签有明确的意义，标签体系是预定义的。此外还有隐式语义特征，主要是topic特征和关键词特征，其中topic特征是对于词概率分布的描述，无明确意义；而关键词特征会基于一些统一特征描述，无明确集合。另外文本相似度特征也非常重要。在头条，曾经用户反馈最大的问题之一就是为什么总推荐重复的内容。这个问题的难点在于，每个人对重复的定义不一样。举个例子，有人觉得这篇讲皇马和巴萨的文章，昨天已经看过类似内容，今天还说这两个队那就是重复。但对于一个重度球迷而言，尤其是巴萨的球迷，恨不得所有报道都看一遍。解决这一问题需要根据判断相似文章的主题、行文、主体等内容，根据这些特征做线上策略。同样，还有时空特征，分析内容的发生地点以及时效性。比如武汉限行的事情推给北京用户可能就没有意义。最后还要考虑质量相关特征，判断内容是否低俗，色情，是否是软文，鸡汤？上图是头条语义标签的特征和使用场景。他们之间层级不同，要求不同。分类的目标是覆盖全面，希望每篇内容每段视频都有分类；而实体体系要求精准，相同名字或内容要能明确区分究竟指代哪一个人或物，但不用覆盖很全。概念体系则负责解决比较精确又属于抽象概念的语义。这是我们最初的分类，实践中发现分类和概念在技术上能互用，后来统一用了一套技术架构。目前，隐式语义特征已经可以很好的帮助推荐，而语义标签需要持续标注，新名词新概念不断出现，标注也要不断迭代。其做好的难度和资源投入要远大于隐式语义特征，那为什么还需要语义标签？有一些产品上的需要，比如频道需要有明确定义的分类内容和容易理解的文本标签体系。语义标签的效果是检查一个公司NLP技术水平的试金石。今日头条推荐系统的线上分类采用典型的层次化文本分类算法。最上面Root，下面第一层的分类是像科技、体育、财经、娱乐，体育这样的大类，再下面细分足球、篮球、乒乓球、网球、田径、游泳…，足球再细分国际足球、中国足球，中国足球又细分中甲、中超、国家队…，相比单独的分类器，利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是，如果要提高召回，可以看到我们连接了一些飞线。这套架构通用，但根据不同的问题难度，每个元分类器可以异构，像有些分类SVM效果很好，有些要结合CNN，有些要结合RNN再处理一下。上图是一个实体词识别算法的case。基于分词结果和词性标注选取候选，期间可能需要根据知识库做一些拼接，有些实体是几个词的组合，要确定哪几个词结合在一起能映射实体的描述。如果结果映射多个实体还要通过词向量、topic分布甚至词频本身等去歧，最后计算一个相关性模型。三、用户标签内容分析和用户标签是推荐系统的两大基石。内容分析涉及到机器学习的内容多一些，相比而言，用户标签工程挑战更大。今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征（车型，体育球队，股票等）。还有性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测，通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息，在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息，可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。当然最简单的用户标签是浏览过的内容标签。但这里涉及到一些数据处理策略。主要包括：一、过滤噪声。通过停留时间短的点击，过滤标题党。二、热点惩罚。对用户在一些热门文章（如前段时间PG One的新闻）上的动作做降权处理。理论上，传播范围较大的内容，置信度会下降。三、时间衰减。用户兴趣会发生偏移，因此策略更偏向新的用户行为。因此，随着用户动作的增加，老的特征权重会随时间衰减，新动作贡献的特征权重会更大。四、惩罚展现。如果一篇推荐给用户的文章没有被点击，相关特征（类别，关键词，来源）权重会被惩罚。当然同时，也要考虑全局背景，是不是相关内容推送比较多，以及相关的关闭和dislike信号等。用户标签挖掘总体比较简单，主要还是刚刚提到的工程挑战。头条用户标签第一版是批量计算框架，流程比较简单，每天抽取昨天的日活用户过去两个月的动作数据，在Hadoop集群上批量计算结果。但问题在于，随着用户高速增长，兴趣模型种类和其他批量处理任务都在增加，涉及到的计算量太大。 2014年，批量处理任务几百万用户标签更新的Hadoop任务，当天完成已经开始勉强。集群计算资源紧张很容易影响其它工作，集中写入分布式存储系统的压力也开始增大，并且用户兴趣标签更新延迟越来越高。面对这些挑战。2014年底今日头条上线了用户标签Storm集群流式计算系统。改成流式之后，只要有用户动作更新就更新标签，CPU代价比较小，可以节省80%的CPU时间，大大降低了计算资源开销。同时，只需几十台机器就可以支撑每天数千万用户的兴趣模型更新，并且特征更新速度非常快，基本可以做到准实时。这套系统从上线一直使用至今。当然，我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息，不需要实时重复计算，就仍然保留daily更新。四、评估分析上面介绍了推荐系统的整体架构，那么如何评估推荐效果好不好？有一句我认为非常有智慧的话，“一个事情没法评估就没法优化”。对推荐系统也是一样。事实上，很多因素都会影响推荐效果。比如侯选集合变化，召回模块的改进或增加，推荐特征的增加，模型架构的改进在，算法参数的优化等等，不一一举例。评估的意义就在于，很多优化最终可能是负向效果，并不是优化上线后效果就会改进。全面的评估推荐系统，需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量，不能只看点击率或者停留时长等，需要综合评估。很多公司算法做的不好，并非是工程师能力不够，而是需要一个强大的实验平台，还有便捷的实验分析工具，可以智能分析数据指标的置信度。一个良好的评估体系建立需要遵循几个原则，首先是兼顾短期指标与长期指标。我在之前公司负责电商方向的时候观察到，很多策略调整短期内用户觉得新鲜，但是长期看其实没有任何助益。其次，要兼顾用户指标和生态指标。既要为内容创作者提供价值，让他更有尊严的创作，也有义务满足用户，这两者要平衡。还有广告主利益也要考虑，这是多方博弈和平衡的过程。另外，要注意协同效应的影响。实验中严格的流量隔离很难做到，要注意外部效应。强大的实验平台非常直接的优点是，当同时在线的实验比较多时，可以由平台自动分配流量，无需人工沟通，并且实验结束流量立即回收，提高管理效率。这能帮助公司降低分析成本，加快算法迭代效应，使整个系统的算法优化工作能够快速往前推进。这是头条A/B Test实验系统的基本原理。首先我们会做在离线状态下做好用户分桶，然后线上分配实验流量，将桶里用户打上标签，分给实验组。举个例子，开一个10%流量的实验，两个实验组各5%，一个5%是基线，策略和线上大盘一样，另外一个是新的策略。实验过程中用户动作会被搜集，基本上是准实时，每小时都可以看到。但因为小时数据有波动，通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库，非常便捷。在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件，自定义实验组ID。系统可以自动生成：实验数据对比、实验数据置信度、实验结论总结以及实验优化建议。当然，只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化，但数据指标和用户体验存在差异，很多指标不能完全量化。很多改进仍然要通过人工分析，重大改进需要人工评估二次确认。五、内容安全最后要介绍今日头条在内容安全上的一些举措。头条现在已经是国内最大的内容创作与分发凭条，必须越来越重视社会责任和行业领导者的责任。如果1%的推荐内容出现问题，就会产生较大的影响。现在，今日头条的内容主要来源于两部分，一是具有成熟内容生产能力的PGC平台一是UGC用户内容，如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容，会直接进行风险审核，没有问题会大范围推荐。 UGC内容需要经过一个风险模型的过滤，有问题的会进入二次风险审核。审核通过后，内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈，还会再回到复审环节，有问题直接下架。整个机制相对而言比较健全，作为行业领先者，在内容安全上，今日头条一直用最高的标准要求自己。分享内容识别技术主要鉴黄模型，谩骂模型以及低俗模型。今日头条的低俗模型通过深度学习算法训练，样本库非常大，图片、文本同时分析。这部分模型更注重召回率，准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万，召回率高达95%+，准确率80%+。如果用户经常出言不讳或者不当的评论，我们有一些惩罚机制。泛低质识别涉及的情况非常多，像假新闻、黑稿、题文不符、标题党、内容质量低等等，这部分内容由机器理解是非常难的，需要大量反馈信息，包括其他样本信息比对。目前低质模型的准确率和召回率都不是特别高，还需要结合人工复审，将阈值提高。目前最终的召回已达到95%，这部分其实还有非常多的工作可以做。别平台。如果需要机器学习视频，可以在公众号后台聊天框回复【机器学习】，可以免费获取编程视频。你可能还喜欢数学在机器学习中到底有多重要？ AI 新手学习路线，附上最详细的资源整理！提升机器学习数学基础，推荐7本书酷爆了！围观2020年十大科技趋势机器学习该如何入门，听听过来人的经验！长按加入T圈，接触人工智能觉得内容还不错的话，给我点个“在看”呗本篇文章为转载内容。原文链接：https://blog.csdn.net/itcodexy/article/details/109574173。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-13 09:21:23

322

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

echo 'string' > /dev/null - 忽略输出，常用于抑制命令的输出结果。