英语句子结构在线分析器免费的英语句子分析器

修仙狂徒围观:℉更新时间:05-22 15:08

你现在阅读的是一篇关于英语句子结构在线分析器的文章，里面有丰富多彩的内容，还有给你准备免费的英语句子分析器和英语句子结构在线分析器的精彩内容哦。

欢迎关注同名微信公众号:AI小白入门。跟着博主的脚步，每天进步一点点哟

定义

维基百科上给的定义如下：The constituency-based parse trees of constituency grammars (= phrase structure grammars) distinguish between terminal and non-terminal nodes. The interior nodes are labeled by non-terminal categories of the grammar, while the leaf nodes are labeled by terminal categories.

句子的组成成分叫句子成分，也叫句法成分。在句子中，词与词之间有一定的组合关系，按照不同的关系，可以把句子分为不同的组成成分。句子成分由词或词组充当。

句法结构分析是指对输入的单词序列（一般为句子）判断其构成是否合乎给定的语法，分析出合乎语法的句子的句法结构。句法结构一般用树状数据结构表示，通常称之为句法分析树(syntactic parsing tree)或简称分析树（parsing tree），而完成这种分析过程的程序模块称为句法结构分析器（syntactic parser），也简称分析器（parser）。

基本任务

句法结构分析的基本任务主要有三个：1.判断输入的字符串是否属于某种语言。2.消除输入句子中的词法和结构等方面的歧义。3.分析输入句子的内部结构，如成分构成、上下文关系等。

如果一个句子有多种结构表示，句法分析器应该分析出该句子最有可能的结构。有时人们也把句法结构分析称为语言或句子识别。

一般构造一个句法分析器需要考虑二部分：语法的形式化表示和词条信息描述问题，分析算法的设计。目前在自然语言处理中广泛使用的是上下文无关文法（CFG）和基于约束的文法（又称合一语法）。

常见方法

句法结构分析可以分为基于规则的分析方法、基于统计的分析方法以及近年来基于深度学习的方法等。

基于规则的分析方法：其基本思路是由人工组织语法规则，建立语法知识库，通过条件约束和检查来实现句法结构歧义的消除。

基于统计的分析方法：统计句法分析中目前最成功当属基于概率上下文无关文法(PCFG或SCFG)。该方法采用的模型主要包括词汇化的概率模型(lexicalized probabilistic model)和非词汇化的概率模型(unlexicalized probabilistic model)两种。

基于深度学习的分析方法：近几年深度学习在nlp基础任务取得了不错的效果，也涌现出了不少论文。

短语结构和依存结构关系

短语结构树可以被一一对应地转化成依存关系树，反过来则不然，因为一棵依存关系树可能对应多个短语结构树。转化方法可以通过如下实现：

定义中心词抽取规则，产生中心词表；

根据中心词表，为句法树中每个结点选择中心子结点；

同一层内将非中心子结点的中心词依存到中心子结点的中心词上，下一层的中心词依存到上一层的中心词上，从而得到相应的依存结构。

工具推荐

StanfordCoreNLP

斯坦福的，提供成分句法分析功能。

Github地址：https://github.com/Lynten/stanford-corenlp

官网：https://stanfordnlp.github.io/CoreNLP/

# 安装：pip install stanfordcorenlp

# 国内源安装：pip install stanfordcorenlp -i https://pypi.tuna.tsinghua.edu.cn/simple

# 使用stanfordcorenlp进行句法成分分析

# 先下载模型，下载地址：https://nlp.stanford.edu/software/corenlp-backup-download.html

from stanfordcorenlp import StanfordCoreNLP

# 对中文进行句子成分分析

zh_model = StanfordCoreNLP(r'stanford-corenlp-full-2023-02-27', lang='zh')

s_zh = '我爱自然语言处理技术！'

con_zh = zh_model.parse(s_zh)

print(con_zh)

(IP

(NP (NN 我爱))

(ADVP (AD 自然))

(NP (NN 语言))

(VP (VV 处理)

(NP (NN 技术))))

(PU ！)))

# 对英文进行句子成分分析

eng_model = StanfordCoreNLP(r'stanford-corenlp-full-2023-02-27')

s_eng = 'I love natural language processing technology!'

con_eng = eng_model.parse(s_eng)

print(con_eng)

(ROOT

(NP (PRP I))

(VP (VBP love)

(NP (JJ natural) (NN language) (NN processing) (NN technology)))

(. !)))

Berkeley Parser

伯克利大学nlp组开源的工具。提供英文的句法分析功能。

官方地址：http://nlp.cs.berkeley.edu/software.shtml

SpaCy

工业级的自然语言处理工具，遗憾的是不支持中文。

Gihub地址：https://github.com/explosion/spaCy

官网：https://spacy.io/

代码已上传：https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/Constituency.ipynb

参考：

1. 统计自然语言处理

2. 中文信息处理报告-2023

英语句子分析器（MySQL经典40问）

事务的四大特性？

事务特性ACID：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）。

原子性是指事务包含的所有操作要么全部成功，要么全部失败回滚。
一致性是指一个事务执行之前和执行之后都必须处于一致性状态。比如a与b账户共有1000块，两人之间转账之后无论成功还是失败，它们的账户总和还是1000。
隔离性。跟隔离级别相关，如read committed，一个事务只能读到已经提交的修改。
持久性是指一个事务一旦被提交了，那么对数据库中的数据的改变就是永久性的，即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

数据库的三大范式

第一范式1NF

确保数据库表字段的原子性。

比如字段 userInfo: 山东省 1318162023' ，依照第一范式必须拆分成 userInfo: 山东省 userTel:1318162023两个字段。

第二范式2NF

首先要满足第一范式，另外包含两部分内容，一是表必须有一个主键；二是非主键列必须完全依赖于主键，而不能只依赖于主键的一部分。

举个例子。假定选课关系表为StudentCourse(学号, 姓名, 年龄, 课程名称, 成绩, 学分)，主键为(学号, 课程名称)。其中学分完全依赖于课程名称，姓名年龄完全依赖学号，不符合第二范式，会导致数据冗余（学生选n门课，姓名年龄有n条记录）、插入异常（插入一门新课，因为没有学号，无法保存新课记录）等问题。

可以拆分成三个表：学生：Student(学号, 姓名, 年龄)；课程：Course(课程名称, 学分)；选课关系：StudentCourseRelation(学号, 课程名称, 成绩)。

第三范式3NF

首先要满足第二范式，另外非主键列必须直接依赖于主键，不能存在传递依赖。即不能存在：非主键列 A 依赖于非主键列 B，非主键列 B 依赖于主键的情况。

假定学生关系表为Student(学号, 姓名, 年龄, 学院id, 学院地点, 学院电话)，主键为"学号"，其中学院id依赖于学号，而学院地点和学院电话依赖于学院id，存在传递依赖，不符合第三范式。

可以把学生关系表分为如下两个表：学生：(学号, 姓名, 年龄, 学院id)；学院：(学院,id 地点, 电话)。

2NF和3NF的区别？

2NF依据是非主键列是否完全依赖于主键，还是依赖于主键的一部分。
3NF依据是非主键列是直接依赖于主键，还是直接依赖于非主键。

事务隔离级别有哪些？

先了解下几个概念：脏读、不可重复读、幻读。

脏读是指在一个事务处理过程里读取了另一个未提交的事务中的数据。
不可重复读是指在对于数据库中的某行记录，一个事务范围内多次查询却返回了不同的数据值，这是由于在查询间隔，另一个事务修改了数据并提交了。
幻读是当某个事务在读取某个范围内的记录时，另外一个事务又在该范围内插入了新的记录，当之前的事务再次读取该范围的记录时，会产生幻行，就像产生幻觉一样，这就是发生了幻读。

不可重复读和脏读的区别是，脏读是某一事务读取了另一个事务未提交的脏数据，而不可重复读则是读取了前一事务提交的数据。

幻读和不可重复读都是读取了另一条已经提交的事务，不同的是不可重复读的重点是修改，幻读的重点在于新增或者删除。

事务隔离就是为了解决上面提到的脏读、不可重复读、幻读这几个问题。

MySQL数据库为我们提供的四种隔离级别：

Serializable (串行化)：通过强制事务排序，使之不可能相互冲突，从而解决幻读问题。
Repeatable read (可重复读)：MySQL的默认事务隔离级别，它确保同一事务的多个实例在并发读取数据时，会看到同样的数据行，解决了不可重复读的问题。
Read committed (读已提交)：一个事务只能看见已经提交事务所做的改变。可避免脏读的发生。
Read uncommitted (读未提交)：所有事务都可以看到其他未提交事务的执行结果。

查看隔离级别：

select @@transaction_isolation;

设置隔离级别：

set session transaction isolation level read uncommitted;

索引

什么是索引？

索引是存储引擎用于提高数据库表的访问速度的一种数据结构。

索引的优缺点？

优点：

加快数据查找的速度
为用来排序或者是分组的字段添加索引，可以加快分组和排序的速度
加速表与表之间的连接

缺点：

建立索引需要占用物理空间
会降低表的增删改的效率，因为每次对表记录进行增删改，需要进行动态维护索引，导致增删改时间变长

索引的作用？

数据是存储在磁盘上的，查询数据时，如果没有索引，会加载所有的数据到内存，依次进行检索，读取磁盘次数较多。有了索引，就不需要加载所有数据，因为B+树的高度一般在2-4层，最多只需要读取2-4次磁盘，查询速度大大提升。

什么情况下需要建索引？

经常用于查询的字段
经常用于连接的字段（如外键）建立索引，可以加快连接的速度
经常需要排序的字段建立索引，因为索引已经排好序，可以加快排序查询速度

什么情况下不建索引？

where条件中用不到的字段不适合建立索引
表记录较少
需要经常增删改
参与列计算的列不适合建索引
区分度不高的字段不适合建立索引，性别等

索引的数据结构

索引的数据结构主要有B+树和哈希表，对应的索引分别为B+树索引和哈希索引。InnoDB引擎的索引类型有B+树索引和哈希索引，默认的索引类型为B+树索引。

B+树索引

B+ 树是基于B 树和叶子节点顺序访问指针进行实现，它具有B树的平衡性，并且通过顺序访问指针来提高区间查询的性能。

在 B+ 树中，节点中的 key 从左到右递增排列，如果某个指针的左右相邻 key 分别是 keyi 和 keyi+1，则该指针指向节点的所有 key 大于等于 keyi 且小于等于 keyi+1。

进行查找操作时，首先在根节点进行二分查找，找到key所在的指针，然后递归地在指针所指向的节点进行查找。直到查找到叶子节点，然后在叶子节点上进行二分查找，找出 key 所对应的数据项。

MySQL 数据库使用最多的索引类型是BTREE索引，底层基于B+树数据结构来实现。

mysql> show index from blog\G;*************************** 1. row *************************** Table: blog Non_unique: 0 Key_name: PRIMARY Seq_in_index: 1 Column_name: blog_id Collation: A Cardinality: 4 Sub_part: NULL Packed: NULL Null: Index_type: BTREE Comment:Index_comment: Visible: YES Expression: NULL

哈希索引

哈希索引是基于哈希表实现的，对于每一行数据，存储引擎会对索引列进行哈希计算得到哈希码，并且哈希算法要尽量保证不同的列值计算出的哈希码值是不同的，将哈希码的值作为哈希表的key值，将指向数据行的指针作为哈希表的value值。这样查找一个数据的时间复杂度就是O(1)，一般多用于精确查找。

Hash索引和B+树索引的区别？

哈希索引不支持排序，因为哈希表是无序的。
哈希索引不支持范围查找。
哈希索引不支持模糊查询及多列索引的最左前缀匹配。
因为哈希表中会存在哈希冲突，所以哈希索引的性能是不稳定的，而B+树索引的性能是相对稳定的，每次查询都是从根节点到叶子节点。

为什么B+树比B树更适合实现数据库索引？

由于B+树的数据都存储在叶子结点中，叶子结点均为索引，方便扫库，只需要扫一遍叶子结点即可，但是B树因为其分支结点同样存储着数据，我们要找到具体的数据，需要进行一次中序遍历按序来扫，所以B+树更加适合在区间查询的情况，而在数据库中基于范围的查询是非常频繁的，所以通常B+树用于数据库索引。
B+树的节点只存储索引key值，具体信息的地址存在于叶子节点的地址中。这就使以页为单位的索引中可以存放更多的节点。减少更多的I/O支出。
B+树的查询效率更加稳定，任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同，导致每一个数据的查询效率相当。

索引有什么分类？

1、主键索引：名为primary的唯一非空索引，不允许有空值。

2、唯一索引：索引列中的值必须是唯一的，但是允许为空值。唯一索引和主键索引的区别是：UNIQUE 约束的列可以为null且可以存在多个null值。UNIQUE KEY的用途：唯一标识数据库表中的每条记录，主要是用来防止数据重复插入。创建唯一索引的SQL语句如下：

ALTER TABLE table_nameADD CONSTRAINT constraint_name UNIQUE KEY(column_1,column_2,...);

3、组合索引：在表中的多个字段组合上创建的索引，只有在查询条件中使用了这些字段的左边字段时，索引才会被使用，使用组合索引时遵循最左前缀原则。

4、全文索引：只有在MyISAM引擎上才能使用，只能在CHAR,VARCHAR,TEXT类型字段上使用全文索引。

什么是最左匹配原则？

如果 SQL 语句中用到了组合索引中的最左边的索引，那么这条 SQL 语句就可以利用这个组合索引去进行匹配。当遇到范围查询(>、<、between、like)就会停止匹配，后面的字段不会用到索引。

对(a,b,c)建立索引，查询条件使用 a/ab/abc 会走索引，使用 bc 不会走索引。

对(a,b,c,d)建立索引，查询条件为a = 1 and b = 2 and c > 3 and d = 4，那么，a,b,c三个字段能用到索引，而d就匹配不到。因为遇到了范围查询！

如下图，对(a, b) 建立索引，a 在索引树中是全局有序的，而 b 是全局无序，局部有序（当a相等时，会对b进行比较排序）。直接执行b = 2这种查询条件没有办法利用索引。

最左匹配

从局部来看，当a的值确定的时候，b是有序的。例如a = 1时，b值为1，2是有序的状态。当a=2时候，b的值为1,4也是有序状态。因此，你执行a = 1 and b = 2是a,b字段能用到索引的。而你执行a > 1 and b = 2时，a字段能用到索引，b字段用不到索引。因为a的值此时是一个范围，不是固定的，在这个范围内b值不是有序的，因此b字段用不上索引。

什么是聚集索引？

InnoDB使用表的主键构造主键索引树，同时叶子节点中存放的即为整张表的记录数据。聚集索引叶子节点的存储是逻辑上连续的，使用双向链表连接，叶子节点按照主键的顺序排序，因此对于主键的排序查找和范围查找速度比较快。

聚集索引的叶子节点就是整张表的行记录。InnoDB 主键使用的是聚簇索引。聚集索引要比非聚集索引查询效率高很多。

对于InnoDB来说，聚集索引一般是表中的主键索引，如果表中没有显示指定主键，则会选择表中的第一个不允许为NULL的唯一索引。如果没有主键也没有合适的唯一索引，那么innodb内部会生成一个隐藏的主键作为聚集索引，这个隐藏的主键长度为6个字节，它的值会随着数据的插入自增。

什么是覆盖索引？

select的数据列只用从索引中就能够取得，不需要回表进行二次查询，换句话说查询列要被所使用的索引覆盖。对于innodb表的二级索引，如果索引能覆盖到查询的列，那么就可以避免对主键索引的二次查询。

不是所有类型的索引都可以成为覆盖索引。覆盖索引要存储索引列的值，而哈希索引、全文索引不存储索引列的值，所以MySQL只能使用b+树索引做覆盖索引。

对于使用了覆盖索引的查询，在查询前面使用explain，输出的extra列会显示为using index。

比如user_like 用户点赞表，组合索引为(user_id, blog_id)，user_id和blog_id都不为null。

explain select blog_id from user_like where user_id = 13;

Extra中为Using index，查询的列被索引覆盖，并且where筛选条件符合最左前缀原则，通过索引查找就能直接找到符合条件的数据，不需要回表查询数据。

explain select user_id from user_like where blog_id = 1;

Extra中为Using where; Using index，查询的列被索引覆盖，where筛选条件不符合最左前缀原则，无法通过索引查找找到符合条件的数据，但可以通过索引扫描找到符合条件的数据，也不需要回表查询数据。

索引的设计原则？

索引列的区分度越高，索引的效果越好。比如使用性别这种区分度很低的列作为索引，效果就会很差。
尽量使用短索引，对于较长的字符串进行索引时应该指定一个较短的前缀长度，因为较小的索引涉及到的磁盘I/O较少，并且索引高速缓存中的块可以容纳更多的键值，会使得查询速度更快。
索引不是越多越好，每个索引都需要额外的物理空间，维护也需要花费时间。
利用最左前缀原则。

索引什么时候会失效？

导致索引失效的情况：

对于组合索引，不是使用组合索引最左边的字段，则不会使用索引
以%开头的like查询如%abc，无法使用索引；非%开头的like查询如abc%，相当于范围查询，会使用索引
查询条件中列类型是字符串，没有使用引号，可能会因为类型不同发生隐式转换，使索引失效
判断索引列是否不等于某个值时
对索引列进行运算
查询条件使用or连接，也会导致索引失效

什么是前缀索引？

有时需要在很长的字符列上创建索引，这会造成索引特别大且慢。使用前缀索引可以避免这个问题。

前缀索引是指对文本或者字符串的前几个字符建立索引，这样索引的长度更短，查询速度更快。

创建前缀索引的关键在于选择足够长的前缀以保证较高的索引选择性。索引选择性越高查询效率就越高，因为选择性高的索引可以让MySQL在查找时过滤掉更多的数据行。

建立前缀索引的方式：

// email列创建前缀索引ALTER TABLE table_name ADD KEY(column_name(prefix_length));

常见的存储引擎有哪些？

MySQL中常用的四种存储引擎分别是： MyISAM存储引擎、innoDB存储引擎、MEMORY存储引擎、ARCHIVE存储引擎。MySQL 5.5版本后默认的存储引擎为InnoDB。

InnoDB存储引擎

InnoDB是MySQL默认的事务型存储引擎，使用最广泛，基于聚簇索引建立的。InnoDB内部做了很多优化，如能够自动在内存中创建自适应hash索引，以加速读操作。

优点：支持事务和崩溃修复能力。InnoDB引入了行级锁和外键约束。

缺点：占用的数据空间相对较大。

适用场景：需要事务支持，并且有较高的并发读写频率。

MyISAM存储引擎

数据以紧密格式存储。对于只读数据，或者表比较小、可以容忍修复操作，可以使用MyISAM引擎。MyISAM会将表存储在两个文件中，数据文件.MYD和索引文件.MYI。

优点：访问速度快。

缺点：MyISAM不支持事务和行级锁，不支持崩溃后的安全恢复，也不支持外键。

适用场景：对事务完整性没有要求；只读的数据，或者表比较小，可以忍受修复repair操作。

MyISAM特性：

MyISAM对整张表加锁，而不是针对行。读取数据时会对需要读到的所有表加共享锁，写入时则对表加排它锁。但在读取表记录的同时，可以往表中插入新的记录（并发插入）。
对于MyISAM表，MySQL可以手动或者自动执行检查和修复操作。执行表的修复可能会导致数据丢失，而且修复操作非常慢。可以通过CHECK TABLE tablename检查表的错误，如果有错误执行REPAIR TABLE tablename进行修复。

MEMORY存储引擎

MEMORY引擎将数据全部放在内存中，访问速度较快，但是一旦系统奔溃的话，数据都会丢失。

MEMORY引擎默认使用哈希索引，将键的哈希值和指向数据行的指针保存在哈希索引中。

优点：访问速度较快。

缺点：

哈希索引数据不是按照索引值顺序存储，无法用于排序。
不支持部分索引匹配查找，因为哈希索引是使用索引列的全部内容来计算哈希值的。
只支持等值比较，不支持范围查询。
当出现哈希冲突时，存储引擎需要遍历链表中所有的行指针，逐行进行比较，直到找到符合条件的行。

ARCHIVE存储引擎

该存储引擎非常适合存储大量独立的、作为历史记录的数据。ARCHIVE提供了压缩功能，拥有高效的插入速度，但是这种引擎不支持索引，所以查询性能较差。

MyISAM和InnoDB的区别？

是否支持行级锁 : MyISAM 只有表级锁，而InnoDB 支持行级锁和表级锁，默认为行级锁。
是否支持事务和崩溃后的安全恢复： MyISAM 注重性能，每次查询具有原子性，其执行速度比InnoDB类型更快，但是不提供事务支持。而InnoDB提供事务支持，具有事务、回滚和崩溃修复能力。
是否支持外键： MyISAM不支持，而InnoDB支持。
是否支持MVCC ：MyISAM不支持，InnoDB支持。应对高并发事务，MVCC比单纯的加锁更高效。
MyISAM不支持聚集索引，InnoDB支持聚集索引。 MyISAM引擎主键索引和其他索引区别不大，叶子节点都包含索引值和行指针。innoDB引擎二级索引叶子存储的是索引值和主键值（不是行指针），这样可以减少行移动和数据页分裂时二级索引的维护工作。图片来源于网络

MVCC 实现原理？

MVCC(Multiversion concurrency control) 就是同一份数据保留多版本的一种方式，进而实现并发控制。在查询的时候，通过read view和版本链找到对应版本的数据。

作用：提升并发性能。对于高并发场景，MVCC比行级锁更有效、开销更小。

MVCC 实现原理如下：

MVCC 的实现依赖于版本链，版本链是通过表的三个隐藏字段实现。

DB_TRX_ID：当前事务id，通过事务id的大小判断事务的时间顺序。
DB_ROLL_PRT：回滚指针，指向当前行记录的上一个版本，通过这个指针将数据的多个版本连接在一起构成undo log版本链。
DB_ROLL_ID：主键，如果数据表没有主键，InnoDB会自动生成主键。

每条表记录大概是这样的：

使用事务更新行记录的时候，就会生成版本链，执行过程如下：

用排他锁锁住该行；
将该行原本的值拷贝到 undo log，作为旧版本用于回滚；
修改当前行的值，生成一个新版本，更新事务id，使回滚指针指向旧版本的记录，这样就形成一条版本链。

下面举个例子方便大家理解。

1、初始数据如下，其中DB_ROW_ID和DB_ROLL_PTR为空。

2、事务A对该行数据做了修改，将age修改为12，效果如下：

3、之后事务B也对该行记录做了修改，将age修改为8，效果如下：

4、此时undo log有两行记录，并且通过回滚指针连在一起。

接下来了解下read view的概念。

read view可以理解成对数据在每个时刻的状态拍成“照片”记录下来。这样获取某时刻的数据时就还是原来的”照片“上的数据，是不会变的。

在read view内部维护一个活跃事务链表，表示生成read view的时候还在活跃的事务。这个链表包含在创建read view之前还未提交的事务，不包含创建read view之后提交的事务。

不同隔离级别创建read view的时机不同。

read committed：每次执行select都会创建新的read_view，保证能读取到其他事务已经提交的修改。
repeatable read：在一个事务范围内，第一次select时更新这个read_view，以后不会再更新，后续所有的select都是复用之前的read_view。这样可以保证事务范围内每次读取的内容都一样，即可重复读。

read view的记录筛选方式

前提：DATA_TRX_ID 表示每个数据行的最新的事务ID；up_limit_id表示当前快照中的最先开始的事务；low_limit_id表示当前快照中的最慢开始的事务，即最后一个事务。

如果DATA_TRX_ID < up_limit_id：说明在创建read view时，修改该数据行的事务已提交，该版本的记录可被当前事务读取到。
如果DATA_TRX_ID >= low_limit_id：说明当前版本的记录的事务是在创建read view之后生成的，该版本的数据行不可以被当前事务访问。此时需要通过版本链找到上一个版本，然后重新判断该版本的记录对当前事务的可见性。
如果up_limit_id <= DATA_TRX_ID < low_limit_i：需要在活跃事务链表中查找是否存在ID为DATA_TRX_ID的值的事务。如果存在，因为在活跃事务链表中的事务是未提交的，所以该记录是不可见的。此时需要通过版本链找到上一个版本，然后重新判断该版本的可见性。如果不存在，说明事务trx_id 已经提交了，这行记录是可见的。

总结：InnoDB 的MVCC是通过 read view 和版本链实现的，版本链保存有历史版本记录，通过read view 判断当前版本的数据是否可见，如果不可见，再从版本链中找到上一个版本，继续进行判断，直到找到一个可见的版本。

快照读和当前读

表记录有两种读取方式。

快照读：读取的是快照版本。普通的SELECT就是快照读。通过MVCC来进行并发控制的，不用加锁。
当前读：读取的是最新版本。UPDATE、DELETE、INSERT、SELECT … LOCK IN SHARE MODE、SELECT … FOR UPDATE是当前读。

快照读情况下，InnoDB通过mvcc机制避免了幻读现象。而mvcc机制无法避免当前读情况下出现的幻读现象。因为当前读每次读取的都是最新数据，这时如果两次查询中间有其它事务插入数据，就会产生幻读。

下面举个例子说明下：

1、首先，user表只有两条记录，具体如下：

2、事务a和事务b同时开启事务start transaction；

3、事务a插入数据然后提交；

insert into user(user_name, user_password, user_mail, user_state) values('tyson', 'a', 'a', 0);

4、事务b执行全表的update；

update user set user_name = 'a';

5、事务b然后执行查询，查到了事务a中插入的数据。（下图左边是事务b，右边是事务a）

以上就是当前读出现的幻读现象。

那么MySQL如何实现避免幻读？

在快照读情况下，MySQL通过mvcc来避免幻读。
在当前读情况下，MySQL通过next-key来避免幻读（加行锁和间隙锁来实现的）。

next-key包括两部分：行锁和间隙锁。行锁是加在索引上的锁，间隙锁是加在索引之间的。

Serializable隔离级别也可以避免幻读，会锁住整张表，并发性极低，一般不会使用。

共享锁和排他锁

SELECT 的读取锁定主要分为两种方式：共享锁和排他锁。

select * from table where id<6 lock in share mode;--共享锁select * from table where id<6 for update;--排他锁

这两种方式主要的不同在于LOCK IN SHARE MODE多个事务同时更新同一个表单时很容易造成死锁。

申请排他锁的前提是，没有线程对该结果集的任何行数据使用排它锁或者共享锁，否则申请会受到阻塞。在进行事务操作时，MySQL会对查询结果集的每行数据添加排它锁，其他线程对这些数据的更改或删除操作会被阻塞（只能读操作），直到该语句的事务被commit语句或rollback语句结束为止。

SELECT... FOR UPDATE 使用注意事项：

for update 仅适用于Innodb，且必须在事务范围内才能生效。
根据主键进行查询，查询条件为 like或者不等于，主键字段产生表锁。
根据非索引字段进行查询，name字段产生表锁。

大表怎么优化？

某个表有近千万数据，查询比较慢，如何优化？

当MySQL单表记录数过大时，数据库的性能会明显下降，一些常见的优化措施如下：

限定数据的范围。比如：用户在查询历史信息的时候，可以控制在一个月的时间范围内；
读写分离：经典的数据库拆分方案，主库负责写，从库负责读；
通过分库分表的方式进行优化，主要有垂直拆分和水平拆分。

bin log/redo log/undo log

MySQL日志主要包括查询日志、慢查询日志、事务日志、错误日志、二进制日志等。其中比较重要的是 bin log（二进制日志）和 redo log（重做日志）和 undo log（回滚日志）。

bin log

二进制日志（bin log）是MySQL数据库级别的文件，记录对MySQL数据库执行修改的所有操作，不会记录select和show语句，主要用于恢复数据库和同步数据库。

redo log

重做日志（redo log）是Innodb引擎级别，用来记录Innodb存储引擎的事务日志，不管事务是否提交都会记录下来，用于数据恢复。当数据库发生故障，InnoDB存储引擎会使用redo log恢复到发生故障前的时刻，以此来保证数据的完整性。将参数innodb_flush_log_at_tx_commit设置为1，那么在执行commit时会将redo log同步写到磁盘。

undo log

除了记录redo log外，当进行数据修改时还会记录undo log，undo log用于数据的撤回操作，它保留了记录修改前的内容。通过undo log可以实现事务回滚，并且可以根据undo log回溯到某个特定的版本的数据，实现MVCC。

bin log和redo log有什么区别？

bin log会记录所有日志记录，包括innoDB、MyISAM等存储引擎的日志；redo log只记录innoDB自身的事务日志。
bin log只在事务提交前写入到磁盘，一个事务只写一次；而在事务进行过程，会有redo log不断写入磁盘。
binlog 是逻辑日志，记录的是SQL语句的原始逻辑；redo log 是物理日志，记录的是在某个数据页上做了什么修改。

讲一下MySQL架构？

MySQL主要分为 Server 层和存储引擎层：

Server 层：主要包括连接器、查询缓存、分析器、优化器、执行器等，所有跨存储引擎的功能都在这一层实现，比如存储过程、触发器、视图，函数等，还有一个通用的日志模块 binglog 日志模块。
存储引擎：主要负责数据的存储和读取。server 层通过api与存储引擎进行通信。

Server 层基本组件

连接器：当客户端连接 MySQL 时，server层会对其进行身份认证和权限校验。
查询缓存: 执行查询语句的时候，会先查询缓存，先校验这个 sql 是否执行过，如果有缓存这个 sql，就会直接返回给客户端，如果没有命中，就会执行后续的操作。
分析器: 没有命中缓存的话，SQL 语句就会经过分析器，主要分为两步，词法分析和语法分析，先看 SQL 语句要做什么，再检查 SQL 语句语法是否正确。
优化器：优化器对查询进行优化，包括重写查询、决定表的读写顺序以及选择合适的索引等，生成执行计划。
执行器：首先执行前会校验该用户有没有权限，如果没有权限，就会返回错误信息，如果有权限，就会根据执行计划去调用引擎的接口，返回结果。

分库分表

当单表的数据量达到1000W或100G以后，优化索引、添加从库等可能对数据库性能提升效果不明显，此时就要考虑对其进行切分了。切分的目的就在于减少数据库的负担，缩短查询的时间。

数据切分可以分为两种方式：垂直划分和水平划分。

垂直划分

垂直划分数据库是根据业务进行划分，例如购物场景，可以将库中涉及商品、订单、用户的表分别划分出成一个库，通过降低单库的大小来提高性能，但这种方式并没有解决高数据量带来的性能损耗。同样的，分表的情况就是将一个大表根据业务功能拆分成一个个子表，例如商品基本信息和商品描述，商品基本信息一般会展示在商品列表，商品描述在商品详情页，可以将商品基本信息和商品描述拆分成两张表。

图片来源于网络

优点：行记录变小，数据页可以存放更多记录，在查询时减少I/O次数。

缺点：

主键出现冗余，需要管理冗余列；
会引起表连接JOIN操作，可以通过在业务服务器上进行join来减少数据库压力；
依然存在单表数据量过大的问题。

水平划分

水平划分是根据一定规则，例如时间或id序列值等进行数据的拆分。比如根据年份来拆分不同的数据库。每个数据库结构一致，但是数据得以拆分，从而提升性能。

图片来源于网络

优点：单库（表）的数据量得以减少，提高性能；切分出的表结构相同，程序改动较少。

缺点：

分片事务一致性难以解决
跨节点join性能差，逻辑复杂
数据分片在扩容时需要迁移

什么是分区表？

分区表是一个独立的逻辑表，但是底层由多个物理子表组成。

当查询条件的数据分布在某一个分区的时候，查询引擎只会去某一个分区查询，而不是遍历整个表。在管理层面，如果需要删除某一个分区的数据，只需要删除对应的分区即可。

分区表类型

按照范围分区。

CREATE TABLE test_range_partition( id INT auto_increment, createdate DATETIME, primary key (id,createdate) ) PARTITION BY RANGE (TO_DAYS(createdate) ) ( PARTITION p202301 VALUES LESS THAN ( TO_DAYS('20230201') ), PARTITION p202302 VALUES LESS THAN ( TO_DAYS('20230301') ), PARTITION p202303 VALUES LESS THAN ( TO_DAYS('20230401') ), PARTITION p202304 VALUES LESS THAN ( TO_DAYS('20230501') ), PARTITION p202305 VALUES LESS THAN ( TO_DAYS('20230601') ), PARTITION p202306 VALUES LESS THAN ( TO_DAYS('20230701') ), PARTITION p202307 VALUES LESS THAN ( TO_DAYS('20230801') ), PARTITION p202308 VALUES LESS THAN ( TO_DAYS('20230901') ), PARTITION p202309 VALUES LESS THAN ( TO_DAYS('20231001') ), PARTITION p202310 VALUES LESS THAN ( TO_DAYS('20231101') ), PARTITION p202311 VALUES LESS THAN ( TO_DAYS('20231201') ), PARTITION p202312 VALUES LESS THAN ( TO_DAYS('20230101') ) );

在/var/lib/mysql/data/可以找到对应的数据文件，每个分区表都有一个使用#分隔命名的表文件：

-rw-r----- 1 MySQL MySQL 65 Mar 14 21:47 db.opt -rw-r----- 1 MySQL MySQL 8598 Mar 14 21:50 test_range_partition.frm -rw-r----- 1 MySQL MySQL 98304 Mar 14 21:50 test_range_partition#P#p202301.ibd -rw-r----- 1 MySQL MySQL 98304 Mar 14 21:50 test_range_partition#P#p202302.ibd -rw-r----- 1 MySQL MySQL 98304 Mar 14 21:50 test_range_partition#P#p202303.ibd...

list分区

对于List分区，分区字段必须是已知的，如果插入的字段不在分区时枚举值中，将无法插入。

create table test_list_partiotion ( id int auto_increment, data_type tinyint, primary key(id,data_type) )partition by list(data_type) ( partition p0 values in (0,1,2,3,4,5,6), partition p1 values in (7,8,9,10,11,12), partition p2 values in (13,14,15,16,17) );

hash分区

可以将数据均匀地分布到预先定义的分区中。

create table test_hash_partiotion ( id int auto_increment, create_date datetime, primary key(id,create_date) )partition by hash(year(create_date)) partitions 10;

分区的问题？

打开和锁住所有底层表的成本可能很高。当查询访问分区表时，MySQL需要打开并锁住所有的底层表，这个操作在分区过滤之前发生，所以无法通过分区过滤来降低此开销，会影响到查询速度。可以通过批量操作来降低此类开销，比如批量插入、LOAD DATA INFILE和一次删除多行数据。
维护分区的成本可能很高。例如重组分区，会先创建一个临时分区，然后将数据复制到其中，最后再删除原分区。
所有分区必须使用相同的存储引擎。

查询语句执行流程？

查询语句的执行流程如下：权限校验、查询缓存、分析器、优化器、权限校验、执行器、引擎。

举个例子，查询语句如下：

select * from user where id > 1 and name = '大彬';

首先检查权限，没有权限则返回错误；
MySQL以前会查询缓存，缓存命中则直接返回，没有则执行下一步；
词法分析和语法分析。提取表名、查询条件，检查语法是否有错误；
两种执行方案，先查 id > 1 还是 name = '大彬'，优化器根据自己的优化算法选择执行效率最好的方案；
校验权限，有权限就调用数据库引擎接口，返回引擎的执行结果。

更新语句执行过程？

更新语句执行流程如下：分析器、权限校验、执行器、引擎、redo log(prepare 状态)、binlog、redo log(commit状态)

举个例子，更新语句如下：

update user set name = '大彬' where id = 1;

先查询到 id 为1的记录，有缓存会使用缓存。
拿到查询结果，将 name 更新为大彬，然后调用引擎接口，写入更新数据，innodb 引擎将数据保存在内存中，同时记录 redo log，此时 redo log 进入 prepare 状态。
执行器收到通知后记录 binlog，然后调用引擎接口，提交 redo log 为提交状态。
更新完成。

为什么记录完 redo log，不直接提交，先进入prepare状态？

假设先写 redo log 直接提交，然后写 binlog，写完 redo log 后，机器挂了，binlog 日志没有被写入，那么机器重启后，这台机器会通过 redo log 恢复数据，但是这个时候 binlog 并没有记录该数据，后续进行机器备份的时候，就会丢失这一条数据，同时主从同步也会丢失这一条数据。

exist和in的区别？

exists 用于对外表记录做筛选。

exists 会遍历外表，将外查询表的每一行，代入内查询进行判断。当 exists 里的条件语句能够返回记录行时，条件就为真，返回外表当前记录。反之如果exists里的条件语句不能返回记录行，条件为假，则外表当前记录被丢弃。

select a.* from A awhere exists(select 1 from B b where a.id=b.id)

in 是先把后边的语句查出来放到临时表中，然后遍历临时表，将临时表的每一行，代入外查询去查找。

select * from Awhere id in(select id from B)

子查询的表大的时候，使用exists可以有效减少总的循环次数来提升速度；当外查询的表大的时候，使用IN可以有效减少对外查询表循环遍历来提升速度。

MySQL中int(10)和char(10)的区别？

int(10)中的10表示的是显示数据的长度，而char(10)表示的是存储数据的长度。

truncate、delete与drop区别？

相同点：

truncate和不带where子句的delete、以及drop都会删除表内的数据。
drop、truncate都是DDL语句（数据定义语言），执行后会自动提交。

不同点：

truncate 和 delete 只删除数据不删除表的结构；drop 语句将删除表的结构被依赖的约束、触发器、索引；
一般来说，执行速度: drop > truncate > delete。

having和where区别？

二者作用的对象不同，where子句作用于表和视图，having作用于组。
WHERE在数据分组前进行过滤，HAVING在数据分组后进行过滤。

什么是MySQL主从同步？

主从同步使得数据可以从一个数据库服务器复制到其他服务器上，在复制数据时，一个服务器充当主服务器（master），其余的服务器充当从服务器（slave）。

因为复制是异步进行的，所以从服务器不需要一直连接着主服务器，从服务器甚至可以通过拨号断断续续地连接主服务器。通过配置文件，可以指定复制所有的数据库，某个数据库，甚至是某个数据库上的某个表。

为什么要做主从同步？

读写分离，使数据库能支撑更大的并发。
在主服务器上生成实时数据，而在从服务器上分析这些数据，从而提高主服务器的性能。
数据备份，保证数据的安全。

乐观锁和悲观锁是什么？

数据库中的并发控制是确保在多个事务同时存取数据库中同一数据时不破坏事务的隔离性和统一性以及数据库的统一性。乐观锁和悲观锁是并发控制主要采用的技术手段。

悲观锁：假定会发生并发冲突，在查询完数据的时候就把事务锁起来，直到提交事务。实现方式：使用数据库中的锁机制。
乐观锁：假设不会发生并发冲突，只在提交操作时检查是否数据是否被修改过。给表增加version字段，在修改提交之前检查version与原来取到的version值是否相等，若相等，表示数据没有被修改，可以更新，否则，数据为脏数据，不能更新。实现方式：乐观锁一般使用版本号机制或CAS算法实现。

用过processlist吗？

show processlist 或 show full processlist 可以查看当前 MySQL 是否有压力，正在运行的sql，有没有慢 SQL 正在执行。返回参数如下：

id - 线程ID，可以用：kill id; 杀死一个线程，很有用
db - 数据库
user - 用户
host - 连库的主机IP
command - 当前执行的命令，比如最常见的：Sleep，Query，Connect 等
time - 消耗时间，单位秒，很有用
state - 执行状态 sleep，线程正在等待客户端发送新的请求 query，线程正在查询或者正在将结果发送到客户端 Sorting result，线程正在对结果集进行排序 Locked，线程正在等待锁
info - 执行的SQL语句，很有用

英语句子分析器（电商搜索系统精讲系列三步曲2）

编辑导读：在电商软件中搜索一款产品，页面中会出现很多相关产品的展示。这些页面是如何展示呢？为什么会这样展示？本文作者以电商产品为例，对其页面排序系统进行分析，希望对你有帮助。

01 排序的场景模型

上篇文章我们针对一个电商搜索系统的业务以及召回分析器和模型的分析，比如当用户在淘宝APP搜索框中输入搜索关键词“2023年新款花式促销女士连衣裙”，搜索系统会通过分析器和各种模型来理解用户的搜索意图，进而达到召回商品的目的（这块的原型将在“电商搜索系统精讲系列三步曲”的下篇会push给大家）；

那么思考一个问题，用户搜索“2023年新款花式促销女士连衣裙”之后，页面怎么展示，为什么会这么展示？依据是什么，如下图？

这个就是我们今天要去讲的内容，往下看：

在分析这块的内容之前，同样，我依然举现实生活中的场景模型：

某公司产品总监A需要招聘具有丰富教育中台行业经验的产品经理，在BOSS直聘的岗位描述JD（Job Description）增加了要具备教育中台行业的经验的招聘要求，于是有以下求职者去面试：

应聘者B：有教育行业经验，但无中台产品建设经验；
应聘者C：有教育行业经验，但工作年限比较短，不够丰富；
应聘者D：有中台产品建设经验，但无教育行业经验；
应聘者E：有丰富的教育中台行业经验，但是之前做的是解决方案，并非产品经理岗；

那么现在，假设你作为该公司的产品总监，你该怎么选？先不要看下面，先思考；

答案其实也很简单，你一定是挑选一个适合该岗位要求的吧，那么什么才叫适合，评判的依据是什么？你作为产品总监究竟怎么对这四个求职者进行评估？

现在有些大公司采购了线上招聘系统，人力资源HR和产品总监把对这四位求职者的面试结论以文字的方式直接录入到这个招聘系统，系统就会给出一个建议分，这个建议分值提供给产品总监和HR人员进行决策评估和参考，当然没有这个线上招聘系统也没关系，最土的办法就是下面这种，用手填写面试评估表，用手打分，只不过这种方式的打分更多带有主观色彩。

所以最后的结论就是对每个求职者进行打分，然后通过打分来对B、C、D、E四名求职者进行排序，排序第一、第二、第三及第四，最后择优录用；

好，上面说的是招聘的工作，想一想，我们每年高考录取是不是也是这种方式来进行择优录取，同样的场景模型，我们尝试搬迁到线上，应用在召回商品的排序上，接着看：

那么问题来了，同样的场景模型搬迁到线上，就会涉及到对召回的商品打分怎么打的问题，这个是核心，人类有大脑可以用于主观判断，但电脑没有眼睛没有感官系统，没法等同于人类那样去思考，所以我们需要做的就是给他输入一系列的打分规则，电脑就能打分，就能对召回的商品进行排序，从而实现我们的目标，接下来我们看排序的策略；

02 排序策略

大家回想之前浙江卫视的中国好声音节目，那些在电视荧幕上看到的唱歌选手也一定是提前开始海选，然后逐层选拔通过才会参加电视上的唱歌比赛吧，如果没有海选这个环节呢，每个人只要报名都可以直接在电视上唱那么一曲，那岂不是要把浙江卫视那些工作人员累死，所以选手是通过海选，逐层比赛，一关一关的通过，最后挑选出表现优秀的前100名参与电视上的唱歌比赛；

我们采用同样的套路，召回的商品（因为这个量级也是非常巨大的）先海选，再去精选，业内很多人称海选为粗选，所以召回的商品先要进行粗选，通过粗选把可能满足用户意图并且是相对优质的商品（比如有一万个）全部筛选出来，再去优化（一万个召回的商品精选排序）这个选择的结果，最后把选出来的前1000（只是假设）个商品进行排序展示给用户；

搜索引擎本身对于检索性能要求比较高，所以需要采用上面说的两个阶段排序过程：粗排和精排。粗排就是上面说的海选，从检索结果中快速找到优质的商品，取出TOP N个结果再按照精排进行打分，最终返回最优的结果给用户。所以一般在搜索系统中，粗排对性能影响比较大，精排对最终排序效果影响比较大，因此，粗排要求尽量简单有效，只提取数据库表中的关键因子（字段）即可，关键的问题在于打分怎么打，下面将给大家介绍常见的打分策略：

我们首先引入一个新的概念—-表达式计算法

所谓表达式计算法：通俗的讲，就是通过不同的计算公式来运算每个被召回的产品和用户意图的相关度，这个相关度某种意义上讲就是打的分数，业内普遍称这个过程为相关算分，一般常见的计算公式比如基本运算（算术运算、关系运算、逻辑运算、位运算、条件运算）、数学函数和排序特征（feature）等。

基本运算：

数学函数：

以上两个函数比较简单，高等数学里面都有的内容，这里不再细说，下面来看下上面提到的粗排常用的几个函数（以下为天猫搜索为例）：

关键词相似文本分Text similarity函数：用于计算用户输入的关键词文本与召回的商品相关度，值越大，则相关度越高；

召回商品距离现在的时间GoodsTime函数：用于计算召回的商品距离现在的时间，一般取值为（0，1）之间，一般值越大，表商品距离现在时间越近，越容易被展示在用户的界面；

类目预测函数CategoryPredic：用于计算用户输入的关键词与商品类目的相关度，关于类目预测这里需要仔细说明下：

所谓类目预测，指的是通过计算机的算法去预测搜索的关键词与商品

类目的相关程度，我们举个例子，当用户在淘宝APP搜索框中输入关键词“苹果”，则类目预测会计算商品所属类目与输入的苹果这个关键词的相关度，类目与关键词的相关度越高，商品就获得了越高的排序得分，也就是上文说到的相关算分值就越高，从而这个商品就会排在越前面，借助下面这两张图，就更好理解了：

第一张图：搜索的关键字是“苹果”，既有手机类的商品也有食物类的商品，左图就是典型的没有使用类目预测模型来打分，所以把食物类的苹果也召回并且优先排序在前面，右图是使用后类目预测模型后的打分排序效果；

所以我们在做产品原型设计的时候也要考虑搜索的关键词与商品类目的相关程度，需要在原型的设计里面增加类目预测的模型的设计；

再来回过头看，我前面讲的，排序首选要进行海选也就是粗排，再针对粗排后的商品结果进行精排，粗排已经讲了，精排怎么排？

同样是要通过函数去计算搜索的关键词与商品的相关度，常见的函数有：

文本相关度函数：

text_relevance: 关键词在字段上的商品匹配度
field_match_ratio：获取某字段上与查询词匹配的分词词组个数与该字段总词组个数的比值
query_match_ratio：获取查询词中（在某个字段上）命中词组个数与总词组个数的比值
fieldterm_proximity: 用来表示关键词分词词组在字段上的紧密程度
field_length：获取某个字段上的分词词组个数
query_term_count: 返回查询词分词后词组个数
query_term_match_count：获取查询词中（在某个字段上）命中文档的词组个数
field_term_match_count：获取文档中某个字段与查询词匹配的词组个数
query_min_slide_window：查询词在某个字段上命中的分词词组个数与该词组在字段上最小窗口的比值

地理位置相关性：

distance: 获取两个点之间的球面距离。一般用于LBS的距离计算。
gauss_decay，使用高斯函数，根据数值和给定的起始点之间的距离，计算其衰减程度
linear_decay，使用线性函数，根据数值和给定的起始点之间的距离，计算其衰减程度
exp_decay，使用指数函数，根据数值和给定的起始点之间的距离，计算其衰减程度

时效性：

timeliness: 时效分，用于衡量商品的新旧程度，单位为秒
timeliness_ms: 时效分，用于衡量商品的新旧程度，单位为毫秒

算法相关性：

category_score：类目预测函数，返回参数中指定的类目字段与类目预测query的类目匹配分
popularity：人气分，用于衡量物品的受欢迎程度

功能性：

tag_match: 用于对查询语句和商品做标签匹配，使用匹配结果对商品进行算分加权
first_phase_score：获取粗排表达式最终计算分值
kvpairs_value: 获取查询串中kvpairs子句中指定字段的值
normalize：归一化函数，根据不同的算分将数值归一化至[0, 1]
in/notin : 判断字段值是否（不）在指定列表中

以上函数大家不用去研究细节，看看函数的中文解释就好，帮助理解和消化，知道精排的算分怎么统计、哪些维度去统计即可，如果依然不理解的，可以跟我一起交流；

说到现在大家一定很好奇，为什么用户最关心的商品热度没有提到，不着急不着急，接下来，我们就要针对搜索热度比较高的商品一般怎么排序，引入一个新的概念—–人气模型；

上面说的类目预测模型是要实时去计算，而人气模型可以在离线的时候进行计算，一般也叫离线计算模型，这种模型也是淘宝和天猫搜索最基础的排序算法模型。

人气模型会计算量化出每个商品的静态质量以及受欢迎的程度的值，这个值称之为商品人气分，最开始人气模型是来自淘宝的搜索业务，但其实这个模型对于其他的搜索场景也有很强的通用性，在非商品搜索场景中通过人气模型也可以计算出被索引的商品的受欢迎程度，比如某个论坛，可以通过人气模型排序搜索比较多的帖子，把这些帖子内容优先展示给用户；

那么对于一个商品而言，这个人气模型究竟怎么计算，毕竟系统的目标是通过这个模型来计算商品的热度，进而打分排序，你说对吧；

一般情况下，人气模型从四个维度去计算分值，具体如下：

第一个维度：实体维度；

比如：商品、品牌、商家、类目等。

第二个维度：时间维度；

比如：1天、3天、7天、14天、30天等。

第三个维度：行为维度；

第四个维度：统计维度；

每个特征从以上4个维度中各取一到两个进行组合，再从历史数据中统计该组合特征最终的特征值：

比如：

商品（实体）最近1天（时间）的曝光（行为）量（统计指标）；
商品所在店铺（实体）最近30天（时间）的销量（行为类型+统计维度）等等。

由以上方法产生的结果数量级，等同于去计算4个维度的笛卡尔积，再对笛卡尔积的算分高低进行排序；

好了，说到现在关于召回的商品排序所采用的算法目前我所了解的就这么多，当然能力有限，有些搜索的细节依然需要进一步去摸索；

03 召回与排序总结

我们来对上一篇文章和今天讲的内容简单的做个总结，当用户在淘宝APP搜索框中输入“2023年新款花式促销女士连衣裙”时，搜索引擎系统首先要去理解用户的意图，理解的方式就是上篇文章提到的分析器，通过对语义的理解、命名实体识别、拼写纠错、停止词模型等手段去理解用户的意图，进而通过这个意图计算机去到后台数据库中检索符合意图的所有商品，当商品被检索出来之后，搜索引擎系统首先要通过各类函数和模型对商品进行粗排，再对粗排的结果进行精排，精排的依据就是上面的函数和模型，当然还有类目预测模型和人气模型，这个就是大概的流程；

依然没有结束，首先来看下面这张图：

想一想，上面左图中的热搜底纹和热搜列表是怎么来的、右图中的下拉提示又是这么出现的？这个就是原计划需要在今天跟大家讲的引导排序内容；

04 预告

题图来自Pexels，基于CC0协议

赞美深圳的句子（深圳）

图片来自网络

（我是@法语朱老师，从1993年开始坚持写作。如果你喜欢我的文字，欢迎你点赞、转发、留言，非常感谢！）

第六十六篇：景田南：被拆掉的菜市场

楼下，那个五六年间与我戚戚相关的菜市场一夜之内就被拆得干干净净。

每天早上那川流不息的买菜阿公阿婆、我每隔比较长时间去买菜时总会问我“怎么好久不见你了？”的我不认识但又那么熟悉的卖菜女人、市场门口那一排精明而麻利的潮汕水果贩子们、追着问我“姜花三块钱一把要不要？”的卖花阿婆、总在中午时分趴在椅子上睡觉的痩长脸的卖花女人、穿得整整齐齐态度可亲的浙江修鞋师傅、在阳光下透明玻璃缸里费力而绝望爬行的小乌龟们全部不见了。

如此粗暴又没有预兆，一个我所熟悉并依赖的生态圈被连根拨掉了，以食物链的方式环环扣在这个生态圈里的所有微生物们，细菌们，小动物们，素食者和肉食者们全部消失了。

一夜之内，楼下的菜市场变成了废墟。

这些卖菜、卖水果、卖花、改衣服、修鞋子的小贩们将去哪里继续谋生？在感叹买菜变得非常不方便的同时，我在考虑这个问题。

几天之后，菜市场外圈那层没有被拆掉的翠绿色围墙上出现了一张张小纸片：五颜六色，大小不一。有的用歪歪扭扭的手写体，上面是文法不通的语句，有的是红底黄字的打印字体，上面写的全部是一样的内容：原来菜市场里的香烛店、卖花小摊、改衣服的小店、市场门口的士多店、卤肉店......分别搬到了哪里，这些摊主们的电话号码，有的还附上一个比例经不起推敲的简略示意草图。

每天，那面墙上的纸片都在增加，它们东一张西一片地粘在绿墙上，就象北大曾经的三角地里张贴不断的告示。

每次路过，我都会看一看那面变化不停的墙。它就象一个BBS张贴板，让那些突然被抽去了谋生之地无计可施的小商贩们，从海水下冒出头来，艰难地告诉人们他们现在新的定位。

看着那些层层叠叠的纸片，我几乎可以听到一丛丛呼喊声，每一张小纸片都是一个希望被注意、被想起、被再次光顾的小商贩，纸片背后是他本人，或者他的全家沉重的喘息声。

那么大一个菜市场莫名其妙被拆了，那片废墟一直堆在那里，它似乎被管理者忘记了。

据说新的市场重新装修后会光彩堂皇，但是它的落成是那么遥遥无期，而老菜市场里的小贩们却每天都要生活。

于是，那面绿色墙上的小纸片在日复一日地丰富着，叠加着，沉重着。

(写于2023年4月8日)

第六十七篇：景田南：两条被遗弃的狗

我看到那条大黑狗有一些日子了，它活动的范围总是围绕着那栋经常停着林宝坚尼和法拉利跑车的豪华住宅楼。

第一次看到它的时候，它卧在那栋豪宅楼前大片的草地上，它高高地昂着头，皮毛油黑水亮，看上去骄傲而倔强。

但我知道这条狗被遗弃了，因为它周围没有一个人，很长时间，它都一直孤独地卧在那里，但是脑袋一直对着那栋大楼。难道，它曾经的主人住在这里？

后来，我看到那条大黑狗无数次，它越来越瘦，毛色正在一点点黯淡。我每次见到它都是或卧或跑在那栋大楼的周围。永远守在那一片的大黑狗在等待什么？真的在等着主人良心发现再把它领回去吗？这么大一条狗每天靠什么填饱肚子？

那天晚上下课后，我无意中看到那栋豪宅前一个女人丢了一个饭盒给那条黑狗，它迟疑地走上前，在饭盒里拱着不知什么吃食。

夜色深浓，我看不到它的眼神，但我知道，此时此刻，它绝不会再有那一次卧在草地上的骄傲和倔强了。

两天前，下着粗粗拉拉的雨，我走到那栋楼前的时候，又看到了那条大黑狗，它的毛脏脏的，被雨淋得极其丑陋。

它在雨中快快地跑着，还是在那栋楼前面的红色甬道上。让我惊讶的是这一次它的身后跟了一只白色小小京叭，脏脏的毛皮，落魄而仓皇。

那只小白狗紧紧地跟着大黑狗，两个一黑一白的身影渐渐消失在雨幕里，那一刻，我为大黑狗高兴，它身边多了一只小狗陪着了。它们都是被主人遗弃的。那只小京叭像跟着主人一样，极其崇拜地跟着它。

今天晚上，我下课回来，路过那栋豪宅时，突然发现红色的甬道上一白一黑两个影子。影子分列一条路的两端，静静地平行地趴着，中间留出给行人走路的地方。

大黑狗正在打盹，小京叭茫然地抬着脑袋看着走近的我。我忽然想起今年晚上学生送了我一大袋刚刚从南山荔枝园摘的荔枝，曾记得一个朋友说她家的狗最爱吃荔枝。

于是，我剥了一只大而肥白的糯米糍放在小京叭的脚下，它闻了闻，没有动。那只大黑狗醒了，它警惕地看着我，也闻了闻那颗荔枝，没有吃。我有些沮丧，本来以为它们会喜欢。

小京叭讨好地为大黑狗舔着屁股上的毛，黑狗从头到尾一动不动地站在那里，冷冷地看着我。

我看了这两条在不同时间被遗弃后又相依为命的狗，大黑狗冷冷的眼神和小京叭迷惘的眼睛让我很难过。

我在两条狗面前站了很久，走了。因为放心不下，我时不时回过头，每一次都看到两条狗依然站在原来的地方看着我，一动不动。

路灯下，它们几乎变成了桔黄色。周围空荡荡，只有刚下过雨的清湿水气，我突然想，今天晚上，如果还下很大的雨，它们可以躲到哪里去？

（写于2023年7月2日）

第六十八篇：北环天桥上卖菠萝的小伙子

我每次路过北环路上的人行天桥时总可以看到他：一个黑瘦留着小平头的小伙子，他总喜欢穿一件黑色T恤。不论我什么时候看到他，他总坐在桥下卖力地削着菠萝，不同的只是他身边黑色垃圾袋里菠萝皮的数量，时多，时少。

他削好菠萝后把它们切成小块，底部扎入一根细木签子，一块钱一只菠萝。他的生意很清淡，我每次见他时，很少看到有顾客在买菠萝，但他勤勤恳恳埋头削菠萝的样子让我牢牢记住了他，这样的画面可能出现在小雨如丝的午后、炎热漫长的黄昏或者冷寂的深秋夜晚。

我没有买过他的菠萝，没有和他说过一句话，不知道他叫什么名字，但我只要路过北环路的人行天桥，总有意无意寻找他。他和那座天桥以及天桥上无数寄居的小商贩们仿佛是一体的，只要桥在，他就会在那里，安静而隐忍地劳作着，很辛苦地挣着一点点钱。

过了大半年，他的境况显然好一些了，他不再卖菠萝，而有了一辆半旧的架子车，车上的水果增加到四五种：小西红柿、木瓜、桔子还有金灿灿的玉米。他不再坐在桥下削菠萝，而把车推到了桥面上，站在一上桥的位置，笑呵呵地招呼着来来往往的人。

“大姐，买只木瓜吧？十块钱四个！”

“阿叔，你看这玉米多靓，买两个吧？”

“今天的小西红柿特便宜，买一些吧，有营养又美容！”

慢慢的，他的生意好一些了，我经常看到他被几个顾客围着，忙碌着称水果和收钱。我暗暗为他高兴，希望他的架子车换成一辆更新的，希望他的水果品种更多一些，希望他挣到更多钱。

他的架子车和几个新疆人卖馕的摊子紧挨着，大部分时间，他们都各忙各的，彼此不说话，那天晚上，我走过天桥时，桥上其他小贩们都打道回府了，只剩下正在收摊的几个新疆人和仍然守着摊子的他。

这个小伙子和他们大声说笑着，他们彼此开着善意的玩笑，哈哈笑个不停。此时，天桥上空空荡荡，忙碌了一天的他们不再想着各自的生意，一群来自和田的新疆人和这个南方口音的小伙子快乐地在深夜的天桥上玩闹嬉戏着。穿过他们笑声的我，有种非常奇妙的感觉，我发现，其实人和人可以离得很近。

那些新疆人收摊了，小伙子还留在天桥上，孤零零地坐在一盏微弱的小荧光灯下，满怀希望地等着下一个顾客，他每天都是北环天桥上二十几个商贩里收摊最晚的一个。

那些日子，每天晚上，我给中广核的工程师们上法语课。每次下课后，总要穿过这座天桥再回家，晚上九点多的天桥上空空如也，但我总能看到这个卖菠萝的小伙子，静静地坐在架子车旁，守着还没有卖完的西红柿、木瓜和桔子，沉默耐心地等待着。

我每次总会回头看看他，他的身影在冷雾般的灯光里显得格外瘦小无力，我心中总会隐隐一疼，我很想对他说：“太晚了，早点回家吧。”但我终究什么也没说。

广核为期三个月的法语培训结束，我再也不用每天晚上穿越北环大道上的人行天桥回家了，我于是没有机会看到这个小伙子，我永远不会知道每天他到底几点钟才收摊。

我只是希望，这个安静、隐忍而努力的小伙子，他的架子车很快就会换成更大更好的。

(写于2023年3月18日)

第六十九篇：地铁里的T台秀

自由职业的我每天移动的空间非常简单：房间，地铁，培训班的教室。

一号线长长的地铁是我与最多人群接触的机会，它就像一串旋转不停的万花筒，让我每天可以看到那么多丰富的脸孔和他们的衣服。

地铁车厢里或者地铁通道里永远有一些人穿着另类，表情孤绝。站在车厢里，或者走在长长的通道里，我就象穿行在一场永不谢幕的T台秀里。这里有沙漠王子、朋克歌手、热辣少女、闺中怨妇、阳光男孩......

在地铁里，我才知道现在流行什么，知道了那双看不见的手：时尚和潮流如何深刻地影响着人们的穿着，让那么多人在同一时间穿着差不多风格的衣服、差不多感觉的款式。

以前很少看到男人的衬衫用印花或者提花面料做成，今年看到越来越多男人穿着有不对称印花花形的衬衫。那些图案有时出现在肩部，有时出现在下摆。

这世上的衣服越来越中性，以前只出现在女人身上的面料现在也大模大样地被穿在男人身上。气质非常阳光的男孩穿这样的衬衫会很好看，有种海派和都市气。

记得几年前，那家著名的法国时尚发布机构对我们进行潮流发布时就预测，马上会流行“系带”的细部处理。随后那一年，我们推出的产品就是以“系带”为主题的。

没想到，今年，我才看到系带的细部大规模地出现在服装上。它经常出现在女人的裤脚，长长的带子嘟嘟噜噜地吊着，让我觉得窝窝囊囊的，我不喜欢这样的处理。

有时，系带出现在妇人T恤的后背，一根根的带子以系鞋带的章法绕过来绕过去，透出里面白细醒目的皮肤。这样的处理让后背性感了很多，但遗憾的是，太多女人不知道这样面积透出皮肤的T恤如何和文胸进行很好的搭配，一件性感的T恤，却经常露出白色的文胸后背带，太煞风景。

今年的衣服还突出有撕裂的细部，经常看到一些女人穿着被撕得象是刚被豹子袭击过的小上衣，这里或者那里的破碎处露出让人心惊胆颤的雪白的肉。

这种细部的处理很难把握一个度，如果处理得好，会显得风情万种；如果使用得面积过多，就会容易让人联想起情色。

灯笼裤的形状非常流行，它短短的，到膝盖以上，底下收口部分进行圆浑的处理，整个形状象一只圆圆的大辣椒。但穿这种灯笼裤对人的身材非常挑剔，最好是身材颀长，玉腿笔直的女人。如果一个低个子粗腿的女人穿着这们的款式，那么她整个人就像一只大辣椒了。

至于面料，不明白为什么，花边和刺绣成了流行的新宠。我看到过一个女孩子，从头到脚被花边覆盖了，她穿着黑色花边做成的小衣服，背着用一层一层的花边装饰的小布包，脚上登着镶着花边拼花的小鞋子。

我在心里把这个女孩子称为“花边姑娘。”非常巨大的水溶刺绣经常出现在女人小T恤的背部中间，但还是和“系带”的细部一样，很多人没有相宜的文胸搭配，使这样的细部的美感大打折扣。

从去年开始，女孩子很喜欢背巨大的圆乎乎的背包，它们多是棉布或者帆布质感，上面有很多夸张或者卡通的图案。

我喜欢看一个身材娇小的女孩子背着一只巨大的几乎与她上身一样长的大背包款款而过。以前听人说，喜欢背大包的女人没有安全感，不知道是真是假？

我似乎有阅读T恤衫文字的强迫症，只要我看到一个人的T恤上有很多的字母，我就一定想搞清楚写的是什么。

有些人在胸口宣称一定要热爱世界和平，有些人背部写着大大的泰国，告诉我他一定是去那地方玩过了。有些人的T恤上仿佛心理医生的处方一样详细写着如何保持内心宁静，要微笑深呼吸加上LET IT BE。

有一个胖胖的女人胸口写着“限速45公里”，一个小孩子背的包上写着法语：这个背包是我的。还有一个女孩子穿着印着大大“自私”英文的T恤衫欢笑而过。

今天，我走出地铁时，看到一个高高个子的男人慢悠悠地从我身边走过，他的穿着让我眼前一亮：雪白的长袖T恤，外面套着翠绿的短袖T恤，银灰色的体闲裤，最妙的是他背的包，一只大红的方形水滑滑质感的包，这样一点红与他那件醒目的T恤的撞色是如此大胆又如此巧妙。

我走过他身边，再回头，他戴着一款很有太空流畅线条的太阳镜，头上是有LV专有图案的深褐色帽子。

他就那样慢条斯理地走了过去，一个如此会穿着懂得搭配的的男人，让我身后一层层嘈杂的声音忽然远去。

（写于2023年7月14日）

（待续）

（图片来自网络）

（我是@法语朱老师，从1993年开始坚持写作。如果你喜欢我的文字，欢迎你点赞、转发、留言，非常感谢！）

---------------------

学法语必看的公众号：微型法语课堂

喜马拉雅：微型法语课堂

知乎：法语朱老师

今日头条：法语朱老师

小红书：法语朱老师

用仔细造句子（期末重点）

连词成句

第一步看清标点符号

首先应该看清楚，这句子是问句还是陈述句？判断句子是问句还是陈述句，要看它所给的符号，是问号还是句号，在题目中一定会加以提示的，例如1. name what's your (?)（问句）2. school this my is (.) (陈述句)

第二步如果是陈述句

如果要求连陈述句，我们可以采用以下方法：（1）陈述句的基本结构就是主语+谓语+宾语而构成的。所以，首先找到人称代词（you, he, she, it, we,they)或者指示代词(this,that,these,those)等，或者名词，把这些词放在句首（2）第二部分要找到动词，这些动词一般是：Be(am,is, are),或实意动词后（3）时间地点居最后，地点在前，时间在后例如2：have a car toy I (.)第一步是找到主语。第二步就是找谓语动词（谓语动词有be动词和实意动词等）。题目中唯一的动词就是第一个单词have（有/拥有）。答案：I have a toy car .

第三步如果是疑问句

如果是问句，我们可以采用以下方法：先看是特殊疑问句还是由be动词或情态动词引导的疑问句。①如果有where 、 what、 how等疑问词，那么它就是特殊疑问句，就要把疑问词where 、 what、 how 等放在一句话的最前面，它后面紧接的是be动词也就是我们学习过的am、 is、 are。eg：it is what (?)What is it?②如果题目中有can、 may、shall、would等情态动词，那么它就是由情态动词引导的疑问句。那么我们就要把情态动词放在句子的最前面，后面紧接的就是这句话的主语（主语往往是人或者物）。例如：have I a may new bike (?)(这道题目中有一个情态动词may，很显然这就是由情态动词may引导的疑问句。很快我们就能写出这句话的前半部分“May I have …”)答案：May I have a new bike ?③如果题目中没有任何的特殊疑问词，也没有任何情态动词，那么它就是我们最最熟悉的一般疑问句了。一般疑问句的基本准则就是疑问词是be动词（am /is /are），而且要把它们放在句子的最前面，紧接其后的是主语，其他成分也就容易补上去了。例如：you a are student(?)Are you a student?

第四步检查纠错

1.注意句子是否完整排练好后，仔细多读几遍，看看句子是否通顺。2.注意字母的大小写句子开头首字母要大写，应该是不断提及的话题。在英语中经常需要的大写的有每句话的开头字母、人名、专有名词等。

专题练习及答案

1.did, where, come, uncle, from, your (?) 2.like, you, do, fish (?)3.have, at, I, dinner,thirty, seven(.) 4.are,Beijing,tomorrow,going,to, we, to, go (.) 5.capital,London,England,of,the,is,the (.)6.oranges,how,many,want,you,do(?)7.go,bike,to,by,I,school (.)8.do,what,does mother,your (?)9. I, many, on, saw, leaves, the, street (.)10.going, tomorrow, swimming, are, to, you, go (?)11.favourite,pineapple,my,fruit,is (.)12.are,they,nurses (.)13.do,want,which,you,one (?)14.birds,singing,trees,in,the,are,the (.)15.last, I, some, night, read, books (.)

做完再对答案哦

Where did your uncle come from?

Do you like fish?

I have dinner at seven thirty.

We are going to go to Beijing tomorrow.

The capital of England is the London.

How many oranges do you want？

I go to school by bike.

What does your mother do?

I saw many leaves on the street.

Are you going to go swimming tomorrow?

My favourite fruit is pineapple.

They are nurses.

Which one do you want ?

The birds are singing in the trees.

I read some books last night.

小升初英语专项练习之连词成句通用版

1. yesterday you go Did fishing ?

2. the is Where post office ?

3. I get How to can the hospital ?

4. school I go to often car in mother's my

5. reading are some They books .

6. was There library my in old no school .

7. works at He university a .

8. holiday Where did go you your over ?

9. I you am than older.

10. four are people There in family my

11. many are How there a months in year ?

12. nice There a picture is wall on the

13. is your What hobby ?

14. live Does in the he country ?

15. evening W hat are going you do to this ?

16. you Is the in post front office of?

17. What is picture nice a that !

18. Lovely Is a girl she ?

19. English They night read last .

20. rises The in the sun east .

21. is, the, how, weather (?)

22. Let's, e-mail, Jack, to, send, an (.

23. yesterday, where, they, did, go (?

24. uncle, Does, work, your, in, factory, that (?)

25. mother, works, my, a, in, shop, clothes (.)

26. his, favourite, March, month, is (.)

27. you, what, wrong， is， with (?)

以上内容是关于英语句子结构在线分析器和免费的英语句子分析器的内容，小编幸苦为你编辑整理，喜欢的请点赞收藏把。

标签：免费的英语句子分析器、

标题：英语句子结构在线分析器免费的英语句子分析器

链接：http://m.zhaichaow.cn/z/1617837.html

英语句子结构在线分析器 免费的英语句子分析器