0%

1、背景

已经在支付宝上买了一段时间的基金,也学习了一些基础知识。准备找一家券商开一个股票交易账号,发现在APP或者官网上选择开户时,页面最重要的信息就是如“万2.5佣金”这样的券商佣金。而除了券商佣金这样显示的费用以外,还有其他行业默认的费用是不会在页面页面上明确告知我们的,默认我们是知道的。这篇文章主要就是整理一下投资交易中的一些收费。
PS: 文中主要参考上交所

2、股票费用

2.1、印花税

根据《中华人民共和国印花税法》规定证券印花税率为成交额的千分之一(卖方收取0.1%)

2.2、证管费

上交所代收后,上交中国证监会。收费标准:成交金额的0.002%(双向)

2.3、规费

过户费 + 经手费加一起称为规费,收费标准为合计收取成交金额的0.00687%,一般是包含在券商佣金中的。在开户的过程中,最好还是问清楚:对外宣称的万2.5中是否包含了规费,否则实际佣金比券商声称的高

2.3.1、过户费

根据中国结算规定,自2022年11月17起,上交所对A股交易按成交额0.001%向买卖双方收取过户费

2.3.2、经手费

上交所收取,收费标准:成交金额的0.00487%(双向)

2.4、佣金

最高不超过成交金额的0.3%,最低5元起,单笔交易佣金不满5元按5元收取,买卖都收,由证券公司收取。一般收费线下 > 线上 > 客户经理,线上即一些app或官网首页提供的开户渠道,默认是万2.5。如果能够联系到客户经理,最低能够万1,主要看客户经理对你的评级和关系,通常万1~万1.5之间

3、两融

即融资利率与融资利率。可以理解为:加杠杆时向券商借钱的利率,暂时不涉及

4、基金费用

参考东方财富网的文章

参考链接

股票交易费用
费用表格

背景

目标

快消的业务方提出了需求:希望能够通过电商平台的宝贝标题文本数据,挖掘不同商家推出的新的概念或者以此发现一些新的概念,如护肤概念的早c晚a

业务->技术

  • 交付
    概念呈现的方式是词。而新就包含了时间的概念,必须要指定“新”这个概念开始的时间
  • 数据
    形如“雅诗兰黛第七代小棕瓶精华面部精华淡纹修护律波肽收缩毛孔”。发现相对于传统的中文数据,宝贝标题数据有以下特点:1)不存在主谓宾等语法限制,是多个词块的直接拼接;2)包含品牌、系列、产品、成分、功效等

因此,一般的ner方法是用不了了,因为假设我们现在标注了“早c晚a”为新词,而可能2个月后大家都在说,那么“早c晚a”也就不新了。关键词抽取就更不谈了,关键≠新。因此,比较合适的方法就是将文本中的词都找出来,然后将当前时间段的结果,减去已有的词,留下的即为新词

技术

新词发现

使用新词发现技术的人,最绕不开的就是这篇博客《互联网时代的社会语言学:基于SNS的文本数据挖掘》。在这篇博客中,原博作者从统计学角度去描述一个词:词内部的字符搭配较为固定,而词的头和尾与外部的字符搭配较为多样。具体的例子就是,在快消领域中当我们看到“烟酰”时,我们的第一反应会是“烟酰胺”,除此以外我们很少能想到其他的组合。而看到“烟酰胺”时,我们却很难判断前后是什么词,可能是“含烟酰胺”,“涂烟酰胺”,“用烟酰胺”等等很多不同的组合。而这种“很少”与“很多”就可以通过语料统计出来,这两种特征原博作者分别称之为“凝固度”和“自由度”

  • 凝固度
    $$
    min(\frac{p(abc)}{p(a)p(bc)},\frac{p(abc)}{p(ab)p(c)})
    $$
    n-gram就对比n-1种切分方式。当词的长度超过2时,就有不同的切分,同时考虑多种切分是为了避免,错误的切分方式高估了词的凝固度。如“的电影”,其中p(的)是非常大的

  • 自由度
    $$
    min(EL, ER)\
    $$
    其中:

    • $EL = Entropy_{left}(string) = \sum_{w_{i}\in{W_{m}}}p(w_{i}|string)log_{e}p(w_{i}|string)$
    • $ER = Entropy_{left}(string) = \sum_{w_{i}\in{W_{n}}}p(w_{i}|string)log_{e}p(w_{i}|string)$

    即词与外界的搭配,可以看到词有左边界与右边界,因此存在左邻字集合与右邻字集合。我们使用信息熵来衡量一个文本片段与外部的搭配有多么随机

回溯

苏神在其博客中中文分词系列,提出:分词就是在相关性较弱的字符处,将文本截断,因而从切词的角度实现新词发现。只是之前的方法都只考虑了相邻2grams的相关性,而升级后的算法同时考虑了多字内部的凝固度(词在任一位置的相关性都是较强的)。从公式上来看依旧是:$min(\frac{p(abc)}{p(a)p(bc)},\frac{p(abc)}{p(ab)p(c)})$,但实现方式如下:

  1. 选取固定的n,在语料上统计2grams、3grams、…、ngrams,计算内部凝固度,保留大于阈值的结果,构成集合$G$。一般n越大,阈值越大,博客中使用{2:5, 3:25, 4:125}。实际使用中,可以通过总体的凝固度选择分位点
  2. 切分:用上述grams对语料进行切分(粗糙的分词),并统计频率。切分的规则是,只要一个片段出现在前一步得到的集合G中,这个片段就不切分,比如“各项目”,只要“各项”和“项目”都在$G$中,这时候就算“各项目”不在$G$中,那么“各项目”还是不切分,保留下来
  3. 回溯:经过第二步,“各项目”会被切出来(因为第二步保证宁放过,不切错)。回溯就是检查,如果它是一个小于等于n字的词,那么检测它在不在$G$中,不在就出局;如果它是一个大于n字的词,那个检测它每个n字片段是不是在$G$中,只要有一个片段不在,就出局。还是以“各项目”为例,回溯就是看看,“各项目”在不在3gram中,不在的话,就得出局

原先的方法是一个阈值,判断所有ngram的可能,而回溯则是计算n-1种切分各自的凝固度,每个凝固度都与阈值的判断,且能够满足大于n个字符的检验
笔者在在快消数据中,使用该回溯算法后发现,词的粒度很大概率会被切分得很细。原因是在快消数据中,很多概念都是已有短词的组合,如“屏障修护”,我们是不希望被切分成“屏障” + “修护”的,这两个词单独出现在业务上价值较低。因此回溯方法可能更适合法律、医疗等专业名词较多的行业

工具

  • smoothnlp
    $L_{S}(EL,ER)= ln\frac{EL·e^{ER}+ER·e^{EL}}{|EL-ER|}$

  • hellonlp
    $L_{S}(EL,ER)= ln\frac{EL·e^{ER}+ER·e^{EL}}{|EL-ER|}$

  • jinNLP

下面是一些关键词抽取,在当前任务上效果不好,理由如开头所述

  • keybert + keyphrasevectorizers
    keybert使用语义相似性来优化相关性,MMR来优化多样性。keyphrasevectorizers则使用词性信息,可以通过自定义词性pattern来产生特定结果

  • UCPhrase
    使用深度学习的方式,弱监督地构造训练集,并训练二分类ner模型。原文使用社媒数据,出现相同hashtag的文本作为一个集合$S$,指定词长度n,统计该集合中出现大于2次的ngrams片段,作为正例,其余作为负例,采样构成数据集

词包分词

有了新词发现的结果后,加入已有词包对文本进行分词。对于当前任务来说,由于宝贝标题是多个关键词的直接拼接,因此词的边界是很难区分的。如“雅诗兰黛保湿水润肤乳”,正常结果是“雅诗兰黛”、“保湿水”、“润肤乳”,但是很可能会分成“保湿”、“水润”、“肤乳”,需要额外设计算法处理

想法

  • 得根据业务的需求和数据的特征进行合理的算法选择,盲目追求新技术投入产出比未必高
  • 在工业界,有时数据标准化处理比算法更重要
  • 当不能简单地选择人工标注+模型时,如何无监督/弱监督地启动一个项目,并且能够后期不断地提升效果,是一个算法工程师应该在项目初期就考虑的

背景

  昨晚准备开始写第一篇正式的博客《新词发现整理》时,发现自己并没有对要写的内容很熟悉,而是将做项目时搜集的一些资料又重新打开,然后准备将这些内容“搬运”到自己的博客上。在这时,突然意识到自己曾经在知乎上搜索过“如何将知识内化”这样的问题,而大多回答的主题都是:需要建立自己的知识体系,通过思考知识之间的关联去补充、迭代自己的知识体系,做到融会贯通
  虽然平时有在使用OneNote做笔记,然而大多数只是遇到问题后,google一下,然后将链接和解决方案记录下来。这种方法对于解决bug,积累经验来说固然是非常重要的。但是,现在既然希望能够通过写博客的方式转记录为输出,以此内化知识,那还是需要作出一些改变的,即使这样的改变在最初是不适应的。

意义

  • 首先是希望能够维护自己的博客,作为积累自己知识的容器
  • 尝试“费曼学习法”,在努力将知识点梳理清楚的同时,迭代自己的知识体系
  • 多年后回顾起来有些许回忆和成就感

共勉

  你越功利,世界对你越神秘。所以希望慢一点,稳一点

Content

这是我的第一条原创博客,用来测试新建,发布

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1
$ hexo new "My New Post"

More info: Writing

Run server

1
$ hexo server

More info: Server

Generate static files

1
$ hexo generate

More info: Generating

Deploy to remote sites

1
$ hexo deploy

More info: Deployment