用Hyperspace Analogue to Language (HAL)进行短文本扩展

14 篇文章 0 订阅

HAL是什么我就不解释了,具体可以参考:http://www.zhan5zhan.com/post/6.html

1、何谓短文本

  论坛、博客、微博、聊天记录、问答,都可以认为是短文本。虽然博客、论坛也有很多长文本,但是是少数。

2、短文本难点

  1)不规范、口语化。比如各种简写、各种错字别字。

  2)语境缺失。在专业论坛,各种专有名词,就很难理解。比如暗黑3的“和尚”指代一种角色,“妈咪爱”是婴儿药物。

3、解决思路:补充语境、背景知识

    简写、错字、别字、孤立词,必须放入一个完整语境中,才能理解。如何构造一个对短文本补充的词袋,是问题的关键。

4、HAL的方法

  Hal通过找到词矩阵中,词与词之间共现次数较多的词互为补充。在上面链接中就有例子。

5、pHAL方法

  对HAL的补充,决定共现词对原词是否可以构成“解释”关系,可以有两个因素:离的近、越近表示关系越紧密;出现次数多,两者共同出现次数越多,关系越强。

  因此pHAL和HAL相比,增加了共现概率、共现距离。 

  S(wi|w) = P(wi|w) / L(wi|w) 

  这就是共现公式,当概率越大、距离越短,表明两个词之间关系越紧密。

6、下面是我找到的一些有意思的例子

  • 湘悦    12      大酒店|0.149390|0.30|2.0       北京|0.041757|0.13|3.1  北京市|0.027999|0.09|3.3       预定|0.014967|0.05|3.7  评价|0.014967|0.05|3.7  楼|0.010671|0.02|2.0    预订|0.010540|0.03|3.2         价格|0.006499|0.03|4.2  住宿|0.006499|0.03|4.2  房价|0.006499|0.03|4.2  酒店|0.003430|0.02|5.3  好|0.002217|0.01|5.5
  • 血岭狙击        7       剧情|0.071429|0.14|2.0  狙击杀手|0.047619|0.14|3.0     迅雷|0.047619|0.14|3.0  疑问|0.047619|0.14|3.0  下载|0.035714|0.14|4.0  主演|0.028571|0.14|5.0  史泰龙|0.023810|0.14|6. 0
  • 闵大联  2       医生|0.250000|0.50|2.0  苏州|0.250000|0.50|2.0
  • 中国森林病虫    2       杂志|0.250000|0.50|2.0  征稿|0.166667|0.50|3.0
  • 娜曼丝  1       家纺|0.500000|1.00|2.0
  • 海甸二路        3       陈淑芬|0.111111|0.33|3.0       中医诊所|0.083333|0.33|4.0      搬到|0.066667|0.33|5.0

    比如有人说娜曼丝,如果你不熟悉,你肯定不知道这是什么,但是后面的“家纺”说明这是一个家纺品牌。比如说“血岭狙击”,如果你不了解,你可能以为是游戏、电影、或者电视剧、也有可能是小说,实际上他是史泰龙主演的电影,经常被迅雷下载。

7、这有什么用?

    ok,这很有用,可以扩充短文本,然后用于分类、聚类、推荐系统、相似度计算、语义理解、情感分析、舆论舆情,反垃圾.....


  • 0
    点赞
  • 0
    评论
  • 0
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

相关推荐
<p style="color:#666666;"> <span style="font-size:14px;">门课程重实战,将基础知识拆解到项目里,让你在项目情境里学知识。</span> </p> <p style="color:#666666;"> <span style="font-size:14px;">这样的学习方式能让你保持兴趣、充满动力,时刻知道学的东西能在哪、能怎么。</span> </p> <p style="color:#666666;"> <span style="font-size:14px;">平时不明白的知识点,放在项目里去理解就恍然大悟了。</span> </p> <p style="color:#666666;"> <span></span> </p> <p style="color:#666666;"> <span style="font-size:14px;"> </span> </p> <p style="color:#666666;"> <span style="color:#FF0000;font-size:14px;"><strong>一、融汇贯通</strong></span> </p> <p style="color:#666666;"> <span style="font-size:14px;">视频采了前后端分离的开发模式,前端使Vue.js+Element UI实现了Web页面的呈现,后端使Python 的Django框架实现了数据访问的接口,前端通过Axios访问后端接口获得数据。在学习完章节后,真正理解前后端的各自承担的工作。</span> </p> <p style="color:#666666;"> <span style="font-size:14px;"> </span> </p> <p style="color:#666666;"> <span style="color:#FF0000;font-size:14px;"><strong>二、贴近实战</strong></span> </p> <p style="color:#666666;"> <span style="font-size:14px;">系列课程为练手项目实战:学生管理系统v4.0的开发,项目包含了如下几个内容:项目的总体介绍、基功能的演示、Vuejs的初始化、Element UI的使、在Django中实现针对数据的增删改查的接口、在Vuejs中实现前端增删改查的调、实现文件的上传、实现表格的分页、实现导出数据到Excel、实现通过Excel导入数据、实现针对表格的批量化操作等等,所有的功能都通过演示完成、贴近了实战</span> </p> <p style="color:#666666;"> <span style="font-size:14px;"> </span> </p> <p style="color:#666666;"> <span style="color:#FF0000;font-size:14px;"><strong>三、课程亮点</strong></span> </p> <p style="color:#666666;"> <span style="font-size:14px;">在案例中,最大的亮点在于前后端做了分离,真正理解前后端的各自承担的工作。前端如何和后端交互</span> </p> <p style="color:#666666;"> <span style="font-size:14px;"> </span> </p> <p style="color:#666666;"> <span style="color:#FF0000;font-size:14px;"><strong>适合人群:</strong></span> </p> <p style="color:#666666;"> <span style="font-size:14px;">1、有Python语言基础、web前端基础,想要深入学习Python Web框架的朋友;</span> </p> <p style="color:#666666;"> <span style="font-size:14px;">2、有Django基础,但是想学习企业级项目实战的朋友;</span> </p> <p style="color:#666666;"> <span style="font-size:14px;">3、有MySQL数据库基础的朋友</span> </p> <p style="color:#666666;"> <span style="font-size:14px;"> </span> </p> <p style="color:#666666;"> <span style="font-size:14px;"><img alt="" src="https://img-bss.csdnimg.cn/202009070752197496.png" /><br /> </span> </p> <p style="color:#666666;"> <span style="font-size:14px;"><br /> </span> </p>
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值