Anonymous World

迷失仙境


  • 首页

  • 标签

  • 分类

  • 归档

NER中的编码转换

发表于 2019-10-10 | 分类于 NLP
字数统计: 952

命名实体识别(NER)的作用:关系抽取、事件抽取、知识图谱(分构建和应用两个方向,构建目前人工干预还是需要很多)、问答系统、机器翻译…

通用实体分类:人名、地名、组织机构名、日期时间、专用名词

学术上的分类:

  • 三大类:实体类、时间类、数字类
  • 七小类:人名、地名、组织机构名、时间、日期、货币、百分比

相关算法

早期:基于字典,基于规则

传统ML:HMM MEMM CRF

DL: RNN-CRF CNN-CRF

学术界近期方法:注意力模型,迁移学习,半监督学习 —— 有时间了解下

BiLSTM + CRF

从双向神经网络输出的结果为什么还要经过CRF的处理?—— 输出的是一系列标签的概率,而且每个字之间是相互独立的,利用CRF的条件转移概率矩阵,可以改善输出结果

本次主要学习实体抽取前对中文字的词性标注后的编码转换,这是进行更深入信息抽取的基础工作

阅读全文 »

VMware无法在Windows运行问题解决

发表于 2019-10-09 | 分类于 OS
字数统计: 566

今天,想用虚拟机看下没有联网的主机的路由器是什么样的。对着VMware的图标,一阵猛戳,然鹅,无事发生。

首先,回忆了一下这阵时间我都做了什么特别的操作。

之前关闭了系统ASRL , 会不会是跟共用内存有什么关闭,恢复ASRL,不行。

然后查看了一下系统服务,发现VM的四个服务都是开启的,重启试试,不行。

会不会是BIOS的问题,然而最近我并没有修改,也没有更新过,排除。

难道是之前没有正常退出?仔细回忆,并没有这种情况。

准备卸载重装,发现有个修复工具,修复完还是老样子。

折腾了半天,卸载了原来的VM,顺便安装了最新的15版本。美滋滋的优雅双击,……我%&@#!*&#@

阅读全文 »

KG简要构建流程

发表于 2019-10-06 | 分类于 NLP
字数统计: 681

知识图谱可以简单理解为语义网络或多关系图——图结构

涉及技术

数据获取

  • 爬虫抓取自己所需的数据——公开或半公开数据
  • 数据库读取已有数据——业务数据
  • API——第三方数据

所有的数据需要整合到MySQL之类的数据库中——数据持久化

数据预处理

  • 数据清洗:去掉无关信息,提前做字段对齐(数据融合中要用到)
  • 知识抽取:从非结构化文本抽取关键信息
  • 消歧分析:实体统一——比较关键的步骤
阅读全文 »

Jieba分词包使用

发表于 2019-10-04 | 分类于 NLP
字数统计: 883

目前来说,分词和词性标注一般都是同时完成的,而且技术已经相对成熟。

今天来学习下Python里面Jieba库的使用,下一步重点要解决的是命名实体识别的问题。

安装Jieba包

安装:命令行pip install jieba pip用于安装及维护Python包。

然后因为特殊原因并不能连上,我真的是笑嘻嘻

换上清华的镜像 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba 光速安装完毕

顺便升级下pip python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip

所用算法

基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词,采用了基于汉字成词能力的 HMM 模型

可以看出,是一种词典和统计相结合的分词方法

jieba原理

阅读全文 »

实用算法前三章笔记

发表于 2019-10-02 | 分类于 DataStructure
字数统计: 2,432

CH0

参考书:

  • 《程序员实用算法》
  • 《编程珠玑》(第二版)
  • 《算法导论》

课前:阅读代码并验证其性能,调研STL库

课后:加深对算法设计思想的理解。(自己理解了一个问题跟用自己的话向别人解释是有很大区别的)

本课程的重点:依据问题定义、输入数据的特征和要求输出的数据的特征,分析广泛的解决方案(数据结构+算法),并选择最佳的解决方案

CH1 绪论

重点:算法的概念、算法与相关术语的关联
难点:算法时间复杂度的估算

阅读全文 »

几种分词算法对比

发表于 2019-10-01 | 分类于 NLP
字数统计: 1,866
  • 句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧
  • 信息抽取:从给定文本中抽取重要的信息。比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等。涉及到实体识别、时间抽取、因果关系抽取等关键技术
  • 文本挖掘:包括文本聚类、分类、信息抽取、摘要、情感分析,以及对挖掘的信息和知识的可视化、交互化表达界面。目前主流的技术都是基于统计机器学习的
  • 问答系统(我目前研究的方向): 对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案——目前基于知识图谱的问答系统还是挺好用的

分词是中文NLP的基础。

阅读全文 »

NLP知识简要梳理

发表于 2019-09-29 | 分类于 NLP
字数统计: 3,335

等我草草刷完一遍NLP领域的相关知识,才发现工程实践的综合性太强了,几乎涉及到了NLP的所有!核心知识!而且还要结合KG!暴风哭泣,我好害怕做到一半做不出来。。。啊,我好菜啊。。。我怎么什么都不懂。。。

自然语言:语音、文字

NLP:研究语言能力和语言应用的模型,建立算法框架来实现这样的语言模型,并完善和评测。最终用于设计各种实用系统。

是语言学、计算机科学、统计学的交叉学科。属于AI领域的子领域。

处理粒度:文档库 -> 文章 - > 段落 -> 句子 -> 词

发展历程

以语言学为基础:建立基本语言规则,使用数理逻辑进行推理,建立模型或理解语言——语法语义,形式语言理论

以统计学为基础(目前):在足够大的数据的基础上,分析规则,产生智能。业务知识相对不重要——对材料的数量有要求

未来的趋势是深度学习等AI最新技术

阅读全文 »

高级网络前四章笔记

发表于 2019-09-26 | 分类于 network
字数统计: 2,827

在赵老师的第一节高级网络结束之后,各位同学表示很开心,能学到很多前沿的东西,了解计算机网络的核心。他们兴致冲冲的说:”要不,咱们回去退课吧!….”

不过三周的学习过后,暂时还跟得上,可能因为还在讲一些基础的内容。

CH0

教材《TCP/IP协议族》然而教材只包含上课内容的极小一部分,很多东西要自己拓展学习。

其他参考书:《计算机网络自顶向下》 《TCP/IP详解》

社区:http://www.ietf.org/rfc.html

基础

硬件:网卡(适配器)的原理——加上MAC地址,串并转换

软件:

  • 查看端口情况
    • netstat -ano 列出运行中的端口
    • TASKLIST /FI "PID eq 1048" 查询使用端口的程序名
    • taskkill /f /t /im 程序名 终止进程
    • netstat -aon|findstr "端口号" 查询是哪个进程在占用端口
    • tasklist|findstr "进程号" 查询是哪个程序在占用
    • taskkill /pid 进程号 /f 终止进程
  • 网络分层协议
阅读全文 »

虚拟机安装Deepin

发表于 2019-09-24 | 分类于 OS
字数统计: 801

今天在学习一个项目的时候要用到虚拟机开数据库服务器,于是打开了我很久以前安装的虚拟机,发现里面是CentOS系统。看起来真的没有什么使用的欲望…可能是我没花太多心思去配置,但是怎么说呢,就是感觉有点原始…于是寻思着换个操作系统试试,之前的台式安过Ubuntu了,所以干脆试试国产的Deepin

安装Deepin操作系统

首先,在VMware的虚拟机管理中删掉现在的虚拟机。我文件夹地址是C:\Users\18771\Documents\Virtual Machines 里面有一个虚拟机文件夹,突然发现这个机器占了7GB外加,心疼我仅100G可用的SSD…

下载完Deepin镜像后,新建虚拟机 -> 自定义 -> 下一步 -> 稍后安装操作系统 -> Linux Ubuntu64 -> 下一步… -> 创建新的虚拟盘 -> 将虚拟盘存储为单个文件 -> 下一步.. -> 完成 -> 编辑虚拟机设置 -> 使用ISO镜像,选择下载好的Deepin -> 开机 -> 完成相应配置,用户名 ve**en 密码 123456

安装完,界面确实挺惊艳的。

阅读全文 »

工程实践申请成功啦,开熏

发表于 2019-09-23 | 分类于 Project
字数统计: 1,082

申请成功的感想

今天和两个组员一起去见了孟老师,老师人很nice , 对我们几个基本没啥经验的同学没有过多的质疑。不过老师考虑到了我们目前的编程能力去做这个一个大型的知识图谱自动化项目还是有点难度,最终的项目内容可能有点区别。

如果你想做自己喜欢的东西,就要主动做出选择;如果你对这个选择没有足够的信心,就要做好充分的准备。大不了失败了再尝试一次。

同时还是要感谢老爹的鼓励,前几天跟他视频时讲到这个问题,我还怕我把课题讲出来他不太懂,果然还是低估了老爹的理解能力。他强调一定要做一份类似可能性计划书的重要性,好吧,我信了。(其实,我就是把看资料的笔记重新改了改,论记笔记的重要性…) 他还说,不要太担心,这种实践性的项目就是让人练手的,基本都会通过的,好吧…

不管怎样,还是拿到了自己喜欢的课题,很开心。

阅读全文 »
1…91011…13
Liana_Wang

Liana_Wang

虚己以游世,乘物以游心

125 日志
22 分类
94 标签
GitHub E-Mail
友链
  • 瑞哥上班又开始划水看书了
© 2018 — 2020 Liana_Wang
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4