天然言语处理是现代技能最重要的组成部分之一,天然言语是指汉语、英语、法语等人们日常运用的言语,是天然而然的跟着人类社会发 展演化而来的言语,而不是人工的言语,它是人类学习日子的重要东西。归纳说来,天然语 言是指人类社会约定俗成的,差异于人工言语,如程序设计的言语。
天然言语处理,是指用核算机对天然言语的形、音、 义等信息进行处理,即对字、词、句、华章的输入、输出、辨认、剖析、了解、生成等的操作和加工。完成人机间的信息沟通,是人工智能界、核算机科学和言语学界所一起重视的重要问题。天然言语处理的详细表现方法包含机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音组成、语音辨认等。能够说,天然言语处理就是要核算机了解天然言语,天然言语处理机制触及两个流程,包含天然言语了解和天然言语生成。
1、机器翻译
机器翻译(Machine Translation)是指运用机器,经过特定的核算机程序将一种书写方法 或声响方法的天然言语,翻译成另一种书写方法或声响方法的天然言语。机器翻译是一门交 叉学科(边缘学科),组成它的三门子学科分别是核算机言语学、人工智能和数理逻辑,各 自建立在言语学、核算机科学和数学的根底之上。
现在,文本翻译最为干流的工作方法依然是以传统的核算机器翻译和神经网络翻译为主。Google、Microsoft 与国内的百度、有道等公司都为用户供给了免费的在线多言语翻译体系。速度快、成本低是文本翻译的主要特点,而且使用广泛,不同职业都能够选用相应的专业翻译。可是,这一翻译进程是机械的和生硬的,在翻译进程中会呈现许多语义语境上的问题,依然需求人工翻译来进行弥补。
语音翻译可能是现在机器翻译中比较赋有立异意思的范畴,搜狗推出的机器同传 技能主要在会议场景呈现,演讲者的语音实时转换成文本,而且进行同步翻译,低推迟显现 翻译成果,期望能够替代人工同传,完成不同言语人们低成本的有用沟通。
图画翻译也有不小的发展。谷歌、微软、Facebook 和百度均具有能够让用户查找或许主动收拾没有辨认标签相片的技能。除此之外还有视频翻译和 VR 翻译也在逐渐使用中,可是现在的使用还不太老练。
2、信息检索
信息检索是从相关文档调集中查找用户所需信息的进程。信息检索的基本原理是将用户输入的检索要害词与数据库 中的标引词进行比照,当二者匹配成功时,检索成功。
以谷歌为代表的「要害词查询+挑选性阅读」交互方法,用户用简略的要害词作为查询 提交给查找引擎,查找引擎并非直接把检索方针页面反馈给用户,而是供给给用户一个可能 的检索方针页面列表,用户阅读该列表并从中挑选出能够满意其信息需求的页面加以阅读。
3、主动问答
主动问答是指使用核算机主动答复用户所提出的问题以满意用户常识需求的使命。主动问答体系在答复用户问题时,首先要正确了解用户所提出的问题,抽取其间要害的信息,在已有的语料库或许常识库中进行检索、匹配,将获取的答案反馈给用户。这一进程 触及了包含词法句法语义剖析的根底技能,以及信息检索、常识工程、文本生成等多项技能。
依据方针数据源的不同,问答技能大致能够分为检索式问答、社区问答以及常识库问答 三种。检索式问答和社区问答的中心是浅层语义剖析和要害词匹配,而常识库问答则正在逐渐完成常识的深层逻辑推理。
除了这几种 NLP 使用,其它如情感剖析、主动文本摘要、社会核算和信息抽取也都有广泛的使用。