Magi是基于机器学习的信息抽取和检索系统,它不使用 HTML 标签等半结构化特征,无需预设领域和关键词,直接处理自然语言文本。

  它能够将互联网上的公开文本和企业内部的私有数据提取归纳为结构化知识,为用户提供自主更新的、可量化解析的、可溯源的知识体系。而且这个系统具有终身学习能力(Lifelong machine learning),能够开放地获取并自主学习互联网上的信息,不断增强自身对自然语言文本的处理能力。

  互联网语料质量参差不⻬,抄袭拼接、自动生成、恶意篡改等行为会造成大量事实性错误,甚至可能让模型在持续的学习调整过程中越来越差。此前涉及网络语料处理的程序常使用白名单机制回避该问题,但白名单机制在大幅过滤掉不可靠的来源的同时,也损失了大量的有价值的信息。Magi通过自主研发的全网搜索引擎,引入传统搜索中的统计信号,辅助评估信息的质量。

  “在学术领域,论文被引用次数越多,通常就越有影响力;在网页搜索中,一个URL的反链越多,该网页具有越高的重要性。对于知识,当某一事实在更多上下文中被表达,其应当具有更高的正确性和流传度。”Peak Labs创始人季逸超告诉36氪,“Magi会对来源质量高且具有多种上下文和表达方式的事实给出更高的评价。因为不同的上下文与表达方式表明相应内容经过了再次提炼,或者有多个角度对其进行阐释。而且多种输入的交叉验证还降低了AI自身犯错的风险。”

  在最后的结果页面,magi.com会为每个结果给出可信度评分,然后用颜色区分可信度高低,绿色表示可信度较高,红色则较低。

magi
magi