首页 > 科技 > Magi搜索引擎爆红,颠覆百度?

Magi搜索引擎爆红,颠覆百度?

文 | 龚开课

导言:当我打开magi.com这个黑漆漆的网站,看到了“Magi…”正在学习的字眼。过了两秒钟,这行字底下出现了一篇文章链接。又过了两秒,底下出来一行字“从该来源学习到…”忽然就不由自主地兴奋起来。一个能自我学习的搜索引擎?听起来不错。

1

爆红的Magi

就在几天前,一个叫做“Magi”的搜索引擎,在没有任何推广的情况下爆红,导致网站504(服务器申请超时关闭)。

Magi由一个叫Peak Labs公司开发,2012年由红杉资本和真格基金出资创建。

其创始人是季逸超,一个1992年出生的技术宅,20岁便成为《福布斯》中文版封面人物,曾经凭借猛犸象浏览器在极客圈一炮而红。

2

来自东方的智者

Magi这个名字取自动漫《新世纪福音战士》EVA中的超级电脑,同时也是圣经马太福音里的“来自东方的智者”。

这个浏览器里的另类,主要采用node.js / C++ / Python编写。Magi能提取网络上的自然语言文本,以结构化的形式呈现出来。

比如我们用百度搜索“苍老师”,度娘为我们罗列了各种有关苍老师的网站链接。

而我们用Magi搜索“苍老师”,除了网站链接,还有它提取出来的苍老师描述、属性、标签。更有趣的是,把鼠标放在右侧的“主要学习来源”上,Magi会给出佐证,告诉我们的信息来自哪里。

相比百度的纯白色背景,Magi选用了黑色背景,原因是Magi提供了可信度区分功能。比如绿色代表可信度高,黄色代表可行度一般,红色代表可行度低。在季逸超看来,如果使用白色背景,加上多种颜色的标签就显得廉价而混乱。

3

Magi这个东西有什么用?

我们熟知的百度百科是一个知识库,里面装满了各种百科词条。里面的每个词条都是以泛知识图谱的形式存在。

咳咳,“知识图谱”是什么?知识图谱是一张记录知识的图,把每个知识点作为一个节点,节点的连接线表面了知识点之间的关系。比如下图:

我们打开一个百度百科词条,比如EVA,可以看到这个词条内容是以剧情简介、角色介绍、设定解说的结构罗列信息。

知识图谱可以让知识结构化,并清晰的标注出知识和它们之间的关联性。相比与纯文本,人类对于这种结构化的知识表达方式更容易理解。

近几年的数据挖掘、大数据、人工智能、机器学习等热门技术,都可以借助知识图谱来整理数据,把它们变成结构化、可复用、可推理的形式,进而用于更多的使用场景。

百度也推出了相应的知识图谱开发平台,来帮助接入用户实现数据展示的结构化。

比如下图中,结构化展示把信息分类为章节、作者、更新时间、评价数等信息,我们可以看起来一目了然。而非结构化展示,则是把一坨信息抓出来丢在我们面前。

但是,上面这样的搜索引擎方式,在选择点击看哪个链接时,我们还是会犹豫一下,因为不知道点进去是不是我们要的。

这时候,我们多想如果来一个百科词条,直接告诉我们最终想要的结果啊!

现在Magi更进一步,它提取网络上的信息,通过学习,直接生成了词条。比如我们还是搜索关键词“大主宰”,最终呈现的结果不就类似一个“大主宰”的百科词条吗?

所以Magi的技术,是自动构建知识图谱的技术。另外,Magi生成的结果经过来源质量评估算法的处理,并用不同颜色告诉我们哪些可信,哪些不可信。有了这个可能就可以避免类似“魏则西”事件的悲剧了。

Magi的创造词条的过程是自动,24小时不断学习更新的,而百度百科词条,却是需要网友们通过人工搜集整理的方式创造。

4

展望

当然,现在的Magi还存在不少问题。比如不能从维基百科中抓取信息,也会在人稍微多的时候504。甚至还存在一些学习错误的情况,比如我搜索了“巴塞罗那”结果发现主场是“皇家马德里”。

即便如此,这个产品背后的算法仍然很有吸引力。正如Magi的创造者季逸超说的,这个目前服务器放在大陆的Magi.com版本只是“交个朋友”。显然,这个搜索引擎不是Peak labs的终极目标。

当然,Magi也带来了一丝忧虑。如果未来具备人工智能的机器人,能够从纷繁复杂的信息中学习并提取出置信度极高的知识,世界可能很快是另一幅模样。

(全文完)

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/232344.html