估值18亿美元的美国知乎,如何使用机器学习?

来源:当代财经网时间:2017-04-25 16:36:06

昨天,美国问答网站Quora宣布完成了8500万美元的D轮融资,估值翻倍。这样说来,Quora现在的估值应该是18亿美元,成了一只新的独角兽。

在过去一年里,Quora除了继续扩大用户规模之外,还开始了商业化尝试,机器学习技术在这家公司业务上的应用,也增加了很多,不仅已有的机器学习应用用上了更大更好的模型,机器学习的使用领域也有扩张。

那么,Quora现在是怎样使用机器学习的?其机器学习负责人Nikhil Dandekar前不久发文做了一下介绍,量子位编译如下:

我将介绍Quora产品的不同部分,讨论我们在其中是如何使用机器学习的。

1. 查找信息

Quora知识共享的主要方式是问题和答案。这从用户希望获得一个令其满意的回答开始,或者说从“信息需求”开始。

用户在Quora上提出了一个新的问题后,我们有一套机器学习系统进行问题的理解,即从问题中提取信息,从而使接下来的流程变得更容易。下面,我描述一下这个问题理解系统。

我们关心内容的质量,这一切都以问题的质量开始。我们有一个ML系统可以对问题质量进行分类,帮助我们区分高质量和低质量的问题。除了问题质量,我们还会确定一些不同的问题类型,这会帮助我们确定在接下来的流程中如何处理问题。

最后,我们也做了问题主题标签来确定问题的主题。大多数主题建模应用都可以处理大型文档文本和较少的主题关键词,但我们处理的是一个的简短问题文本和超过一百万个潜在主题,这使得这项工作成为一个更具挑战性的问题。

在所有问题理解模型中,我们从问题本身和它的语境来获得其特征。例如,询问问题的用户,询问问题的地点等等。

满足用户信息需求的另一种方法是让他们在现有问题中找到他们所需的答案。我们有两个主要的搜索系统:问题栏(Ask Bar)搜索,它为Quora主页上的页首搜索栏提供支持;还有一个就是全文搜索,这是一个更深入的搜索系统,您可以通过点击问题栏结果中的“搜索” 选项来获得。这些搜索系统使用不同的排名算法,这些算法在搜索速度、相关性以及返回结果的广度和深度方面有所不同。

2. 获得问题的答案

问题理解系统的输出是问题生命周期中下一个步骤的重要输入:如何从专家那里获得答案。在这里,我们也有机器学习系统,帮助我们更好地解决这个问题。

邀请回答(Request Answers,直译是“请求回答”,以前称为要求回答,Ask to Answers,A2A)是Quora的一项功能:允许用户将请求发送给其他用户,要求他们为特定问题写一个答案。

我们将邀请回答构建成了一个机器学习问题,用这种方法来推荐建议邀请的用户。我们在另一篇博客文章中介绍了这个系统的细节:“请求回答”中的机器学习问题。地址:https://engineering.quora.com/Ask-To-Answer-as-a-Machine-Learning-Problem

在A2A之外,我们将未答复的问题与专业问题回答者进行匹配的主要方式是通过Quora主页信息流。问题排名对我们来说是一个非常重要的问题。我们将上面所述的问题属性、用户属性以及一系列其他原始的和衍生的功能作为这个排名模型的输入,为用户生成具有话题性、相关性的个性化的Feed 。这是几天前我feed的截图:

3. 阅读内容

如上图所示,信息流不仅包括你可以撰写答案的问题,还包括值得阅读的回答。答案内容的信息流排序也是一个对我们来说非常重要的机器学习问题。信息流中的问题排名和答案排名使用类似的底层系统,但二者的目标非常不同,因此在其基础模型中使用了不同的特征集合。

另一个我们使用机器学习来评估值得阅读答案排名的是我们向用户发送的电子邮件摘要。所有这些排名问题都由相当先进的机器学习系统提供支持,这个ML系统使用多种模型和许多不同的功能来实现最终排名。

一旦用户发现有趣的问题,我们希望确保他们能在Quora上有一个很好的阅读体验。对一个问题的答案进行排名,对我们来说是一个重要的ML应用,它能确保最相关的答案在问题的顶部出现。我们在这篇文章里详细介绍答案排名背后的ML系统:Quora回答排名上的机器学习方法,地址:https://engineering.quora.com/A-Machine-Learning-Approach-to-Ranking-Answers-on-Quora

除了答案,我们也对评论做出排名,以确保你在顶部看到最相关的答案评论。所有这些排名系统都超出了简单的赞同或者反对,而是通过来自用户的赞同和反对、内容质量、活跃度等信息来得出最终排名。

我们还想确保在阅读特定问题的答案后,你能有很好的途径来查找相关内容以持续你的阅读体验。机器学习的一个产品功能就是提供相关问题。我们在问题页面上显示相关问题,帮助用户更轻松地在Quora问题空间中导航。我们还用相关主题和热门主题的排名系统来帮助指引Quora的读者。在主页,我们还会在面板上显示值得关注主题和值得关注用户的内容,这两个都是基于我们对用户的了解而个性化的推荐系统。

上述ML系统的一个非常重要的元素是个性化。个性化涉及让产品和底层系统与Quora的每个用户相关。使ML系统个性化的一个重要组成部分是对用户的理解。作为对用户理解的一部分,我们观察和获得用户的各种特征,比如他们喜欢和不喜欢的主题,他们在不同领域的专业知识和他们的社交网络属性。我们还有各种“用户实体”关联系统,例如用户和主题的关联,用户和用户的关联等等。所有这些个性化标志都是重要的输入,不仅用在本节讨论的“阅读”上,在问题与专业答案撰写者的匹配问题上也很重要。

4. 维护内容质量

对于Quora良好的用户体验来说,内容质量是一个关键因素,我们想让站内的问题、答案、话题和其他内容从高质量起步,并一直保持下去。为此,我们用一组机器学习系统来维护内容质量,以下是其中的几个:

重复问题检测:这涉及到检测具有相同意图的不同问题,并将它们合并为一个标准问题。我们曾经发文介绍过Quora解决这个问题的方法,还举办了一个Kaggle竞赛并发布了重复问题数据集。

Quora如何检测重复问题:https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learning

重复问题检测Kaggle竞赛:https://www.kaggle.com/c/quora-question-pairs

恶意内容检测:友好和尊重是Quora社区讨论的准则,但是对任何一个这区来说,要保持这两点都很难。我们用机器学习和人工审核相结合,来识别冒犯性的、会伤害用户的内容,来确保良好的用户体验。

垃圾信息检测:对大多数UGC(用户生产内容)的应用来说,垃圾信息检测都很重要,我们也不例外。我们将几个不同的机器学习系统结合起来使用,来拦截垃圾内容,以及发布这类内容的用户。

5. 广告优化

2016年,我们开始试水商业化。现在,我们在问题页面上展示和问题意图相关的广告,并用机器学习来预测广告点击率,确保我们展示的广告是和用户相关的,对广告主也有较高的价值。

我们在商业化上的机器学习尝试还处于早期,在接下来的几个月或几年中,我们会继续拓展机器学习在这个领域的应用。

除了上文列出的这些,我们还有其他机器学习系统,但篇幅所限,就不再列举了。

相关阅读

推荐阅读

两连阳为啥还没回本?买入绩优、白马、中大盘股才能轻松获利

两连阳为啥还没回本?买入绩优、白马、中大盘股才

一、大盘点评展望周二沪深两市小幅低开后,沪深300权重带动指数震荡上行。最终沪指上涨0 53%报收3410点,K线上收出一根中阳线;深成指上涨1 更多

2017-11-22 16:17:00
2017百度世界大会李彦宏透露无人车2018年量产 无人驾驶概念股备受期待

2017百度世界大会李彦宏透露无人车2018年量产 无

一年一度的百度世界大会11月16日在北京举行,每年的百度世界大会,百度创始人李彦宏都会带来他对过去,现在和未来关于互联网和整个IT领域的 更多

2017-11-16 11:17:37
贵州茅台股价突破700元 贵州茅台股价为什么那么高?

贵州茅台股价突破700元 贵州茅台股价为什么那么

今日贵州茅台延续昨日强势走势,继续大幅攀升,盘中最高价突破700元整数关口,刷新上市新高纪录,截至发稿,最高价报704 97元,总市值超越8 更多

2017-11-16 10:32:47
百度世界大会今日召开聚焦智能硬件 百度世界大会受益概念股一览

百度世界大会今日召开聚焦智能硬件 百度世界大会

据怀新资讯报道,2017百度世界大会将于16日在北京举行。从邀请函上出现的神秘的盒子推测,本次百度将会有AI硬件以及诸多AI新技术发布。从今 更多

2017-11-16 10:17:03
中国财富总值全球第二但是超4亿人家庭没有卫生厕所 你拖后腿了吗?

中国财富总值全球第二但是超4亿人家庭没有卫生厕

瑞士信贷研究所(CSRI)最新出炉的《全球财富报告》显示,全球财富总额现已达到280万亿美元,比十年前金融危机爆发时高出27%。美国占全球财 更多

2017-11-16 10:07:07
比特币今日价格大幅反弹逾9% 比特币价格再次突破7000美元

比特币今日价格大幅反弹逾9% 比特币价格再次突破

在短短两周时间内,比特币价格呈现了非常惊险的过山车。由于对于这款加密货币未来趋势存在争议,上周比特币价格出现暴跌,曾一度低于6000美 更多

2017-11-16 10:04:14
油价调整最新消息:国内油价今日24时或迎年内最大涨幅 附92号/93号汽油最新价格

油价调整最新消息:国内油价今日24时或迎年内最大

新一轮成品油调价窗口将于16日24时开启。国际原油价格一度涨至近两年高位,受此影响,国内油价或迎年内最大涨幅。隆众资讯统计数据显示,以 更多

2017-11-16 09:22:17
国际油价调整最新消息:EIA原油及汽油库存双双增长 延长减产协议预期支撑油市反弹

国际油价调整最新消息:EIA原油及汽油库存双双增

美国能源信息署(EIA)周三(11月15日)公布的数据显示,上周美国原油库存意外录得增加,同时汽油库存也意外增长。EIA公布,截至11月10日当 更多

2017-11-16 09:21:49
+ 点击查看更多精彩
今年政策方向没有变,“三去一降一补”具体该怎么干?
    2018年,我国开启高质量发展新征途。中央经济工作会议把深化供给...
蓝筹股带动大盘继续上攻 沪指重返3400点
    【盘面简述】今日早盘,随着油气股的拉升上涨,中国石油和中国石...
白马股崛起补涨强烈 短期恐慌性抛盘并不大
    今日市场点评:沪深两市早盘各股指纷纷小幅低开,开盘之后一度呈...
市场再度面临重要的时间窗口 一板块有望迎来年末行情
    【今日小结】今日,两市小幅高开,开盘回撤后快速上行翻红,金融...
不离谱的回落 三理由力挺节后机会
    今日市场点评:大盘在节后第一天走出了高开低走的行情。在国庆期...
第三批混改试点企业名单不久后推出 军工、民航、通信混改机会尤为突出
    国新办今日举行新闻发布会,国资委副秘书长彭华岗在回答记者关于...