您的位置首页科技生活创新

为吸引人工智能专家雅虎公布13.5TB用户数据

喜欢

来源：互联网
|
2016-04-13
|
0 条评论
|
我要分享
|
T小字　 T大字

　　[摘要]雅虎仅面向大学机构公布数据，这些数据将让研究人员切实了解大量用户的互联网行为方式。

　　腾讯科技讯 1月15日，外媒报道称，为了‍‍‍‍‍吸引人工智能领域的顶级人才，雅虎公布大量用户的互网络行为数据。

　　周四，雅虎宣布，公司将公布最大规模的互联网行为数据，数据涉及浏览雅虎体育、雅虎财经、雅虎新闻、雅虎地产和其他版块的2000万匿名用户。雅虎仅面向大学机构公布数据，这些数据将让研究人员切实了解大量用户的互联网行为方式。

　　由于多年停滞不前，雅虎正面临严重的人才流失难题。人工智能领域快速增长，而且竞争异常激烈，雅虎希望吸引该领域的学术研究人员。

　　雅虎此举正值科技公司争相与学术界加‍‍强合作之时，而科技公司尤为关注人工智能领域。人工智能涉及机器学习和深度学习技术，这类技术可训练机器挖掘海量数据，旨在回答复杂问题或预测用户行为。

　　Facebook和谷歌(微博)已经招募顶级人工智能研究人员。例如，2013年燕乐存(Yann LeCun)加盟Facebook，他继续运营纽约大学数据科学中心。

　　卡内基梅隆大学计算机学院院长安德鲁·穆尔(Andrew Moore)表示：“无论你拥有多少人才，管理者总是希望招募更多的人才。这些大型科技公司总觉得缺少某类研发人才。”

　　海量数据是机器学习的必备要素。利用这些数据，电脑可分析复杂的模式，根据雅虎的情况给出科学的建议，例如哪种标题或设计更加吸引纽约地区的年轻女孩。大型互联网公司一般严格控制这类数据，外部人士极难获得。雅虎此次公布的数据体积为‍‍‍‍‍13.5 TB，相当于美国国会图书馆数据体积的2/3。

　　穆尔表示，绝大多数学术计算机科学家未曾接触如此庞大的用户数据，学者可能要把数据存储到大学外部的服务器，他们可能选择亚马逊或谷歌的云计算中心。

　　去年，雅虎和卡内基梅隆大学签署一份为期5年的合作合同，雅虎将为卡内基梅隆大学提供1000万美元研究资金，目的是基于用户数据开发个性化应用。

　　加州大学圣地亚哥分校电子与计算机系教授格特·兰克利(Gert Lanckriet)表示：“公司外部人士难以获得数据。”

　　专家认为，雅虎数据的规模使其极具价值。相较针对少量数据设计的算法，针对海量数据设计的算法具有本质区别。雅虎的数据可以让研究人员开发大型算法，这种算法尤其适合企业。

　　自2006年以来，雅虎已经发布了50多个数据集，包括2014年的1亿张Flickr照片缓存。此前，雅虎公布的最大数据集为413 GB。谷歌和亚马逊公布的数据集相对较小。

　　数据科学初创公司Fast Forward Labs创始人希拉里·梅森(Hilary Mason)表示，一方面，科技公司要吸引人才和催生新理念。另一方面，它们要保护用户隐私和保持竞争优势。这种矛盾正逐渐加大。

　　梅森称，众多大型科技公司正尝试打造同样的功能，例如无人驾驶汽车、图像识别和个性化服务。公布用户数据之后，雅虎承担些许暴露商业秘密的危险，但雅虎认为吸引人才能带来更大回报。

　　尽管数家公司曾面向研究人员公布用户数据，但结果令人失望。2006年，AOL向研究人员公布用户数据，但意外泄露用户的搜索记录。2009年，Netflix公布大量用户的电影推荐和日志，并提供100万美元奖金，以奖励改进电影推荐算法的开发者。在两个例子中，外部人员都利用数据推测用户的身份，这种侵犯隐私的行为招致集体诉讼。Netflix被迫取消该奖项。

　　2014年，Facebook和康乃尔大学共同研究和操纵用户的情绪。研究过程中，Facebook调整用户信息流的内容，旨在研究用户的情绪反应，此举引发了巨大争议。随后，Facebook不得不限制用户数据的使用范围。

　　梅森表示：“自从2006年AOL遭遇隐私灾难，科技公司一直害怕公布数据。”

　　雅虎数据的敏感度似乎较低，其中仅包括城市、性别、年龄等基本人口统计信息，以及用户与雅虎网站相关的交互信息。

　　雅虎实验室首席研究科学家贝泽·耶茨(Ricardo Baeza-Yates) 表示，这次公布的数据集能够有效地防止个人追踪用户。例如，雅虎移除了来自人口稀少地区的用户信息。(熠辉)

。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186