(原标题:用百度搜泳装出来一堆卡通人物,画风为何变得这么快?) 就在几天前,李彦宏放话说要和谷歌PK,但这热身赛第一回合,就让创客小表妹大吃一惊。 昨天上午,有网友称,在百度和谷歌输入相同的关键词,搜出来的结果大相径庭。 例如,输入“嫩滑”、“鲜嫩”、“女佣”、“三点透视图”等字眼,谷歌搜索出来的都是食物、女佣照片、设计图等“正经”图片,但是百度搜索结果里,充斥着着装暴露的女性、性感泳装照片等“大尺度”图片。 然而,几小时后,这些搜索结果画风突变。昨天下午,小表妹在百度里搜索上述关键词时,相关图片已经不再显示。有消息称,百度第一时间对搜索结果进行了“优化”。不过,当小表妹搜索“泳装”时,出来的居然是身着泳装的卡通人物,真是让人哭笑不得。 “如果Google决定回到中国,我们非常有信心再PK一次,再赢一次。”这是百度创始人李彦宏在谷歌被传回归中国、舆论唱衰百度的背景下,公开向谷歌立下的战书。 抛开战略层面的竞争不谈,小表妹和几位技术从业者聊了聊,尝试分析一下这次“画风突变”事件背后的技术原理。 隐晦关键词里藏着大秘密 在小表妹的认知中,“鲜嫩多汁”毫无疑问是一个形容菜品或水果的词,但在百度搜索的语境中,这些词被赋予了更多含义。 根据用户晒出的截图,在百度和谷歌分别输入“鲜嫩多汁”,谷歌一本正经的给大家展示各式的美食,而百度页面中显示的是一众性感女郎的照片。 同理,“嫩滑”在谷歌中显示的是蛋挞、布丁等美食,但百度上显示的是著装暴露的美女。 谷歌搜索“三点透视图”,显示的是学术气息浓厚的三维立体设计图形,百度显示的却是身着各式内衣的美女。这画风,小表妹都忍不住要捂眼睛。 除此之外,“胸膜”、“女佣”、“波涛汹涌”等词汇,当中文的博大精深和用户的想象力结合后,便在百度搜索呈现出千姿百态的景象,请大家自行脑补。 这一消息出来后,百度反应非常迅速。 昨天下午,当小表妹在百度搜索上述关键词时,已看不到此前出现的美女“大尺度图片”,取而代之的是满屏的鸡蛋豆腐和大鱼大肉,这些菜的成色甚至比谷歌搜索出来的还要鲜美,而且菜的丰富程度似乎要胜过搜狗搜索和360搜索——当然,这两个搜索引擎也没有出现美女图。 值得一提的是,当小表妹搜索“嫩滑”、“雪白”、“鲜嫩多汁”等关键词时,百度页面首栏增加了一行“温馨提示”,提示用户可对搜索出的色情内容进行举报投诉。 除此之外,当小表妹在百度中搜索“泳装”图片时,排在前列的居然是卡通人物身着泳装的形象…… 这着实出乎小表妹意料。要知道,用搜狗和360搜出来的,都是人穿泳衣的照片啊……看来在该关键词下,百度已经过滤掉了大部分它不想让用户看到的内容。 你看到的就是你想要的? 经历了贴吧事件和魏则西事件后,百度在商业模式和价值观上遭到广泛质疑,但从技术的角度而言,究竟是什么导致百度出现“大尺度图片”? 某大型互联网公司的技术负责人介绍,“搜索引擎实际上是最早的大数据+人工智能技术,因为有海量的网页数据,通过内容分析等智能技术,实现了根据关键词指令进行内容推送。” 在百度等搜索引擎中,关键词是触发内容推送的关键环节,系统会根据设定的关键词,自动向用户推送相关内容。 “搜索本质上是在解释用户的意图。搜索引擎搜出来什么东西排在前面,很大程度上跟用户本质上要找什么内容是相关的。在中文现有的语境中,大部分用户搜索关键词的意图就是去找擦边球的图片,而不是去找食品图片。”他表示。 根据他介绍的原理,在搜索引擎的世界里,从用户需求来看,他们看到的,就是他们想要看的内容,在这背后体现的是用户需求的差异。 所以,这个锅该甩给用户? 也不是,因为除了机器算法,人工干预在搜索引擎的结果展现中也起到了非常重要的作用。 “有些词汇是机器无法识别和理解的,还有一些是因为政策原因需要屏蔽的,比如明显涉黄或赌博等词汇,这就需要进行人工干预。”一位从事搜索引擎技术开发的创业者说。 他指出,百度在政策要求下,引入了大量的人工干预,确保内容不会触及政策底线,再通过长期的内容识别和中文语义分析,形成了一套能理解中国网民语义的搜索能力,所以一些偏门的、含有特殊含义的关键词,就会在百度搜索中触发弹出特殊的推送结果。 他表示,中国网民特别擅长用各种隐晦、诡异的关键词去找自己想要的内容,因为正常的词汇触发的内容已被搜索引擎自动屏蔽。这就需要人工干预去不断矫正机器的识别水准。 “百度是可以对大尺度图片进行人工干预的,但这会对流量造成影响,也会影响工程师的KPI。”他说。这也能很好的解释为什么百度搜索会“画风突变”。 百度比谷歌更懂中国人 同为搜索引擎的谷歌,为什么没有出现“大尺度”图片的情形? 上述技术负责人指出,“搜索的准确性,极度依赖巨大的搜索词的积累,谷歌在中文的数据积累要比百度少太多。谷歌在中文搜索领域的识别技术,应该是落后于百度的。” 一名业内人士认为,“在中文语境下,百度搜索更懂中国人。 ” 他透露,国内的搜索引擎公司,都有专门的运营团队,他们会根据每日的Top Query进行数据分析,比如搜索“泳装”,100个人搜索如果出现90个人都点击一类图片时,会有人工干预,比如为图片打标签等,让图片识别引擎获得新的训练以找到更多同类图片。而谷歌由于中文数据量不够,无法对机器进行充分的训练。 在他看来,这体现了百度对流量的渴求,如果满足流量就是它的价值观,那技术就只是手段而已。“所有的企业都要迎合用户需求,去做设计、开发和运营。” 对于事件后期进展,上述技术负责人说,“风浪平息后,人工干预的程度会下降,百度搜索还是会回归到原始,因为用户搜的就是这些东西,毕竟真会去点击豆腐图片的人是极少数。” |
Copyright © 1999 - 2024 by Sinoquebec Media Inc. All Rights Reserved 未经许可不得摘抄 | GMT-5, 2024-12-18 03:13 , Processed in 0.130617 second(s), 23 queries .