利用人工智能技术,微软推出Code Optimizations助力开发者优化.NET应用和云服务
【本站】5月20日消息,微软今日宣布推出Code Optimizations公共预览版,利用人工智能技术助力开发者优化.NET应用和云服务的性能。据了解,Code Optimizations已经与Azure Application Insights集成,该工具用于跟踪和分析来自.NET应用和服务的数据,并提供针
更新日期:2022-07-18
来源:纯净之家
给你两句话,来品一下它们所蕴含的情感:“我真的会谢。”“听我说谢谢你,因为有你,温暖了四季……”

或许你会说,这很简单啊,不就是最近经常被玩的梗吗?但如果问问长辈,他们可能就是一副“地铁老人看手机”的模样了。
不过与流行文化之间有代沟这事,可不仅限于长辈们,还有 AI。这不,一位博主最近就 po 出了一篇分析谷歌数据集的文章,发现它对 Reddit 评论的情绪判别中,错误率竟高达 30%。

就比如这个例子:
我要向朋友怒表达对他的爱意。
谷歌数据集把它判断为“生气”。
还有下面这条评论:
你 TM 差点吓坏我了。
谷歌数据集将其判别为“困惑”。

网友直呼:你不懂我的梗。
人工智能秒变人工智障,这么离谱的错误它是怎么犯的?
断章取义它最“拿手”
这就得从他判别的方式入手了。谷歌数据集在给评论贴标签时,是把文字单拎出来判断的。我们可以看看下面这张图,谷歌数据集都把文字中的情绪错误地判断为愤怒。

不如我们由此来推测一下谷歌数据集判别错误的原因,就拿上面的例子来说,这四条评论中均有一些“脏话”。
谷歌数据集把这些“脏话”拿来作为判断的依据,但如果仔细读完整个评论,就会发现这个所谓的“依据”只是用来增强整个句子的语气,并没有实际的意义。
网友们的发表的评论往往都不是孤立存在的,它所跟的帖子、发布的平台等因素都可能导致整个语义发生变化。
比如单看这条评论:
his traps hide the fucking sun.
单单依靠这个很难判断其中的情绪元素。但如果知道他是来自一个肌肉网站的评论,或许就不难猜出了,(他只是想称赞一下这个人的肌肉)。

忽略评论的帖子本身,或者将其中某个情感色彩强烈的词语单拎出来判断其情绪元素都是不合理的。一个句子并不是孤立存在的,它有其特定的语境,其含义也会随着语境的变化而变化。
将评论放入完整的语境中去判断其情绪色彩,或许会大大提升判别的准确率。但造成 30% 这么高的失误率可不仅仅只是“断章取义”,其中还有更深层次的原因。
“我们的梗 AI 不懂”
除了语境会干扰数据集判别之外,文化背景也是一个非常重要的因素。
大到国家地区,小到网站社群都会有其内部专属的文化符号,这种文化符号圈层之外的人很难解读,这就造成了一个棘手的问题:若想更准确地判断某一社区评论的情绪,就得针对性地对其社区进行一些数据训练,深入了解整个社区的文化基因。
在 Reddit 网站上,网友评论指出“所有的评分者都是以英语为母语的印度人”。

这就导致会对一些很常见的习语、语气词及一些特定的“梗”造成误解。说了这么多,数据集判别失误率这么高的原因也就显而易见了。
但与此同时,提高 AI 判别情绪的精确度也有了清晰的方向。例如博主也在这篇文章中就给出了几条建议:
首先,在对评论贴标签时,得对他所处的文化背景有深刻地理解。以 Reddit 为例,要判断其评论的情绪色彩,要对美国的一些文化、政治理解透彻,并且还要能够迅速 get 到专属网站的“梗”;
其次,要测试标签对一些讽刺、习语、梗的判别是否正确,确保模型能够整整理解文本的意思;
最后,核查模型判断与我们真实判别,以做出反馈,更好地训练模型。
One More Thing
AI 大牛吴恩达曾发起过一项以数据为中心的人工智能运动。

将人工智能从业者的重点从模型 / 算法开发转移到他们用于训练模型的数据质量上。吴恩达曾说:
数据是人工智能的食物。
用于训练数据的好坏对于一个模型也至关重要,在新兴的以数据为中心的 AI 方法中,数据的一致性至关重要。为了获得正确的结果,需要固定模型或代码并迭代地提高数据质量。
……
最后,你觉得在提高语言 AI 判别情绪这件事上,还有什么方法呢?
欢迎在留言区讨论~
参考链接:
[1]https://www.reddit.com/r/MachineLearning/comments/vye69k/30_of_googles_reddit_emotions_dataset_is/[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled[3]https://mitsloan.mit.edu/ideas-made-to-matter/why-its-time-data-centric-artificial-intelligence
利用人工智能技术,微软推出Code Optimizations助力开发者优化.NET应用和云服务
【本站】5月20日消息,微软今日宣布推出Code Optimizations公共预览版,利用人工智能技术助力开发者优化.NET应用和云服务的性能。据了解,Code Optimizations已经与Azure Application Insights集成,该工具用于跟踪和分析来自.NET应用和服务的数据,并提供针
必应聊天新增保存聊天记录功能,灵活管理对话内容
【本站】5月20日消息,微软必应官方今天发布博文,介绍了在过去一周内为必应聊天(Bing Chat)引入的一系列改进,旨在提升用户体验。在最新的更新中,必应聊天用户最期待的功能之一是聊天历史的保存。现在,用户可以暂停聊天,并在之后恢复暂停的对话,而且聊天
王小川解读人工智能技术发展:奇点或将加速到来
【本站】5月19日消息,百川智能创始人兼CEO王小川近日在接受采访时预测,人工智能的奇点可能在2033年之前到来。据王小川表示,他认为人工智能技术的迭代周期正在逐渐缩短。从专家系统的发展历程来看,经过40年的时间,学习系统出现则需要20年。而深度学习领域
微软必应聊天(Bing Chat)推出新特性:分享和导出聊天内容功能
【本站】5月18日消息,根据微软必应工程和产品部负责人Jordi Ribas的最新推文,微软旗下的聊天工具必应聊天(Bing Chat)将推出一系列新特性,其中包括分享和导出聊天内容的功能。据悉,用户在必应聊天中将可以使用一行快速操作按钮,例如点赞、取消点赞、复制
美图设计室推出"AI海报"功能,降低设计门槛,提高制作效率
【本站】5月17日消息,美图公司旗下的美图设计室于昨日发布了一项名为AI海报的新功能。这一功能旨在利用人工智能技术降低设计门槛,并提高海报制作的效率。据了解,AI海报通过应用AI智能编排技术,使非专业人士也能轻松制作出高质量的海报,从而为更多有海报
网络爆红!AI孙燕姿惊人翻唱引起轰动
【本站】5月15日消息,近期,一项名为AI歌手翻唱的技术在AI领域引发了热议。该技术利用AI模型训练和后期处理,能够模拟生成与目标音色相同的声学模型,从而实现对歌曲的自动翻唱。近日,一位名为AI孙燕姿的歌手在网络上引起了巨大的关注。在B站上,关于AI孙燕
重庆人工智能创新中心:引领「东数西算」战略 助力区域科技创新
【本站】5月15日消息,重庆人工智能创新中心近日正式启用,标志着重庆市在人工智能领域迈出了重要的一步。据本站了解,重庆人工智能创新中心是「东数西算」国家一体化大数据中心成渝枢纽节点的典范项目。该中心拥有强大的AI集群,其总算力相当于50
49%员工担忧人工智能抢走饭碗 微软报告揭示对未来的担忧
【本站】5月10日消息,微软日前发布了2023年度工作趋势指数报告。该报告共调查了来自31个国家和地区的31000名员工,重点观察员工对人工智能的看法以及人工智能对生产力的影响。报告显示,三分之二的员工每天都要处理大量电子邮件和聊天信息,这影响了其工作效
人工智能生成内容需标识 发布者需对后果负责——抖音平台规范解读
【本站】5月9日消息,今天,抖音发布了一份关于人工智能生成内容的平台规范和行业倡议,该规范要求创作者、主播、用户、商家、广告主等平台生态参与者在使用生成式人工智能技术时必须遵循一系列行为准则。根据规范,发布者在应用人工智能生成的内容时必须对其
李楠分享vivo X Flip使用心得 称其小巧设计打破“魔法数字”
【本站】5月9日消息,前魅族科技高级副总裁、魅蓝品牌总裁李楠在微博分享了自己对vivo X Flip的使用感受,并表示这款手机纠正了他的“三个偏见”。据了解,李楠在使用vivo X Flip手机时,首先被其小巧的设计所吸引,他表示在非折叠时代,手机设计有一个“魔法
巴菲特谈AI:尊重技术进步,也需警惕潜在风险
【本站】5月7日消息,伯克希尔哈撒韦公司CEO沃伦·巴菲特在接受采访时表示,虽然他不懂人工智能和机器人,但他认为人工智能可以做一系列非常棒的事情。然而,他强调人工智能无法取代人类的基因,这是他对未来的看法。他曾经与比尔·盖茨交流过,盖茨展示给他
巨大变革与机遇:大模型技术开启人工智能新时代
【本站】5月6日消息,今日在讯飞星火认知大模型成果发布会上,科大讯飞董事长刘庆峰指出,大模型技术的出现将引领通用人工智能的发展,为各行各业带来巨大的机遇。据刘庆峰介绍,大模型技术的出现具有历史性意义,类似于PC和互联网的发展,将对整个社会产生巨
Meta纳入Graphcore团队以加强AI处理器技术
【本站】5月6日消息,据外媒报道,Meta从英国人工智能(AI)芯片公司Graphcore挖来了一支团队,该团队之前在挪威奥斯陆工作,直到2022年年底还在Graphcore开发AI网络技术。这支团队被纳入Meta的基础设施团队,他们带来了超级计算机系统设计和开发方面的深厚专业
亚马逊广告业务实现两位数增长 2022年收益达380亿美元
【本站】5月6日消息,据亚马逊发言人证实,该公司正积极组建团队,研究AI工具,旨在为商家生成照片和视频,以帮助他们在亚马逊平台上进行广告活动。亚马逊目前的广告业务重心是在搜索结果中为商家提供助力,而现在,该公司正在努力拓展更广泛的广告业务。据了
微软首席经济学家:人工智能一旦落入坏人之手非常危险
【本站】5月4日消息,微软首席经济学家迈克尔·施瓦茨在世界经济论坛小组会议上表示,人工智能一旦落入坏人之手将非常危险,可能会造成真正的破坏。他指出,人工智能如果被利用来制造假信息,将会带来比失业更可怕的后果。因此,人们应该更关注“人工智能被坏