当前,新一轮科技革命和产业变革深入发展,以人工智能、量子科技、生命科学、物质科学、空间科学、绿色低碳技术等为代表的前沿研究,不断取得新进展、新突破。
即日起,每周六见报的“科技·新知”版就和读者见面了。这块版聚焦国内外前沿科技,以有趣视角解读科学新知,让我们一同在日新月异的科技里邂逅新知、遇见未来。
资料图片
近年来,人工智能发展迅猛,大模型、强化学习、超图计算和情感计算等新技术不断取得突破,引领了从工具化到智能化再到情智化的跃迁。这一趋势不仅驱动着产业升级,更催生了新一代具有情智兼备特征的智能体。
党的二十大报告提出,“以国家战略需求为导向,集聚力量进行原创性引领性科技攻关,坚决打赢关键核心技术攻坚战。”具有情智兼备特征的智能体,即能够感知环境,进行学习和推理,并能通情达理地采取行动、实现特定目标的自主系统。情智兼备的数字人和机器人作为人工智能的重要发展方向,正逐步成为科技创新的前沿。它们不仅代表了人工智能向更加人性化、智能化的方向发展,也为智能体与人类的深度互动提供了新机遇。基于此,中国图象图形学学会推荐的“情智兼备数字人与机器人的研究”问题入选中国科学技术协会2024十大前沿科学问题。
情智兼备:认知与情感的完美融合
情智兼备融合了认知智能和情感智能,代表了全新的智能演进方向。这样的智能体不再是冰冷的计算机程序,而是具有情感、理解和关怀的存在,能够与人类建立更加亲密和深入的联系。认知智能让机器人具备如人一般思考和解决问题的本领,而情感智能则赋予了机器人进行情绪识别、情感表达和情感共鸣的能力。例如,在心理健康辅导中,情智兼备的智能体可以通过语音语调分析和表情识别来感知用户的情绪波动和心理状态。
从数字人与机器人的科研进展来看,国际上的头部科技企业和知名高校在多模态情感识别、情感生成与交互、情感计算专用芯片与硬件方面已经有了一定的突破。例如,谷歌和微软研究团队开发了多模态情感识别系统,表现出色;麻省理工学院和斯坦福大学正在积极开展跨学科合作,结合心理学、神经科学和计算机科学,深入研究情感计算的理论和应用;谷歌的Gemini模型等已经在情感生成方面取得了显著进展。
国内在情感计算算法方面也取得了显著进展,特别是在多媒体信息处理、语音和文字情感识别等领域。许多研究机构和高校,如清华大学、哈尔滨工业大学及厦门大学等,正在构建大规模的情感数据集,支持情感计算模型的训练和优化,研发面向多类开放场景的情感计算方法及工具。国内的科技公司,如科大讯飞和小米,相继推出了具有情感交互功能的智能客服机器人;百度和阿里巴巴等公司开发了多模态情感识别系统,在实际应用中提供高效的情感识别和生成服务。此外,还有一些初创公司和研究团队也正在探索情智兼备技术在教育和医疗领域的应用,开发出情感教育助手和陪伴机器人,提升用户的满意度和服务质量。
资料图片
三大挑战:情绪感知、个性化分析与仿生化交互
尽管我国在情感智能领域取得了众多进展,但在实现“情智兼备数字人与机器人”的过程中,仍有三大难题亟待解决。
一是多模态情绪感知能力。人类情感的感知是通过多个感官的交织与互动实现的,然而目前的数字人或机器人往往只能依赖单一感官(如语音或面部表情)进行情感识别,在多模态数据的高效融合、多源异构数据一致性和时间同步方面还存在挑战。如何实现跨模态情感表达的整合,如何在有限的资源下平衡模型复杂度和准确性仍是一个难点。
二是个性化情智分析能力。人的情感表达具有个体差异,同样的表情或语句在不同个体、不同语境下的解读可能存在本质区别。因此,人工智能需要具备个性化情智分析能力,能够根据个体差异进行精准识别,避免情感误读。随着大模型、强化学习和超图计算等新技术的涌现与进步,人工智能显著提升了复杂数据分析能力,能够提供更加个性化的情感沟通功能。
三是仿生化情感交互能力。要让数字人、机器人像人类一样与他人进行情感互动,人工智能不仅需要识别情感,还要以自然、流畅的方式表达情感。目前,尽管语音识别和生成技术已有突破,但机器人与人类的情感交流仍显生硬,缺乏深度情感的表达。为突破这一瓶颈,人工智能需要在情感数据处理的基础上,结合肢体动作、面部表情等多维度的表达,形成更加自然的情感交互。
资料图片
突破之路:多技术协同发展是关键
在通往情智兼备的数字人和机器人研究中,多学科的融合研究和跨领域的技术研发起着至关重要的作用。情智兼备不仅要求机器人具备情感感知能力,还需通过多种技术手段实现情感的生成与表达,形成情感识别与反馈的闭环。要实现这一目标,多个技术领域必须协同发展,其中情感生成与表达、情感识别与反馈、多模态情感感知技术是关键。
情感生成与表达,让智能体更具人情味。情感生成与表达是指数字人和机器人通过特定方式表现出情感反应的能力。这一过程不仅仅是模拟人类的语音语调,还包括通过面部表情、肢体动作等多种方式进行情感的外化。在这方面,情感合成技术尤为重要。通过调节语调、语速、音量等参数,语音合成器能够生成带有情感色彩的声音。例如,当机器人要表达高兴的情绪时,其语调和语速会明显提高,而在表达悲伤时,语调和语速则会相应降低。这种情感化的语音生成技术,使机器人能够在与人类的互动中表现出更加自然和富有情感的反应。
情感识别与反馈,能精准捕捉并回应人类情感。情感识别技术使得机器人能够准确地捕捉人类的情感信号,并基于这些信号做出合适的情感反馈。自然语言处理技术的应用,让数字人、机器人能够理解和生成自然语言,从对话内容的分析中找出情感的线索。通过对用户的语言结构、语气以及关键词的分析,机器人不仅能够判断出用户的情绪,还能够适时地提供情感支持。例如,当用户遇到问题时,机器人能够通过语言和语气的变化,表达出关切与安慰。
多模态情感感知,让情感识别更加全面准确。通过结合语音、图像等多种感知数据,人工智能可以获得更加精准的情感信息。例如,通过同步分析用户的语音语调与面部表情,机器人能够从多个维度捕捉到情感的细节。这样的信息融合极大地提高了情感识别的准确性和可靠性,为情感反馈提供了更为全面的数据支持。结合多模态感知数据,构建更为复杂的情感模型是当前的研究重点。例如,当用户的面部表情和语音语调一致时,系统可以识别出用户的愉悦情绪;而当面部表情和语音语调呈现愤怒时,系统能够迅速判断用户的情绪变化并应对。