实验室简介

[Wikipedia] Cognition refers to "the mental action or process of acquiring knowledge and understanding through thought, experience, and the senses".

东北大学机器人科学与工程学院的机器人认知实验室(Robot Cognition Lab,RCL)成立于2018年8月,主要致力于通过人工智能技术实现机器人对外部世界的认知。 正如Wiki的定义,认知是透过思想、经验和感官获得知识和理解的心理行为或过程,这是一个极具张力的概念。显然,RCL无法解决认知概念中提及的所有问题,甚至是部分问题,当然,目前也没有哪个实验室可以宣称胜任。

RCL一直把主要精力放在计算机视觉(Computer Vision,CV)自然语言处理(Natural Language Processing,NLP)方向。近期则更多地,关注通过融合视觉语言信息,构建具身智能的认知系统,引导机器人的行进和行为,称之为视觉-语言导航(Vision-Language Navigation,VLN)。 一方面,试图突破CV和NLP发展的桎梏,快速响应最新科研趋势;另一方面,作为更高层级的人工智能,具身智能更符合实验室的未来定位。

同时,RCL也非常注重工程实践,我们一直尝试将成熟的CV和NLP技术落地,比如,应用在医疗、金融、制造业和材料学等领域。 此外,由软及硬,我们具备工业软件数字孪生(Digital Twin)行业机器人的开发能力,期望能够通过人工智能与机器人技术深刻地影响现实行业。

研究方向介绍

Our research work has been attached to CV,NLP and Multi-Modality. Welcome to join us, RCL

我们的主要研究工作集中在计算机视觉、自然语言处理与多模态。欢迎加入机器人认知实验室

Visual and Language Navigation (VLN,视觉语言导航) 视觉语言导航(Visual and Language Navigation,VLN) 是一种结合视觉信息和自然语言指令的人工智能技术, 用于指导机器人或其他智能设备在未知的环境中进行自主导航。VLN主要基于深度学习、计算机视觉和自然语言处理等技术, 实现对环境中场景、物体和地标的理解和感知,并根据用户提供的自然语言指令进行路径规划和导航。 VLN技术在智能机器人、智能家居、自动驾驶和智能导航等领域具有广泛的应用前景。 它可以为人们带来更加智能和便捷的生活体验,也可以为工业自动化和智能制造等领域提供更高效和精准的解决方案。 RCL实验室主要研究通过多模态预训练模型深入挖掘单模态信息以及不同模态间的内在联系, 从而帮助agent更好的完成自然语言理解和场景感知等任务,进而提升导航效果。
Based on knowledge-base dialogue system (基于知识库的对话系统) 人机对话导航(Human-Machine Conversation) 是指让机器理解和运用自然语言实现人机通信的技术。 用户可以通过聊天机器人查询信息、获取特定知识库等。 人机对话可以分为面向任务的对话和开放域对话两种类型。本项目拟在战场场景下构建一个基于知识库的对话系统。 以往的面向任务的对话系统常通过构建静态知识库来获取特定的知识, 然而,在一些场景下,外部世界通常包含动态知识和时空状态, 因此,以前这些不包含时空状态和动态知识的方法限制了对话系统与人类的相似性。 在本项目中,我们将知识库信息作为对话系统连接世界的一种方式。 系统根据对话上下文和时空状态生成一个查询,通过查询来获取知识库信息, 这些知识库信息作为一个额外的知识使对话系统做出更加专业和自然的回答。
Medical Images Processing (医学影像处理) 医学图像分析与诊断(medical imaging and diagnose) 随着深度学习模型的发展,有很大的潜力被纳入临床实践, 特别是在医学图像分析领域。针对患者的医学检测结构(以克罗恩病为例),对于文本模态,将临床报告进行特征提取; 对于视觉模态,将肠镜和组织切片等医学影像进行特征提取。把每张肠镜等医学影像和对应的报告中的句子作为正样本对, 而其他的报告中的句子作为负样本对,这样就可以在图片编码器和文本编码器的加持下做对比学习。 通过多模态的融合操作,对临床诊断克罗恩病提供一种医疗辅助手段从而实现诊断准确率和效率的提高, 弥补由于病理上的巨大差异等客观因素和经验不足、观察不细致、人类专家的潜在疲劳等主观因素造成的诊断偏差, 拓宽了深度学习在临床疾病筛查以及后续治疗上的应用。
Medical Knowledge Graph (医疗知识图谱) 知识图谱(Knowledge graph)自然语言处理(Natural language processing) ,有着紧密的联系, 由Google公司于2012年首先提出,其主要目标是用来描述真实世界中存在的各种实体和概念。 随着架构和应用的不断完善与深入,知识图谱助力了很多热门的人工智能应用场景,例如语音助手、聊天机器人、智能问答等,覆盖了泛互联网、金融、政务、医疗等众多领域。 医学知识图谱可以将医疗信息系统中海量、异构、动态的医疗大数据进行可视化表达,从而进一步应用在智能分诊、辅助诊断、药物研发等场景。 实验室将医疗知识图谱构建的关键技术主要分为命名体识别(Named Entity Recognition,NER)、关系抽取(Relation Extraction)、实体对齐(entity alignment)三部分, 同时与沈阳盛京医院有着密切合作,目前主要研究基于医疗知识图谱的智能分诊系统。
Digital Twin with robotic arms (数字孪生机械臂) 数字孪生是指针对物理世界中的物体 , 通过数字化的手段构建一个在数字世界中一模一样的实体, 借此来实现对物理实体的了解、 分析和优化。 从技术角度而言, 数字孪生集成了建模与仿真、虚拟现实、物联网、云边协同以及人工智能等技术,通过实测、仿真和数据分析来实时感知、诊断、预测物理实体对象的状态, 通过指令来调控物理实体对象的行为,通过相关数字模型间的相互学习来进化自身,合理有效地调度资源或对相关设备进行维护。 本实验室将数字孪生与机器人研究融合,探索针对机器人应用场景的三维重建,数据采集与传输,动力学仿真等问题, 将深度学习的研究成果部署到机器人数字孪生系统,赋予机器人认知及思考的能力,从而探索机器人更多有趣的应用场景。