资源中心

AI领域与任务

探索人工智能各领域的核心任务与研究方向，了解每个领域的关键技术与应用场景

AI 领域

研究任务

计算机视觉(Computer Vision)

计算机视觉是一个跨学科的科学领域，涉及到计算机如何从数字图像或视频中获得高水平的理解。从工程的角度来看，它试图理解人类视觉系统能够完成的任务并使之自动化。计算机视觉任务包括获取、处理、分析和理解数字图像的方法，以及从现实世界中提取高维数据以产生数字或符号信息，例如以决策的形式。这里的理解意味着将视觉图像（视网膜的输入）转化为对世界的描述，使思维过程有意义并能引起适当行动。这种图像理解可以被看作是利用借助几何学、物理学、统计学和学习理论构建的模型将符号信息从图像数据中分离出来。  计算机视觉这门科学学科关注的是从图像中提取信息的人工系统背后的理论。图像数据可以有多种形式，如视频序列、来自多个摄像头的视图、来自三维扫描仪或医疗扫描设备的多维数据。计算机视觉的技术学科寻求将其理论和模型应用于计算机视觉系统的构建。——来自维基百科

人类姿态识别

Human Pose Recognition

人类动作识别

Human Action Recognition

图像生成3D

Image-to-3D

图像生成

Image Generation

人脸识别

Face Recognition

自然语言处理(Natural Language Process)

自然语言处理（NLP）是指计算机科学的一个分支，更具体地说，是人工智能或AI的一个分支，其目的是让计算机有能力以与人类相同的方式理解文本和口头语言。NLP将计算语言学--基于规则的人类语言建模--与统计学、机器学习和深度学习模型相结合。这些技术结合在一起，使计算机能够处理文本或语音数据形式的人类语言，并 "理解 "其完整的含义，包括说话者或作者的意图和情感。NLP驱动计算机程序将文本从一种语言翻译成另一种语言，响应口头命令，并迅速总结大量的文本，甚至是实时的。你很有可能以语音操作的GPS系统、数字助理、语音到文本听写软件、客户服务聊天机器人和其他消费便利的形式与NLP进行过互动。但NLP在企业解决方案中也发挥着越来越大的作用，帮助简化业务运营，提高员工生产力，并简化关键任务的业务流程。——来自IBM

文本嵌入

Embedding

常识推理

Commonsense Reasoning

语句相似性

Sentence Similarity

文本生成

Text Generation

代码补全

Code Completion

表格数据处理(Tabular Data Process)

表格类数据处理（Tabular Data Process）是指针对二维表格形式的数据处理任务，传统机器学习所针对的分类、聚类、回归等都是这种形式的数据处理。与图片、视频、自然语言等非结构化的数据不同，表格类的数据由于其规整的格式和经过处理的可能丢失了原始信息的数据，虽然容易被传统的技术所存储使用（包括数据库、Excel等），但是其处理和预测与所能提供的属性（特征）程度有密切的关系。近几年深度学习方法的发展虽然让人工智能相关理论和技术有了很大的进展，但是对于表格数据的处理依然相比较而言进展不够明显。但这却是很多行业所需要的数据处理。

回归

Regression

聚类

Clustering

分类

Classification

多模态学习(Multimodal Learning)

多模态学习试图对不同模态的数据组合进行建模，这在现实世界的应用中经常出现。联合数据的一个例子是将文本（通常表示为离散的字数向量）与由像素强度和注释标签组成的成像数据相结合。由于这些模式具有根本上不同的统计属性，将它们结合在一起是不容易的，这就是为什么需要专门的建模策略和算法。很多模型/算法已经实现了对某类数据的检索和分类，例如图像或文本（与机器互动的人类可以提取图片形式的图像和可能是任何信息的文本等）。然而，数据通常带有不同的模式（它是指一个系统的组成部分可能被分离或组合的程度），这些模式携带不同的信息。例如，为一张图片添加标题以传达该图片未呈现的信息是非常常见的。同样地，有时用图像来描述从文本中可能不明显的信息也是比较直接的。因此，如果一些不同的词出现在类似的图像中，这些词很可能是用来描述同一事物的。反之，如果一些词用在不同的图像中，这些图像可能代表同一个物体。因此，邀请一个能够共同代表信息的新模型是很重要的，这样的模型可以捕捉到不同模式之间的相关结构。此外，它还应该能够恢复缺失的模式，例如，根据文本描述预测可能的图像对象。多模态深度波尔兹曼机模型满足了上述目的。多模态深度玻尔兹曼机被成功用于分类和缺失数据检索。在对具有图像-文本模态或单一模态的数据进行测试时，多模态深度玻尔兹曼机的分类精度优于支持向量机、潜在狄里切特分配和深度信念网络等模型。多模态深度玻尔兹曼机也能够在观察到的模态下以相当好的精度预测缺失的模态。自我监督学习为多模态带来了更有趣和强大的模型。OpenAI开发了CLIP和DALL-E模型，彻底改变了多模态。——来自维基百科

基于文本的图像编辑

Image Edit Based on Text Instructions

图像生成图像

Image to Image

语音生成

Speech Generation

音乐生成

Music Generation

文本生成3D

Text to 3D