Search results
Jump to navigation
Jump to search
- ...数,最终找到最优策略。其目标是学习一个最优策略,使得智能体在环境中获得最大的累积奖励。TDC广泛应用于游戏AI、机器人控制、资源管理等领域。与[[Q-Learning]]等其他强化学习算法相比,TDC更强调对环境的逐步学习� ...tion-Reward-State-Action):** SARSA是一种on-policy的TDC算法,它使用实际采取的动作来更新价值函数。与Q-Learning不同,SARSA考虑了策略对价值函数的影响。 ...9 KB (164 words) - 00:46, 16 April 2025
- * **机器学习 (Machine Learning):** 这是人工智能审查系统的基石。常用的机器学习算法� * **监督学习 (Supervised Learning):** 通过已标记的数据集训练模型,例如将历史交易数据� ...8 KB (108 words) - 08:14, 18 May 2025
- * **强化学习 (Reinforcement Learning):** 用于优化药物结构,提高其活性和选择性。 | 机器学习 (Machine Learning) || 靶点识别、药物性质预测、临床试验优化 || 自动化、� ...10 KB (77 words) - 11:15, 18 May 2025
- ...Learning, RL) 作为一个强大的机器学习范式,在游戏、机器人控制、资源管理等领域取得了显著的成果。然而,传统的强化学习方法,例如 [[Q-learning]]、[[策略梯度]] 等,在处理复杂的、长时依赖的任务时常 * [[Q-learning]]: 一种基于价值的算法,学习状态-动作对的 Q 值。 ...10 KB (163 words) - 09:11, 12 May 2025
- ...习([[强化学习]])算法,属于值基(Value-Based)方法。它旨在学习一个最优的策略,在给定状态下,采取哪个动作能够最大化未来的累积奖励。Q-Learning的核心在于学习一个Q函数,该函数Q(s, a)表示在状态s下采� 与一些需要环境模型(例如动态规划)的算法不同,Q-Learning是一种模型无关(Model-Free)算法,这意味着它不需要知道 ...8 KB (229 words) - 21:11, 10 April 2025
- '''奖励函数'''是[[强化学习]] (Reinforcement Learning, RL) 领域中至关重要的概念,它定义了智能体 (Agent) 在特� * **[[课程学习]] (Curriculum Learning):** 从简单的任务开始,逐渐增加任务的难度,帮助智能� ...9 KB (112 words) - 12:53, 10 May 2025
- * **示范学习 (Demonstration Learning):** 通过模仿专家行为来设计塑形奖励。例如,如果专家� * **逆强化学习 (Inverse Reinforcement Learning):** 通过学习专家的策略来推断奖励函数,然后将其用作� ...9 KB (85 words) - 12:55, 10 May 2025
- 强化学习 (Reinforcement Learning, RL) 是一种机器学习范式,它不同于监督学习和无监督学� ...的学习 (Value-Based Learning):** 目标是学习一个最优的价值函数,从而找到在每个状态下采取的最佳行动。常见的算法包括[[Q-Learning]]和[[SARSA]]。 ...8 KB (76 words) - 10:55, 10 May 2025
- * **机器学习 (Machine Learning):** [[机器学习]]是人工智能的核心技术之一,通过让机器� * **深度学习 (Deep Learning):** [[深度学习]]是机器学习的一个分支,利用多层神经网� ...9 KB (70 words) - 10:44, 18 May 2025
- ...类、机器翻译或情感分析。在计算机视觉领域,可以使用[[卷积神经网络]] (CNN) 进行图像识别、目标检测或图像分割。在强化学习领域,可以使用[[Q-learning]]或[[Deep Q-Network]] (DQN) 训练智能体完成特定任务。 * **强化学习与深度学习结合 (Deep Reinforcement Learning)**:将深度学习用于强化学习中,可以处理高维状态空间� ...9 KB (57 words) - 06:52, 12 April 2025
- '''人工智能''' (Artificial Intelligence, AI) 和 '''深度学习''' (Deep Learning, DL) 是当今科技领域最热门的关键词之一。虽然它们经常� * '''监督学习''' (Supervised Learning): 算法通过带有标签的数据进行训练,即数据已经包含� ...10 KB (180 words) - 04:04, 18 May 2025
- ...ning, MRL)''' 是一种新兴的机器学习范式,它旨在让智能体能够学习 *如何* 学习。 传统 [[强化学习]] (RL) 算法,例如 [[Q-Learning]]、[[SARSA]] 和 [[策略梯度]] 方法,通常需要为每个新的任� * '''模型无关元强化学习 (Model-Agnostic Meta-Learning, MAML):''' MAML 是一种非常流行的元强化学习算法。 它的核� ...9 KB (111 words) - 15:31, 20 May 2025
- # Machine Learning 初学者指南 '''机器学习''' (Machine Learning, ML) 是人工智能 (Artificial Intelligence, AI) 的一个重要分支, ...9 KB (154 words) - 04:51, 7 May 2025
- # Deep Reinforcement Learning ...人工智能领域一个蓬勃发展的分支,它结合了[[强化学习]] (Reinforcement Learning) 的决策能力和[[深度学习]] (Deep Learning) 的特征提取能力,从而能够处理高维度、复杂环境下的� ...10 KB (171 words) - 12:31, 7 May 2025
- * **联邦学习 (Federated Learning)**:联邦学习允许在不共享原始数据的情况下,训练机器� * **强化学习 (Reinforcement Learning)**:强化学习是一种通过试错来学习最优策略的方法。它� ...9 KB (88 words) - 19:38, 15 April 2025
- * '''学习算法 (Learning Algorithm):''' 用于训练元模型的算法。常用的学习算法包� | '''模型无关元学习 (Model-Agnostic Meta-Learning - MAML)''' | 寻找一个模型参数的良好初始化点,使得该模� ...9 KB (155 words) - 12:20, 20 May 2025
- * **机器学习 (Machine Learning):** 利用[[机器学习算法]]分析历史交易数据,预测未来的� * **深度学习 (Deep Learning):** 深度学习是机器学习的一个分支,通过构建深层神经� ...10 KB (84 words) - 10:52, 18 May 2025
- === Q-Learning 初学者指南 === ...。虽然最初应用于机器人控制,但其原理同样适用于金融市场,例如 [[二元期权]] (Binary Options) 交易。本篇文章将深入浅出地介绍 Q-Learning 的概念、原理、算法流程以及在二元期权交易中的潜在应 ...9 KB (210 words) - 23:46, 9 May 2025
- * **对抗性机器学习 (Adversarial Machine Learning):** 对抗性机器学习旨在寻找能够欺骗模型的恶意输入,� * **公平性机器学习 (Fairness Machine Learning):** 公平性机器学习旨在消除模型中的偏见,而XAI可以帮� ...10 KB (102 words) - 11:10, 13 April 2025
- 1. '''监督学习 (Supervised Learning):''' AlphaGo首先通过学习大量的人类棋谱来训练策略网络� 2. '''强化学习 (Reinforcement Learning):''' AlphaGo通过与自身对弈来训练策略网络和价值网络,� ...10 KB (155 words) - 05:12, 7 May 2025