Azure 机器学习数据存储

Azure 机器学习数据存储是 Azure 机器学习工作区中用于管理对数据源的连接和访问的关键组件。它抽象了底层数据存储的复杂性，并提供了一种安全、可重复和可管理的方式来访问数据，无论是云端存储、本地文件还是数据库。对于机器学习项目而言，数据的质量和可访问性至关重要，数据存储正是为了解决这些问题而设计的。本文将深入探讨 Azure 机器学习数据存储的各个方面，从概念、类型、创建、使用到最佳实践，旨在为初学者提供一份全面的指南。

为什么需要数据存储？

在开始讨论具体的技术细节之前，先理解为什么需要数据存储至关重要。传统上，机器学习流程中数据访问通常涉及硬编码的凭据、文件路径和连接字符串。这种方法存在诸多问题：

安全风险： 硬编码凭据会带来安全漏洞，容易被恶意利用。
可重复性差： 不同环境下的数据访问路径可能不同，导致模型训练和部署出现问题。
管理复杂： 管理大量数据源和凭据非常繁琐。
版本控制缺失： 难以追踪数据版本的变化，影响模型的可追溯性。

数据存储通过解决这些问题，提升了机器学习项目的可靠性、安全性和可维护性。它提供了一个集中式管理数据连接的机制，并支持版本控制、访问控制和数据发现等功能。这对于构建可扩展、可重复和可信赖的机器学习解决方案至关重要，就像在技术分析中需要稳定的数据源一样。

数据存储的类型

Azure 机器学习支持多种类型的数据存储，以满足不同的数据源和使用场景。

Azure Blob 存储数据存储： 用于连接到 Azure Blob 存储，适合存储非结构化数据，如图像、视频、文本文件等。类似于蜡烛图，Blob 存储可以用来记录大量历史数据。
Azure 文件共享数据存储： 用于连接到 Azure 文件共享，允许访问 SMB 文件共享。适合访问本地文件或通过网络共享的文件。
Azure SQL 数据库数据存储： 用于连接到 Azure SQL 数据库，可以安全地访问关系型数据。就像支撑位和阻力位一样，数据库存储可以提供结构化的信息。
Azure Cosmos DB 数据存储： 用于连接到 Azure Cosmos DB，一种全球分布式、多模型数据库服务。
Azure Data Lake Storage Gen2 数据存储： 用于连接到 Azure Data Lake Storage Gen2，构建在大规模数据湖之上的存储服务，适合存储海量数据。
自定义数据存储： 允许连接到任何支持自定义连接字符串的数据源。这需要更深入的配置，但提供了更大的灵活性。类似于移动平均线，自定义数据存储可以根据特定需求进行调整。

选择哪种类型的数据存储取决于您的数据存储位置、数据类型和访问需求。

创建数据存储

创建数据存储可以通过 Azure 机器学习工作室 (Azure Machine Learning studio) 或使用 Azure CLI 完成。以下是使用 Azure 机器学习工作室创建数据存储的步骤：

1. 登录 Azure 机器学习工作室： 访问 [[1]] 并使用您的 Azure 帐户登录。 2. 选择您的工作区： 从订阅中选择您要使用的 Azure 机器学习工作区。 3. 导航到“数据存储”部分： 在左侧导航栏中，选择“数据存储”。 4. 点击“创建”： 点击“创建”按钮，开始创建新的数据存储。 5. 选择数据存储类型： 从可用类型中选择适合您数据源的类型。 6. 配置连接详细信息： 提供必要的连接信息，例如订阅 ID、资源组名称、存储帐户名称、容器名称等。 7. 测试连接： 在完成配置后，测试连接以确保数据存储可以成功访问数据源。 8. 命名并创建： 为数据存储指定一个名称并点击“创建”。

使用 Azure CLI 创建数据存储的命令如下（以 Azure Blob 存储为例）：

```azurecli az ml datastore create --name myblobdatastore --type blob --account-name <storage_account_name> --container-name <container_name> --resource-group <resource_group_name> --workspace-name <workspace_name> ```

使用数据存储

创建数据存储后，可以在 Azure 机器学习的各种组件中使用它，例如：

训练脚本： 在训练脚本中，可以使用数据存储的路径访问数据。这避免了硬编码凭据和文件路径的需要。
数据准备： 使用 Azure 机器学习的数据准备工具，可以从数据存储加载数据，进行清洗、转换和特征工程。
管道： 在 Azure 机器学习管道中，可以使用数据存储作为输入和输出数据源。
模型部署： 在模型部署期间，可以使用数据存储提供模型所需的实时数据。

例如，在 Python 训练脚本中，可以使用以下代码访问 Azure Blob 存储数据存储中的数据：

```python from azureml.core import Workspace, Datastore

获取工作区

workspace = Workspace.from_config()

获取数据存储

datastore = Datastore.get(workspace, 'myblobdatastore')

获取文件路径

path = datastore.path('mydata.csv')

读取数据

import pandas as pd df = pd.read_csv(path)

print(df.head()) ```

数据存储的最佳实践

为了确保数据存储的有效性和安全性，以下是一些最佳实践：

使用最小权限原则： 只授予数据存储访问所需的最少权限。
使用 Azure Key Vault 存储凭据： 将敏感凭据存储在 Azure Key Vault 中，并使用托管身份访问它们。这类似于风险回报比，保护关键信息。
启用数据存储版本控制： 启用数据存储版本控制，以便追踪数据变化并回滚到之前的版本。
使用数据存储名称空间： 使用数据存储名称空间来组织和管理数据。
定期审查数据存储访问权限： 定期审查数据存储访问权限，确保只有授权用户才能访问数据。
监控数据存储活动： 监控数据存储活动，及时发现和处理安全事件。
利用数据目录： 使用 Azure 机器学习的数据目录，方便用户发现和理解数据。
考虑数据分区： 对于大型数据集，考虑使用数据分区来提高数据访问性能。类似于分形市场假说，将大数据集分解为更小的部分。
使用数据验证： 在数据加载之前，使用数据验证来确保数据的质量和一致性。
记录数据来源： 清晰记录数据来源，以便追踪数据 lineage。
应用数据转换： 在数据存储中应用必要的数据转换，以满足机器学习模型的要求。类似于波浪理论，对数据进行处理使其更易于分析。
利用增量加载： 对于频繁更新的数据，使用增量加载来减少数据加载的时间和成本。
考虑数据压缩： 对于大型文件，考虑使用数据压缩来减少存储空间和传输时间。
遵循数据治理策略： 遵循组织的数据治理策略，确保数据的合规性和安全性。类似于交易系统，需要严格的规则和流程。

数据存储与 Azure Purview

Azure Purview 是一个统一的数据治理服务，可以帮助您发现、理解和管理企业数据资产。它可以与 Azure 机器学习数据存储集成，提供更全面的数据治理能力。通过集成，您可以：

自动发现数据资产： Azure Purview 可以自动发现 Azure 机器学习数据存储中的数据资产。
创建数据目录： Azure Purview 可以创建数据目录，方便用户搜索和浏览数据资产。
应用数据分类和标签： Azure Purview 可以应用数据分类和标签，以便更好地理解数据资产。
实施数据访问控制： Azure Purview 可以实施数据访问控制，确保只有授权用户才能访问数据资产。

总结

Azure 机器学习数据存储是构建可靠、安全和可扩展机器学习解决方案的关键组件。通过理解数据存储的类型、创建、使用和最佳实践，您可以有效地管理数据，并加速机器学习项目的开发和部署。就像理解日内交易的风险一样，理解数据存储的细节对于成功至关重要。记住，良好的数据管理是成功机器学习的基础。并且，要结合资金管理的原则，合理利用 Azure 机器学习提供的资源。

立即开始交易

注册 IQ Option （最低存款 $10）开设 Pocket Option 账户（最低存款 $5）

加入我们的社区

订阅我们的 Telegram 频道 @strategybin 获取： ✓ 每日交易信号 ✓ 独家策略分析 ✓ 市场趋势警报 ✓ 新手教育资源

Azure 机器学习数据存储

Contents