Hugging Face 资源下载中心

本页面汇总了所有与 Hugging Face 相关的核心资源获取方式,助您快速搭建和启动您的 AI 项目。

1. Hugging Face 核心库安装

Hugging Face 的核心库,例如 Transformers、Datasets 和 Tokenizers,可以通过 Python 的包管理器 `pip` 进行安装。建议在虚拟环境中进行安装,以避免依赖冲突。

通用安装命令:

# 创建并激活虚拟环境 (可选但强烈推荐)
python -m venv huggingface_env
source huggingface_env/bin/activate  # Linux/macOS
# 或 huggingface_env\Scripts\activate.bat  # Windows

# 安装 Transformers 库
pip install transformers

# 安装 Datasets 库
pip install datasets

# 安装 Tokenizers 库
pip install tokenizers

支持特定框架的安装:

如果您需要使用 PyTorch 或 TensorFlow 作为后端,可以安装对应版本的库:

# 安装支持 PyTorch 的 Transformers
pip install transformers[torch]

# 安装支持 TensorFlow 的 Transformers
pip install transformers[tf]

# 安装支持 JAX 和 Flax 的 Transformers
pip install transformers[flax]

注意: 这些命令会自动安装所需的 PyTorch、TensorFlow 或 JAX 依赖。如果您已经安装了特定版本的框架,请确保它们与 Hugging Face 库兼容。

2. 模型和数据集下载

Hugging Face Hub 是获取预训练模型和数据集的核心平台。您可以通过以下方式下载和使用它们:

通过 Python 代码加载模型和分词器:

大多数情况下,您不需要手动下载模型文件,而是直接通过 Transformers 库在代码中加载。

from transformers import AutoTokenizer, AutoModel

# 加载一个 BERT 模型的分词器和模型
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")

# 首次加载时,文件会自动下载并缓存到本地。
# 您也可以指定本地路径:
# model = AutoModel.from_pretrained("./my_local_model_path")

通过 Python 代码加载数据集:

from datasets import load_dataset

# 加载一个 SQuAD 数据集
squad_dataset = load_dataset("squad")

# 加载一个自定义数据集(例如 CSV 文件)
# dataset = load_dataset("csv", data_files="my_data.csv")

直接访问 Hugging Face Hub:

  • 模型库: huggingface.co/models - 浏览并查找各种预训练模型。每个模型页面都提供了详细信息、用法示例和许可证。
  • 数据集: huggingface.co/datasets - 探索海量数据集,支持多种格式和任务类型。
  • Spaces (应用): huggingface.co/spaces - 体验并获取由社区构建的交互式机器学习应用。许多 Spaces 也提供了代码下载链接。

3. 官方文档和教程

Hugging Face 提供了极其全面和易于理解的官方文档,这是学习和掌握其技术的最佳资源。

4. GitHub 仓库

所有 Hugging Face 的核心库都是开源的,其源代码和贡献指南都托管在 GitHub 上。

您可以通过克隆这些仓库来获取最新的代码,参与贡献,或查看更多示例。