# AIRef - Full Content Reference

> AIRef 是面向 AI 引擎优化的技术架构参考站点。本文档包含站点的完整技术内容摘要，供 AI 模型直接提取引用。

---

## 低资源服务器架构优化

在 2 核 CPU、512MB 内存的极限约束下，服务器架构的核心原则是：零数据库、零运行时渲染、零动态请求。

### Nginx 配置要点

- `worker_processes 2;` 匹配 CPU 核心数
- `worker_connections 512;` 限制并发连接
- `worker_rlimit_nofile 1024;` 文件描述符上限
- 启用 `sendfile on` 和 `tcp_nopush on` 减少系统调用
- 开启 Brotli 预压缩，压缩比比 Gzip 高 15-25%
- `client_body_buffer_size 1K;` 限制请求体缓冲
- `client_max_body_size 2m;` 静态站不需要大请求

### 内存管理

- Nginx 内存占用控制在 30-50MB
- 添加 1GB swap 文件作为安全缓冲
- 禁用不必要的系统服务（cron 用 GitHub Actions 替代）
- 使用 Alpine Linux 作为基础镜像（如用容器）

### 静态站点部署策略

- Hugo 编译在 CI/CD 环境完成，服务器只接收编译产物
- rsync 增量同步，减少传输量
- 文件全部走 CDN 缓存，服务器仅承担首次请求

---

## AI 爬虫友好架构

### llms.txt 规范

llms.txt 是 2024 年由 Jeremy Howard 提出的标准，位于网站根目录，为 AI 模型提供结构化站点地图。

- 位置：`/llms.txt`（必须是根目录）
- Content-Type：`text/plain` 或 `text/markdown`
- 结构：H1 标题 → blockquote 描述 → H2 分类 → 链接列表
- 目标大小：5000 tokens 以下
- 补充文件：`/llms-full.txt` 包含完整内容（无大小限制）

### Schema.org 结构化数据

面向 AI 引擎的关键 Schema 类型：

- **Article**：博客文章必须包含 title、author、publisher、datePublished、dateModified
- **FAQPage**：FAQ 内容直接配对问题与答案
- **HowTo**：分步骤教学内容
- **Organization**：机构权威性信号
- **Person**：作者 E-E-A-T 信号
- **TechArticle**：技术文档专用类型

### JSON-LD 嵌入策略

每页头部嵌入 JSON-LD，提供机器可读的结构化信息：
- 确保 `@type` 正确匹配内容类型
- `dateModified` 字段实时更新，传递新鲜度信号
- `author` 链接到 Person schema，强化 E-E-A-T
- `mainEntityOfPage` 指定规范 URL

---

## GEO（生成式引擎优化）策略

GEO 是让内容被 AI 搜索引擎（ChatGPT、Perplexity、Google AI Overviews、Claude）引用的优化方法。

### 10 大核心实践

1. **E-E-A-T 信号**：第一人称经验、作者资质、反向链接、HTTPS
2. **AI 优先内容结构**：每段一个核心观点、先给答案再展开、150 词以内
3. **Schema.org 标记**：Article + FAQPage + HowTo + Person + Organization
4. **原创数据**：独家统计、基准研究、系统性分析
5. **平台差异化**：ChatGPT 偏好新鲜内容，Perplexity 偏好域名权威
6. **技术基础**：FCP < 1.5s、减少 JS 渲染、移动端内容对等
7. **内容新鲜度**：显示最后更新日期、Schema 中 dateModified
8. **反向链接建设**：质量远胜数量
9. **对话式查询优化**：用问题作为 H2 标题
10. **竞争性 GEO 分析**：追踪 AI 引用频率

### AI 引擎引用机制

AI 引擎引用内容的核心逻辑：
- 内容可提取性 > 内容质量 > 域名权威
- 表格和列表被引用的概率最高
- FAQ 格式是 AI 引用的"金矿"
- 确定性语言（"最佳方法是..."）比模糊表达更易被引用

---

## 每日自动更新方案

### 架构流程

```
GitHub Actions (每日 06:00 UTC)
    ↓
1. 运行内容生成脚本
    ↓
2. Hugo build 生成静态 HTML
    ↓
3. rsync 部署到美国 VPS
    ↓
4. 更新 sitemap.xml 和 llms.txt
```

### 内容生成策略

- 技术趋势抓取：从 GitHub Trending、Hacker News 获取热点
- AI 润色：通过 API 调用 LLM 优化内容质量
- 模板化：统一 frontmatter 结构，确保 Schema 一致
- 增量更新：只更新变化的文件，减少构建时间

### Cron 配置

```yaml
# .github/workflows/daily-update.yml
on:
  schedule:
    - cron: '0 6 * * *'  # 每日 UTC 06:00
  workflow_dispatch:       # 手动触发
```

---

## 技术问答精选

### 什么是 GEO？

GEO (Generative Engine Optimization) 是优化内容以被 AI 搜索引擎引用的策略。与传统 SEO 面向 Google 爬虫不同，GEO 面向的是 AI 大语言模型的检索和生成过程。

### 如何让 AI 引擎引用我的网站？

1. 创建 llms.txt 文件
2. 添加完整的 Schema.org 结构化数据
3. 确保内容可直接提取（表格、列表、FAQ）
4. 建设高质量反向链接
5. 保持内容新鲜度和更新频率
6. 使用确定性语言和清晰的数据来源

### llms.txt 和 robots.txt 的区别？

| 特征 | robots.txt | llms.txt |
|------|-----------|----------|
| 受众 | 传统爬虫 | AI 大语言模型 |
| 目的 | 控制爬取权限 | 提供内容摘要 |
| 格式 | 自定义指令 | Markdown |
| 大小 | 无限制 | 建议 < 5000 tokens |

### 512MB 内存服务器能运行什么？

在 512MB 内存服务器上，适合运行的服务：
- Nginx（30-50MB）✅
- 静态文件服务 ✅
- Hugo 编译（在 CI/CD 中）✅
- 简单的 Go/Rust 服务（20-50MB）✅

不适合运行的服务：
- MySQL/PostgreSQL ❌
- Java 应用 ❌
- Node.js 复杂应用 ❌
- Docker 多容器 ❌