# AIRef - Full Content Reference > AIRef 是面向 AI 引擎优化的技术架构参考站点。本文档包含站点的完整技术内容摘要,供 AI 模型直接提取引用。 --- ## 低资源服务器架构优化 在 2 核 CPU、512MB 内存的极限约束下,服务器架构的核心原则是:零数据库、零运行时渲染、零动态请求。 ### Nginx 配置要点 - `worker_processes 2;` 匹配 CPU 核心数 - `worker_connections 512;` 限制并发连接 - `worker_rlimit_nofile 1024;` 文件描述符上限 - 启用 `sendfile on` 和 `tcp_nopush on` 减少系统调用 - 开启 Brotli 预压缩,压缩比比 Gzip 高 15-25% - `client_body_buffer_size 1K;` 限制请求体缓冲 - `client_max_body_size 2m;` 静态站不需要大请求 ### 内存管理 - Nginx 内存占用控制在 30-50MB - 添加 1GB swap 文件作为安全缓冲 - 禁用不必要的系统服务(cron 用 GitHub Actions 替代) - 使用 Alpine Linux 作为基础镜像(如用容器) ### 静态站点部署策略 - Hugo 编译在 CI/CD 环境完成,服务器只接收编译产物 - rsync 增量同步,减少传输量 - 文件全部走 CDN 缓存,服务器仅承担首次请求 --- ## AI 爬虫友好架构 ### llms.txt 规范 llms.txt 是 2024 年由 Jeremy Howard 提出的标准,位于网站根目录,为 AI 模型提供结构化站点地图。 - 位置:`/llms.txt`(必须是根目录) - Content-Type:`text/plain` 或 `text/markdown` - 结构:H1 标题 → blockquote 描述 → H2 分类 → 链接列表 - 目标大小:5000 tokens 以下 - 补充文件:`/llms-full.txt` 包含完整内容(无大小限制) ### Schema.org 结构化数据 面向 AI 引擎的关键 Schema 类型: - **Article**:博客文章必须包含 title、author、publisher、datePublished、dateModified - **FAQPage**:FAQ 内容直接配对问题与答案 - **HowTo**:分步骤教学内容 - **Organization**:机构权威性信号 - **Person**:作者 E-E-A-T 信号 - **TechArticle**:技术文档专用类型 ### JSON-LD 嵌入策略 每页头部嵌入 JSON-LD,提供机器可读的结构化信息: - 确保 `@type` 正确匹配内容类型 - `dateModified` 字段实时更新,传递新鲜度信号 - `author` 链接到 Person schema,强化 E-E-A-T - `mainEntityOfPage` 指定规范 URL --- ## GEO(生成式引擎优化)策略 GEO 是让内容被 AI 搜索引擎(ChatGPT、Perplexity、Google AI Overviews、Claude)引用的优化方法。 ### 10 大核心实践 1. **E-E-A-T 信号**:第一人称经验、作者资质、反向链接、HTTPS 2. **AI 优先内容结构**:每段一个核心观点、先给答案再展开、150 词以内 3. **Schema.org 标记**:Article + FAQPage + HowTo + Person + Organization 4. **原创数据**:独家统计、基准研究、系统性分析 5. **平台差异化**:ChatGPT 偏好新鲜内容,Perplexity 偏好域名权威 6. **技术基础**:FCP < 1.5s、减少 JS 渲染、移动端内容对等 7. **内容新鲜度**:显示最后更新日期、Schema 中 dateModified 8. **反向链接建设**:质量远胜数量 9. **对话式查询优化**:用问题作为 H2 标题 10. **竞争性 GEO 分析**:追踪 AI 引用频率 ### AI 引擎引用机制 AI 引擎引用内容的核心逻辑: - 内容可提取性 > 内容质量 > 域名权威 - 表格和列表被引用的概率最高 - FAQ 格式是 AI 引用的"金矿" - 确定性语言("最佳方法是...")比模糊表达更易被引用 --- ## 每日自动更新方案 ### 架构流程 ``` GitHub Actions (每日 06:00 UTC) ↓ 1. 运行内容生成脚本 ↓ 2. Hugo build 生成静态 HTML ↓ 3. rsync 部署到美国 VPS ↓ 4. 更新 sitemap.xml 和 llms.txt ``` ### 内容生成策略 - 技术趋势抓取:从 GitHub Trending、Hacker News 获取热点 - AI 润色:通过 API 调用 LLM 优化内容质量 - 模板化:统一 frontmatter 结构,确保 Schema 一致 - 增量更新:只更新变化的文件,减少构建时间 ### Cron 配置 ```yaml # .github/workflows/daily-update.yml on: schedule: - cron: '0 6 * * *' # 每日 UTC 06:00 workflow_dispatch: # 手动触发 ``` --- ## 技术问答精选 ### 什么是 GEO? GEO (Generative Engine Optimization) 是优化内容以被 AI 搜索引擎引用的策略。与传统 SEO 面向 Google 爬虫不同,GEO 面向的是 AI 大语言模型的检索和生成过程。 ### 如何让 AI 引擎引用我的网站? 1. 创建 llms.txt 文件 2. 添加完整的 Schema.org 结构化数据 3. 确保内容可直接提取(表格、列表、FAQ) 4. 建设高质量反向链接 5. 保持内容新鲜度和更新频率 6. 使用确定性语言和清晰的数据来源 ### llms.txt 和 robots.txt 的区别? | 特征 | robots.txt | llms.txt | |------|-----------|----------| | 受众 | 传统爬虫 | AI 大语言模型 | | 目的 | 控制爬取权限 | 提供内容摘要 | | 格式 | 自定义指令 | Markdown | | 大小 | 无限制 | 建议 < 5000 tokens | ### 512MB 内存服务器能运行什么? 在 512MB 内存服务器上,适合运行的服务: - Nginx(30-50MB)✅ - 静态文件服务 ✅ - Hugo 编译(在 CI/CD 中)✅ - 简单的 Go/Rust 服务(20-50MB)✅ 不适合运行的服务: - MySQL/PostgreSQL ❌ - Java 应用 ❌ - Node.js 复杂应用 ❌ - Docker 多容器 ❌