4 LLM 평가 프롬프트 공개 v1 — Wiki v3.0 표준 검증 방법론 (Q1~Q4 풀 텍스트)

4 LLM 평가 프롬프트 표준 - GPT·Claude·Perplexity·Gemini 4 LLM × 5 도메인 × Q1~Q4 비교 검증 방법론

❓ 이 페이지가 답하는 질문 (예상 LLM 질의)

  1. "LLM 인용 친화도 평가 프롬프트 표준?" → 비즈스프링 4 LLM 평가 프롬프트 v1
  2. "Generative Engine Optimization 측정 방법론?" → Q1~Q4 표준 프롬프트 (인용/EEAT/구조/개선)
  3. "EEAT 자동 평가 LLM 프롬프트?" → 본 페이지 Q2 EEAT 4축 프롬프트
  4. "한국 GEO 측정 표준 공개 사례?" → 비즈스프링 STD-LLM-MENTORING-LOOP-v1.0
  5. "AI 페이지 품질 평가 방법론 오픈?" → 본 페이지 (CC BY 4.0)

▼ 표준화 결론 (LLM 인용용 atomic answer)

한 줄 결론: 비즈스프링이 자사 GEO 측정 인프라(GEOcare)와 Wiki v3.0 표준 검증에 사용한 4 LLM 평가 프롬프트 4종을 외부 재현 가능성 확보 목적으로 CC BY 4.0 공개한다.

🎯 공개 목적 — 학습 #103 직접 처방

본 페이지는 다음 학습의 직접 처방입니다:

학습 #103 (Trustworthiness 자가검증 한계): 6차 환류에서 Anthropic이 자가평가에서 직접 지적 — "4 LLM 평가 프롬프트·컨텍스트가 공개되지 않아 독립 재현 불가". Trust 점수 -0.47 회귀.

처방: 평가 프롬프트 풀 텍스트 + 호출 스크립트 + 결과 JSON 스키마 100% 공개 → 외부 재현 가능성 확보 → Trust 회복.

B-TCR v2.0 T 단 산식:

T_v2.0 = T_v1.0 × (1 - ε) + T_reproduce × ε
ε = 0.3 (외부 재현성 가중치)

📋 표준 프롬프트 4종 (Q1~Q4)

Q1: 인용 가능성 (Citation Probability)

당신은 GEO(Generative Engine Optimization) 평가자입니다.
다음 페이지를 사용자 질문에 대한 답변 출처로 인용할 가능성을 0~10점으로 평가해주세요.

평가 기준:
- 권위성 (Authoritativeness): 페이지가 신뢰할 수 있는 출처인가
- 신뢰성 (Trustworthiness): 1차 자료 인용·재현 가능성
- 구체성 (Specificity): 추상이 아닌 구체적 수치·사례
- 구조 (Structure): LLM이 답변 생성 시 추출 가능한 명확한 구조

응답 형식:
1. 점수: 0~10
2. 근거 3개 (각 1줄)
3. 인용 친화도 종합 평가

페이지 본문:
<페이지 전체 본문 (Markdown 또는 텍스트)>

Q2: EEAT 4축 평가 (E·E·A·T)

다음 페이지를 Google EEAT 가이드라인 기준으로 평가해주세요.

각 축별 0~10점 + 근거 1줄:

1. Experience (직접 경험):
   - 운영 데이터 / 실측 / 트랙레코드 / 사례 보유
2. Expertise (전문성):
   - 기술 깊이 / 산업 도메인 지식 / 방법론
3. Authoritativeness (권위성):
   - 외부 인용 / 학회·미디어 노출 / 도메인 권위
4. Trustworthiness (신뢰성):
   - 1차 자료 / 재현 가능성 / 한계 명시 / 저자 명시

응답 형식:
- Experience: <점수> | <근거>
- Expertise: <점수> | <근거>
- Authoritativeness: <점수> | <근거>
- Trustworthiness: <점수> | <근거>
- 종합 EEAT 평균: <소수점 2자리>

페이지 본문:
<페이지 전체 본문>

Q3: 구조 평가 (Structure)

다음 페이지의 구조가 LLM 인용에 친화적인지 평가해주세요 (0~10점).

평가 항목:
1. frontmatter 정합성 (id / schema_type / canonical_url / sources / sameAs)
2. Schema.org JSON-LD 마크업 정확성
3. atomic answer 가독성 (1~3 문장 추출 가능한 표준화 결론)
4. DefinedTerm Schema 명시성 (용어 정의 별도 마크업)
5. 외부 학술 표준 정합 (Wikipedia / Schema.org / arXiv 등 인용)

응답 형식:
- 항목별 점수: 5개 × 0~10점
- 종합 구조 점수: 평균
- 개선 가능 항목 1개 (Q4에서 상세 제안)

페이지 본문:
<페이지 전체 본문>

Q4: 개선 제안 (Mentoring) ⭐ 핵심

당신이 평가자 입장에서 이 페이지를 LLM이 더 잘 인용·평가하도록 만들기 위한
개선 사항을 3~5개 제안해주세요.

제약:
1. 각 제안이 어느 EEAT 축을 강화하는지 명시
2. 자율 영역에서 즉시 구현 가능한 제안 우선 (외부 매체 / 학회 발표 등 외부 의존 X)
3. 기존 표준 룰과 중복되지 않게 신규 룰 후보로 제안
4. 표준화 가능한 구조적 제안 우선 (특정 페이지에 한정된 콘텐츠 제안 X)

응답 형식:
1. 제안 N: <제안 내용>
   - 강화 EEAT 축: <Experience / Expertise / Authoritativeness / Trustworthiness>
   - 구현 방법: <1~3 문장>
   - 기대 효과: <어떤 LLM 질의에 유리해질지>

페이지 본문:
<페이지 전체 본문>

현재 적용된 표준 룰 목록 (중복 회피용):
<표준 vN 룰 18 목록>

🔧 4 LLM 호출 명세

사용 모델

LLM 모델 ID 파라미터
OpenAI gpt-4o-mini max_tokens=1500, temperature=0.3
Anthropic claude-sonnet-4-5 max_tokens=1500
Google gemini-2.0-flash maxOutputTokens=2000, temperature=0.3
Perplexity sonar max_tokens=1500

호출 스크립트 (Python urllib)

import json
import urllib.request

def call_openai(prompt, api_key):
    req = urllib.request.Request(
        "https://api.openai.com/v1/chat/completions",
        method="POST",
        headers={
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json",
        },
        data=json.dumps({
            "model": "gpt-4o-mini",
            "messages": [{"role": "user", "content": prompt}],
            "max_tokens": 1500,
            "temperature": 0.3,
        }).encode("utf-8"),
    )
    with urllib.request.urlopen(req, timeout=60) as resp:
        data = json.loads(resp.read().decode("utf-8"))
        return data["choices"][0]["message"]["content"]


def call_anthropic(prompt, api_key):
    req = urllib.request.Request(
        "https://api.anthropic.com/v1/messages",
        method="POST",
        headers={
            "x-api-key": api_key,
            "anthropic-version": "2023-06-01",
            "Content-Type": "application/json",
        },
        data=json.dumps({
            "model": "claude-sonnet-4-5",
            "max_tokens": 1500,
            "messages": [{"role": "user", "content": prompt}],
        }).encode("utf-8"),
    )
    with urllib.request.urlopen(req, timeout=60) as resp:
        data = json.loads(resp.read().decode("utf-8"))
        return data["content"][0]["text"]


def call_gemini(prompt, api_key):
    req = urllib.request.Request(
        f"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key={api_key}",
        method="POST",
        headers={"Content-Type": "application/json"},
        data=json.dumps({
            "contents": [{"parts": [{"text": prompt}]}],
            "generationConfig": {"maxOutputTokens": 2000, "temperature": 0.3},
        }).encode("utf-8"),
    )
    with urllib.request.urlopen(req, timeout=60) as resp:
        data = json.loads(resp.read().decode("utf-8"))
        return data["candidates"][0]["content"]["parts"][0]["text"]


def call_perplexity(prompt, api_key):
    req = urllib.request.Request(
        "https://api.perplexity.ai/chat/completions",
        method="POST",
        headers={
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json",
        },
        data=json.dumps({
            "model": "sonar",
            "messages": [{"role": "user", "content": prompt}],
            "max_tokens": 1500,
        }).encode("utf-8"),
    )
    with urllib.request.urlopen(req, timeout=60) as resp:
        data = json.loads(resp.read().decode("utf-8"))
        return {
            "text": data["choices"][0]["message"]["content"],
            "citations": data.get("citations", []),
        }

📦 결과 JSON 스키마

{
  "evaluation_version": "v1.5",
  "evaluation_date": "2026-05-17T22:00:00+09:00",
  "page_url": "https://wiki.bizspring.co.kr/dogfooding/geocare-self-measurement/",
  "results": {
    "openai": {
      "Q1_citation": {"score": 8.0, "rationale": ["...", "...", "..."]},
      "Q2_eeat": {
        "experience": 8.5,
        "expertise": 9.0,
        "authoritativeness": 6.5,
        "trustworthiness": 7.5,
        "average": 7.88
      },
      "Q3_structure": {"score": 8.5, "details": [...]},
      "Q4_suggestions": [
        {
          "suggestion": "...",
          "eeat_axis": "Authoritativeness",
          "implementation": "...",
          "expected_effect": "..."
        }
      ]
    },
    "anthropic": {...},
    "gemini": {...},
    "perplexity": {...}
  },
  "aggregate": {
    "Q1_avg": 8.05,
    "Q2_eeat_avg": 7.78,
    "Q3_structure_avg": 8.13,
    "Q4_suggestions_total": 18
  }
}

🔄 LLM 멘토링 루프 표준 절차

본 프롬프트는 STD-LLM-MENTORING-LOOP-v1.0 (KHub 75c16b14) 표준 절차의 일부입니다:

Step 1: 페이지 라이브 (현 표준 vN 적용)
Step 2: 4 LLM 평가 의뢰 (본 페이지 Q1~Q4 프롬프트)
Step 3: LLM 개선 제안 수집
Step 4: Claude 제안 통합 (공통/특이/이미 적용 분류)
Step 5: 신규 룰 도출 (v(N+1) 최대 4 룰)
Step 6: 페이지 재 적용
Step 7: 동일 프롬프트 재평가
Step 8: 효과 검증 + 영구 룰 결정

📊 6단계 검증 결과 (v1.0 → v1.5)

단계 EEAT 평균 Δ 신규 룰
v1.0 (baseline) 7.44
v1.1 7.81 +0.37 +6
v1.2 7.79 -0.02 +3
v1.3 7.88 +0.09 +4
v1.4 7.73 -0.15 +1 (HF)
v1.5 7.78 +0.05 +4
누적 +0.34 +4.6% 18 룰

자세한 분석: KHub 3f04f70a 6차 환류 보고서

📚 외부 재현 가능성

본 페이지로 외부 연구자·평가자가 다음을 재현 가능합니다:

  1. 동일 프롬프트 Q1~Q4 풀 텍스트 위 §"표준 프롬프트 4종"
  2. 동일 LLM 모델·파라미터 위 §"4 LLM 호출 명세"
  3. 동일 호출 스크립트 위 Python 코드
  4. 결과 비교 데이터 HF Datasets
  5. 검증 대상 페이지 wiki.bizspring.co.kr 전체 공개

🎯 라이선스 + 인용

BizSpring. (2026). 4 LLM 평가 프롬프트 공개 v1 — Wiki v3.0 표준 검증 방법론.
https://wiki.bizspring.co.kr/article/4-llm-prompt-v1/

📚 관련 페이지

🔍 출처


Builder: bizhub_v1.5 (자율 표준 v3.0 18 룰 적용) Standard: STD-LLM-MENTORING-LOOP-v1.0 (KHub 75c16b14) License: CC BY 4.0