어떻게 작동하나

ChatGPT·Claude가 회사에 대해 답할 때,
무엇을 보고 답하는가

이 서비스는 그 과정을 실측합니다. 아래 내용은 모델 외부에서 관찰 가능한 신호와 이 서비스가 실제로 확인하는 체크리스트입니다. 추측이 아니라 코드가 실제로 들여다보는 것들입니다.

1단계

LLM이 답변에 회사를 올리기까지 거치는 4가지 경로

모델은 아래 네 경로를 조합해 회사 이름을 답변에 올립니다. 각 경로에서 어떤 기술·신호가 작동하는지, 지금 당신이 무엇을 할 수 있는지 정리합니다.

훈련 시 (이미 모델 가중치에 들어가 있음)

  • 사전 학습 코퍼스Common Crawl · Wikipedia · GitHub · 뉴스가 훈련 데이터로 흡수됨

답변 시 (실시간으로 가져옴)

  • 실시간 웹 검색Google · Bing · Brave 결과의 본문을 가져와 인용
  • 권위 소스 참조Wikidata · Wikipedia 등에 등재된 회사 정보를 참조

훈련·답변 공용 (사이트 접근 채널)

  • LLM 전용 봇①② 가 사이트에 도달할 때 쓰는 봇 — robots.txt · SSR 로 제어

각 경로 자세히

  1. 사전 학습 코퍼스

    대부분의 LLM 이 학습 과정에서 Common Crawl, Wikipedia, GitHub 를 공통으로 사용합니다. 회사 정보가 이 세 곳에 존재해야 다음 세대 모델이 해당 회사를 학습할 수 있습니다.

    방식

    훈련 시점까지 수집된 텍스트가 토큰화 → 가중치에 압축. 이후 가중치는 고정이라 이 경로로는 즉시 개입 불가.

    모델별 훈련 구성 (추정)

    모델주요 구성
    ChatGPTGPTBot 자체 크롤 · Common Crawl · Wikipedia · GitHub · 서적 · Q&A 포럼(Reddit 등) · 대형 라이선스 뉴스 (News Corp · AP · Financial Times 등) · 합성 데이터
    ClaudeClaudeBot 자체 크롤 · Common Crawl · Wikipedia · GitHub · 학술 논문 · 실물 스캔 서적(Project Panama) · 라이선스 · 합성 데이터
    GeminiGoogle-Extended · Common Crawl + Google 자사 웹 인덱스 · Wikipedia · GitHub · Google Books · YouTube 트랜스크립트 · Google Scholar · 라이선스
    Perplexity자체 사전학습 없음 — LLaMA 기반 Sonar 파인튜닝 · PerplexityBot 자체 웹 인덱스 · 라이선스 뉴스(WSJ · AP · TIME 등)

    공개된 공식 수치 (참고)

    • GPT-3 — Common Crawl 60% · WebText2 22% · 서적 16% · Wikipedia 3%
    • Meta LLaMA — Common Crawl 15% · Wikipedia 4.5% · GitHub 4.5% · 서적 4%

    세 공통 층이 핵심인 이유

    세 소스가 왜 모든 LLM 의 베이스인지, 각각 간단히:
    • Common Crawl — 비영리 단체가 2012년부터 매달 웹을 대규모로 크롤해 공개하는 스냅샷(월 ~20억 페이지, 누적 페타바이트). 무료·공개라 거의 모든 모델의 웹 텍스트 베이스.
    • Wikipedia — raw 토큰으로는 3~4.5% 에 불과하지만 품질 필터링 · 반복 학습에서 덜 버려져 영향력이 과대표됨. 그래서 ③ 권위 소스 참조에서도 Wikipedia · Wikidata 가 상위 층.
    • GitHub — 코드 · 기술 문서의 표준 소스. README · 공식 문서가 그대로 학습돼 제품 정체성이 굳어짐.

    지금 할 수 있는 것

    다음 훈련 라운드의 Common Crawl 스냅샷에 걸리도록 영문 보도 · GitHub organization 공개 리포 · 컨퍼런스 트랜스크립트 · 슬라이드를 꾸준히 축적. 현재 세대 모델엔 즉시 반영 안 됨.
  2. 실시간 웹 검색

    ChatGPT 는 Bing, Gemini 는 Google, Perplexity 는 두 엔진의 API 를 혼합하여 사용합니다. Claude 가 쓰는 Brave Search 도 자체 인덱스지만 Google · Bing 결과와 겹치고 있습니다. 즉 Google · Bing 상위에 오른 페이지가 LLM 답변에 인용되므로, 기존 SEO 작업이 LLM 답변에 영향을 줍니다.

    방식

    답변 시점에 검색 API 로 상위 N 개 페이지를 받아와 본문을 그대로 컨텍스트에 주입 → 그 본문에서 인용. 도메인 신뢰도와 상위 노출 여부가 즉시 반영됨.

    모델별 검색 백엔드

    모델검색 엔진
    ChatGPTBing 중심 + 기타 혼합
    ClaudeBrave Search (Anthropic 공식)
    GeminiGoogle (자사 엔진)
    Perplexity자체 PerplexityBot 인덱스 + Google · Bing API

    네이버·Daum 이 빠지는 이유

    한국 엔진을 쓰는 주요 모델은 없음. 더 나아가 Naver 가 Google · Bing 의 크롤까지 상당 부분 차단하고 있어서, Naver 블로그 · 카페 · 지식iN 전용 콘텐츠는 간접 색인으로도 이 경로에 거의 들어오지 않음.

    지금 할 수 있는 것

    결국 Google · Bing 상위 결과 진입이 목표. SEO 기본기(제목 · 메타 설명 · rel=canonical · 정리된 링크 구조) + 도메인 신뢰도 누적. Naver 단독 콘텐츠는 기여 없음 — 동일 내용의 영문 · 글로벌 포맷 병행이 필수.
  3. 권위 소스 참조

    LLM 은 웹 페이지마다 다른 가중치를 둡니다. Wikidata · Wikipedia · GitHub 의 소스가 일반 페이지보다 큰 비중으로 답변에 반영됩니다. 따라서 아래 기술 항목에 회사가 어떻게 등재되어 있느냐가 인용 여부와 정확도를 결정합니다.

    주요 소스 (비중 큰 순)

    소스어떻게 작동하나
    WikidataQID 기반 속성 구조화 · Wikipedia infobox 로 사전 학습에 흡수 · 일부 AI 는 답변 시 실시간 조회
    Wikipedia서술 문서가 사전 학습에 통째로 흡수 · infobox 가 Wikidata 와 쌍으로 작동 · 회사 관계자 편집은 자기홍보로 삭제
    GitHub organization공개 저장소 · Profile README (.github/profile/README.md) 가 Common Crawl 에 색인돼 훈련 데이터로 흡수 · 자체 관리만으로 직접 효과
    학술 논문 (arXiv · PubMed 등)LLM 훈련 코퍼스에 공식 포함되는 고품질 소스 · 회사 연구진이 논문을 올리면 직접 흡수 · 기술 · AI · 바이오 회사에 특히 큰 효과
    영문 매체 보도OpenAI 공식 라이선스 매체 (WSJ · FT · Reuters · TIME · The Verge · Wired 등) 와 TechCrunch · Bloomberg · Forbes 같은 대표 테크 · 경제지 기사가 Common Crawl · 언론 아카이브에 쌓여 사전 학습 코퍼스로 유입

    참고 — Google Knowledge Panel: Google 에서 회사명을 검색하면 오른쪽에 뜨는 정보 카드. Wikidata · Wikipedia 등을 Google 이 자동 집계해 만든 결과물이므로, 카드 자체를 직접 고치려 하지 말고 위의 소스를 손보면 자동으로 갱신됩니다.

    지금 할 수 있는 것

    • Wikidata — 회사 항목이 없으면 새로 만들고, 있으면 설립일 · 산업 · 본사 · 모회사 속성을 최신 상태로 채웁니다.
    • Wikipedia — 회사가 직접 편집하지 마세요. 대신 영문 매체 보도 · 컨퍼런스 발표 같은 외부 자료가 쌓이도록 PR 을 진행해 외부 편집자가 문서를 만들 근거를 마련합니다.
    • GitHub organization .github/profile/README.md 파일로 조직 소개 페이지를 직접 관리 (기술 회사일수록 효과 큼).
    • 학술 논문 — 기술 블로그 · 연구 노트를 arXiv · SSRN · IEEE 같은 학술 플랫폼에 공식 논문으로 발표. 회사 연구진 명의로 올리면 Affiliation 에 회사명 명시돼 LLM 훈련에 같이 흡수됨.
    • 영문 매체 보도 — 분기 1회 이상 영문 보도자료 발행, 해외 기자 접촉, 컨퍼런스 발표 투고. 축적이 관건.
  4. LLM 전용 봇

    LLM 사업자들이 전용 봇으로 사이트 HTML 을 직접 가져가 ① 사전 학습 코퍼스 ② 실시간 웹 검색 두 경로에 사용합니다. robots.txt 에서 이 봇들이 허용돼 있어야 앞선 두 경로가 열립니다.

    방식

    OpenAI · Anthropic · Google · Perplexity 가 각자 전용 봇을 사이트에 보내 HTML 을 수집합니다. 용도별로 봇이 분리돼 있어서 robots.txt에서 "훈련은 차단하되 답변 인용은 허용" 같은 미세 정책도 가능합니다.

    훈련·인덱싱 봇 (① 사전 학습 코퍼스에 기여)

    운영자용도
    GPTBotOpenAIChatGPT 훈련 데이터 수집
    ClaudeBotAnthropicClaude 훈련 데이터 수집
    Google-ExtendedGoogleGemini 훈련 opt-out 제어
    PerplexityBotPerplexity자체 인덱스 · 파인튜닝 (같은 봇이 RAG 용도로도 사용됨)
    CCBotCommon Crawl공개 CC 스냅샷 생성 (네 모델 모두 간접 공유)

    실시간 답변 봇 (② 실시간 웹 검색에 기여)

    운영자용도
    OAI-SearchBotOpenAIChatGPT Search 답변용 인덱싱
    ChatGPT-UserOpenAI사용자가 URL 던졌을 때 fetch
    Claude-SearchBotAnthropicClaude web_search 도구용 fetch
    Claude-UserAnthropic사용자가 URL 던졌을 때 fetch
    GooglebotGoogleGemini 는 별도 AI 전용 답변 봇 없이 Google 검색 인프라 공유
    PerplexityBot · Perplexity-UserPerplexity훈련·RAG 겸용 (분리되지 않음)

    봇들의 공통 제약

    JavaScript 를 거의 실행하지 않아, 초기 HTML 에 본문이 없으면 빈 페이지로 판정하고 지나갑니다. 반대로 robots.txt 차단 지침은 대부분 준수합니다.

    지금 할 수 있는 것

    robots.txt 에서 각 봇 명시적 Allow, SSR 로 첫 HTML 에 정의문 노출, sitemap.xml 제공. 답변 봇 (Claude-SearchBot · OAI-SearchBot) 을 와일드카드로 차단하는 실수가 한국 사이트에 흔합니다.

네 경로는 서로 겹칩니다. 예를 들어 영문 보도 한 건은 ② 실시간 웹 검색에서의 상위 노출, ③ 권위 소스 참조(Wikipedia 편집) 의 근거, ① 사전 학습 코퍼스의 다음 라운드 데이터 — 이 세 가지에 동시에 쌓입니다. probe 는 ② 실시간 웹 검색 · ③ 권위 소스 참조 · ④ LLM 전용 봇을 즉시 측정하고, "외부 언급" 팀 에이전트가 ① 사전 학습 코퍼스의 장기 자산 상태를 진단합니다.

2단계

1단계 — 찾아지고 식별되는가

첫 단계는 답변 후보군에 들어갈 수 있는지 봅니다. 사이트 접근, 회사 정체성, 외부 공개 표면을 세 섹션으로 나눠 확인합니다.

여기서의 질문은 AI가 이 회사를 발견하고 같은 엔티티로 알아볼 수 있는가? 입니다. 좋은 문장이 사이트에 있어도 크롤러 접근이 막혀 있거나, 공식 URL·회사명·외부 기준점이 흩어져 있으면 답변 후보에 오르기 어렵습니다.

실제로 도는 3개 섹션

검색·크롤 접근성

보는 것robots.txt · AI crawler rules · sitemap · Link header

OAI-SearchBot, GPTBot, Claude-SearchBot, ClaudeBot, PerplexityBot 같은 용도별 봇이 검색·학습·사용자 요청 경로에서 접근 가능한지 분리해 봅니다.

정체성 레코드

보는 것Wikidata · JSON-LD · meta · API/OAuth discovery

회사명, 공식 URL, 카테고리, canonical, 언어, Organization 구조화 데이터가 같은 엔티티를 가리키는지 확인합니다.

외부 증거면

보는 것Wikipedia · GitHub organization · AGENTS.md/agent protocols

자사 밖에서 회사와 카테고리를 연결하는 공개 표면이 실제로 검색·크롤 가능한 형태로 존재하는지 봅니다.

무엇을 입력으로 쓰나

  • robots, ai_robots, link_headers, sitemap probe 로 검색·크롤 접근성을 확인합니다.
  • wikidata, jsonld, meta, api_discovery probe 로 정체성 레코드를 확인합니다.
  • wikipedia, github_org, agent_protocols probe 로 외부 증거면과 에이전트 접점을 확인합니다.

결론으로 나오는 것

1단계 결과는 "AI가 몰라서 빠지는 문제"와 "알 수 있는데 접근이 막힌 문제", 그리고 "알아보긴 하지만 공식 정체성 신호가 약한 문제"를 나눕니다. 개선안은 robots 정책, sitemap/Link header, Wikidata·JSON-LD 정리, GitHub/Wikipedia/agent 표면 확보처럼 후보군 진입에 직접 연결되는 작업으로 정렬됩니다.

3단계

2단계 — 답변에 쓸 수 있는가

두 번째 단계는 발견된 페이지가 AI 답변 안에서 정확한 문장과 근거 링크로 쓰일 수 있는지 봅니다.

이 단계의 질문은 크롤러가 가져간 본문이 답변에 바로 들어갈 만큼 명확한가? 입니다. 페이지에 도달해도 초기 HTML 이 비어 있거나, 정의문·근거 페이지·구조화 데이터가 모호하면 AI는 더 명확한 경쟁사 문장을 가져갑니다.

실제로 도는 3개 섹션

답변형 문장

보는 것첫 500 tokens · meta · content structure · 엔진 답변 원문

'X는 Y를 위한 Z 회사'처럼 LLM이 그대로 요약할 수 있는 짧고 검증 가능한 회사/제품 설명이 있는지 봅니다.

근거 페이지

보는 것sitemap · SSR · API catalog · OpenAPI/Swagger · MCP/Agent Skills

추천 이유를 만들 때 인용할 수 있는 제품, 사례, FAQ, 문서, API·에이전트용 근거 페이지가 분리되어 있는지 확인합니다.

추출 가능성

보는 것SSR · JSON-LD · llms.txt · Markdown access · heading hierarchy

JavaScript 없이 본문·메타·구조화 데이터가 읽히는지, HTML 노이즈를 줄일 Markdown/plain text 경로가 있는지 봅니다.

무엇을 입력으로 쓰나

  • ssr, meta, content_structure probe 와 ChatGPT·Claude 답변 원문으로 답변형 문장 품질을 봅니다.
  • sitemap, api_discovery, agent_protocols 로 근거 페이지와 개발자/에이전트용 문서 표면을 확인합니다.
  • jsonld, llms_txt, markdown_access, ssr 로 파서가 핵심 정보를 안정적으로 뽑을 수 있는지 확인합니다.

결론으로 나오는 것

2단계 결과는 "도달은 되지만 설명이 약한 문제", "인용할 근거 URL이 부족한 문제", "본문을 파싱하기 어려운 문제"를 분리합니다. 개선안은 홈페이지 첫 문단, 메타/JSON-LD, 문서·사례·FAQ 페이지 분리, llms.txt와 Markdown 경로 같은 사이트 내부 작업으로 떨어집니다.

4단계

에이전트 팀이 움직이는 방식

전체 리포트는 자동 probe, 6개 섹션 에이전트, 조건부 step-lead 리뷰를 합쳐 만드는 진단 흐름입니다.

먼저 preview 로 "지금 AI가 누구를 추천하는지"를 보여주고, report 에서는 왜 그런 결과가 나왔는지 2단계 × 3섹션으로 분해합니다. 각 섹션은 관찰된 probe와 엔진 답변 원문만 근거로 findings와 recommendations를 만듭니다.

현재 구현된 6개 섹션

1단계 · 찾아지고 식별되는가

보는 것검색·크롤 접근성 · 정체성 레코드 · 외부 증거면

접근 가능한지, 같은 회사로 식별되는지, 자사 밖 공개 표면이 있는지를 나눠 진단합니다.

2단계 · 답변에 쓸 수 있는가

보는 것답변형 문장 · 근거 페이지 · 추출 가능성

첫 문장, 근거 URL, JSON-LD/SSR/Markdown/llms.txt 같은 추출 신호를 분리해 봅니다.

step-lead 리뷰는 언제 도나

6개 섹션이 먼저 실행된 뒤, 같은 단계 안에서 같은 소스·같은 결론·같은 액션이 겹칠 때만 step-lead가 추가로 돕니다. 겹침이 없으면 추가 모델 호출을 건너뛰어 리포트 생성 시간을 줄입니다. 그래서 리포트는 항상 6개 섹션을 만들지만, 2개의 lead 리뷰는 필요할 때만 실행됩니다.

전체 플로우

1

Preview — AI 답변 시장의 현재 스냅샷

질문 하나를 ChatGPT/Codex 와 Claude 에 던져, 지금 이 순간 어떤 회사가 추천되는지 보여줍니다. 광고 문구가 아니라 실제 답변 결과로 만든 샘플입니다.

2

Probe — 사이트·외부·에이전트 신호 수집

URL 을 입력하면 robots, AI crawler rules, Link header, sitemap, llms.txt, SSR, meta, JSON-LD, Wikidata, Wikipedia, GitHub organization, Markdown access, agent protocols, API/OAuth discovery, content structure 를 병렬로 확인합니다.

3

Agents — 6개 섹션 병렬 진단

6개 섹션 에이전트가 같은 입력을 각자 다른 경계로 읽습니다. 섹션 밖 액션은 직접 권장하지 않고, 입력에 없는 사실은 근거로 쓰지 않도록 제한합니다.

4

Step lead — 필요할 때만 중복 정리

같은 단계 안에서 robots, JSON-LD, llms.txt, citation 같은 주제가 여러 섹션에 중복될 때만 lead가 세 섹션을 다시 읽고 충돌·반복을 줄입니다.

5

Report — 실행 가능한 작업 지시서

최종 리포트의 각 항목은 status, evidence, priority, action, how, impact 로 정리됩니다. 마케팅 팀과 개발 팀이 같은 근거를 보고 바로 작업을 나눌 수 있게 만드는 형식입니다.

마케팅적으로 말하면

Preview

고객이 AI에게 묻는 순간, 당신의 시장은 이미 순위표가 됩니다. Preview 는 그 보이지 않던 순위표를 몇 분 안에 꺼내 보여줍니다.

Report

Report 는 왜 안 보이는지, 왜 정확히 인용되지 않는지를 6개 섹션으로 분해하고 우선순위가 있는 작업 목록으로 바꿉니다.

근거로 삼는 공개 문서: OpenAI crawler 문서, Anthropic crawler 문서, Perplexity crawler 문서, Google Search Central 의 sitemap · canonical · Organization structured data · JavaScript SEO 문서, 그리고 llms.txt 제안 문서.