PDF → 청킹 → 임베딩 → Qdrant → GPT 질의응답
규정집 PDF는 수백 페이지입니다. AI에게 전체를 한 번에 보낼 수 없으므로, 의미 단위로 잘게 나눕니다 (보통 500~1000자씩).
임베딩은 텍스트를 숫자 벡터(긴 숫자 목록)로 바꾸는 것입니다. 비슷한 의미의 텍스트는 비슷한 숫자가 됩니다.
질문도 임베딩 → 저장된 청크 벡터와 거리 비교 → 가장 가까운(의미가 비슷한) 청크를 찾아옵니다.
Qdrant는 무료로 시작할 수 있는 벡터 데이터베이스입니다. 여기에 규정집 청크를 벡터(숫자)로 저장하면, 나중에 질문과 유사한 청크를 빠르게 찾을 수 있습니다.
1. Qdrant.com → 무료 계정 생성
2. API Key와 Cluster Endpoint를 복사
3. "Create a Free Cluster": ERBank
4. "Create Collection": Company-Report
5. n8n Credentials에 "Qdrant" 등록
Qdrant → Collection regulations에 청크 수만큼 행이 들어가 있으면 성공!
Chat으로 아래 질문을 보냅니다:
| 테스트 질문 | 기대 답변 핵심 | 기대 출처 |
|---|---|---|
| "운전자금 여신에서 우선 취급해야 하는 자금은?" | 상업어음할인 등 단기간 내 상환 자금 | 제4조 제1항 |
| "주채무계열 소속 기업체 대출은 중소기업 대출비율 산정에 포함되나요?" | 포함되지 않음 | 제7조 제2항 제1호 |
| "중소기업대출비율 준수 여부는 얼마나 자주 점검하나요?" | 1개월마다 | 제7조의2 제1항 |