embedding할때 파일이 수천개 나오는데, 이게 정상인가요? : 클리앙

랭체인으로 docs gpt 같은 것을 만들어 보고 있습니다.

기본적인 것은 우선 다 학습된 상태인데.. 심화로 가니, 어려운 부분이 조금씩 나오고 있네요.. ㅡ.ㅜ;

우선 파일을 업로드해서 embedding을 시키고 있습니다.

현재 faiss와 openai를 사용해서 시키고 있습니다.

근데, 16메가정도 파일을 임베딩하니.. 1400개정도의 파일이 생성이 되더군요..

최대한 검색이 잘 되게 작게 잘아야 한다고 해서 청크 사이즈는 1000으로 맞춰서 파일이 많을수는 있는데..

100메가 넘어가는 파일을 임베딩하면 대충 만개 이상의 파일이 나오게 되는데, 이게 맞는건가요??

너무 무식해 보여서 다른 방식으로 임베딩을 해야 하지 않을까 생각하는데.. 이게 맞는지 잘못된 방향인지를 모르겠습니다.

혹 관련 자료나 아시는 분 없으신지요??

AI당