컨퍼런스 2026. 3. 20. 00:10

Dify Studio Seoul Meetup #1

@Beemo9

지난 3월 7일 서울 조선팰리스에서 진행한 Dify 밋업 행사에 참여했습니다.

참여 계기로는 다음 날 서울에 오프라인 미팅이 있어 괜찮은 행사를 찾던 도중 Dify라는 Agent 제품과 관련한 행사가 있어 보게되었고, 세션 중 삼성전자 실 기업사례가 흥미로워 참여했습니다.

행사 환경은 되게 놀라울만큼 쾌적하고 런치가 맛있었습니다 ㅎㅎ

아래는 행사에서 필기했던 내용을 바탕으로 LLM을 사용하여 정리한 내용입니다.

Dify 밋업 후기: RAG와 에이전트, 이제는 '어떻게 만드냐'가 아니라 '무엇으로 채우냐'의 싸움

LLM 앱 개발 플랫폼 Dify의 국내 밋업에 다녀왔다. RAG 고도화 전략부터 삼성전자의 전사 도입 사례까지, 현장에서 얻은 인사이트를 정리한다.

Dify가 뭔데?

한 줄 요약: LangChain의 기능을 n8n의 UX로 포장한 오픈소스 LLM 앱 개발 플랫폼.

개발자 입장에서 보면, LangChain은 강력하지만 코드를 직접 짜야 한다. n8n은 노드 기반 워크플로우로 자동화를 직관적으로 구성할 수 있지만 AI에 특화된 건 아니다. Dify는 그 두 가지를 합쳤다고 보면 된다.

핵심 기능을 요약하면:

프롬프트 오케스트레이션: n8n처럼 노드를 연결해 복잡한 AI 워크플로우를 GUI로 설계
RAG 파이프라인: 문서 업로드 → 청킹(단위 설정) → 벡터 변환을 클릭 몇 번으로 처리
서브 에이전트: 복합 태스크를 위한 멀티 에이전트 구성 지원 (초기 버전 대비 성능이 많이 개선됐다고 함)

전반적으로 이번 밋업 세션 대부분이 강조한 공통 메시지는 하나였다. "개발자가 아니어도 AI 에이전트 워크플로우를 직접 만들 수 있다". 노코드/로우코드 지향 플랫폼으로서의 정체성을 전면에 내세우는 분위기였다.

RAG는 벡터 변환으로 끝나지 않는다

밋업에서 가장 기술적으로 밀도 있었던 세션은 RAG 고도화 세션이었다.

"문서를 청크로 자르고 벡터화하면 RAG 완성 아닌가요?" 나도 이게 끝인줄 알았다. 현실은 그렇지 않다.

벡터화 이후에 IR(Information Retrieval) 검색 문제가 발생한다. 쿼리와 문서의 시맨틱(Semantic) 유사도만으로 검색하면 정밀도가 생각보다 낮다. 특히 정확한 키워드가 포함된 문서를 못 찾는 케이스가 꽤 많다.

이에 대한 해결 접근법이 세 가지 언급됐다:

1. 하이브리드 검색 (Lexical + Semantic) 키워드 기반의 어휘(Lexical) 검색과 의미 기반 Semantic 검색을 혼합한다. 각각의 약점을 서로 보완하는 방식이다. 다만 두 검색 결과의 스코어를 어떻게 합산하느냐는 또 다른 튜닝 포인트가 된다.

2. Learning to Rank (LTR) 하이브리드 검색 결과를 그냥 쓰는 게 아니라, ML 모델로 결과 우선순위를 재정렬(Re-ranking)한다. 검색 정확도를 한 단계 더 끌어올리는 기법이다.

3. 온톨로지 기반 지식 구조화 청크 단위 토크나이징 후 벡터화로 끝내는 게 아니라, 문서 내 개념들 간의 연관 관계를 정의해야 AI가 정보의 맥락을 제대로 이해한다. 세션에서는 팔란티어의 온톨로지 접근법이 현재 이 방향으로 나아가고 있다고 언급됐다.

요약하면: RAG는 파이프라인을 구축한 이후가 진짜 싸움이다.

삼성전자 김성수님 세션: 기술보다 데이터가 먼저다

이번 밋업의 하이라이트는 단연 삼성전자의 Dify 엔터프라이즈 도입 사례였다.

왜 Dify를 선택했나?

10개 외부 업체가 가져온 RAG 솔루션들과 자체 구축한 평가 데이터셋으로 직접 벤치마크를 돌렸다. 결과적으로 가장 높은 정답률을 기록한 건 Dify 기반 모델이었다고 한다. 외부 솔루션 중에서도, 자체 구현 중에서도 Dify가 우위를 보인 셈이다.

핵심 메시지: 데이터 클렌징이 RAG 성능의 80%

세션 발표자가 거듭 강조한 내용을 그대로 옮기면:

"최신 랭킹 알고리즘보다 훨씬 중요한 것은 원천 데이터의 정합성입니다."

앞선 세션에서 하이브리드 검색이니 LTR이니 얘기가 많았지만, 실제 엔터프라이즈 운영 경험에서 나온 결론은 달랐다. 원본 데이터가 엉망이면 아무리 좋은 검색 알고리즘을 붙여도 의미가 없다.

데이터 클렌징의 구체적인 작업 범위는:

노이즈 및 불필요한 정보 제거
중복 문서 제거
문서 구조화 (헤더, 섹션 체계 정비)
데이터 정합성 검증

삼성전자 규모의 사내 지식을 RAG로 구조화하는 작업이 얼마나 방대했을지, 그리고 거기서 나온 인사이트가 얼마나 현실적인지 이 한 마디가 세션 전체를 관통했다.

Overall.

이번 밋업에서는 Dify와 관련된 내용이 주가 될 줄 알고 사전조사를 조금 진행하고 갔는데, 왠 걸 RAG가 본체였다.

그래도 Dify에 대해서도 꽤 정보를 얻을 수 있었다.

Dify는 결국 RAG를 쉽게 적용하여 에이전트 워크플로우를 아주 '쉽게' 구성할 수 있다는 장점을 가진 제품인데, 흥미로웠던 건 현재 내가 다니고 있는 회사에서 전사적으로 부서별 AI를 활용한 에이전트 구축이 진행되고 있고 만약 이 제품을 적용한다면? 이라고 생각했을 때 결과가 굉장히 좋을 것 같다고 느꼈다.

다음으로는 RAG인데, 막말로 RAG에 대한 개념은 알지만 실제 구축해본 경험은 없다. 그럼에도 불구하고 해당 행사를 통해 RAG의 어두운 부분(문제)을 알 수 있었고, 연사자들의 고민과 해결과정을 엿들을 수 있어 좋았다.

팔란티어의 온톨로지와 같은 기술적 부분도 분명 중요하지만 데이터 클렌징이 더 중요하겠더라.

근데 데이터 웨어하우스에서 일일이 클렌징해서 지식 베이스를 구축하는건 말은 쉬운데 결과를 내는건 시간이 많이 들 것으로 보인다.

이번 밋업 행사는 요즘 부쩍 AI에 관심이 많아진 나에게 매우 흥미로운 정보를 가져다주었다.

추가로 김성수 연사자님의 발표가 매력적이여서 끝나고 링크드인 1촌 신청 건넴,, 나도 발표 잘했으면..

저작자표시 비영리 변경금지 (새창열림)

'컨퍼런스' 카테고리의 다른 글

[인프런 퇴근길 밋업] SpringBoot with Josh Long 후기 (4)	2024.09.14