AI-Edu Project — 프로젝트 회의록 (2025-11-14)

1. 개요

  • 일자: 2025-11-14
  • 프로젝트: AI-Edu Project
  • 회의 목적: 한국어 학습 AI 튜터의 교육 서비스 흐름과 음성/시나리오 콘텐츠 설계 방향 논의
  • 참석: 배주백, 이재진, 전민우 외 팀원
  • 키워드: AI 튜터, 한국어 교육, STT, TTS, 음성 인식, 시나리오, 메뉴판

2. 프로젝트 진행 현황 (상위 레벨)

2.1. 진행 상황 요약

  • 읽기-쓰기-말하기-받아쓰기로 구성된 교육 서비스 흐름을 중심으로 설계하고, STT 기반 “글자 이미지→판별” 기능을 핵심 모듈로 우선 정의함.

2.2. 주요 변경 사항(Architecture / Scenario / AI / DevOps / 클라이언트 등)

  • 메뉴판/시나리오 중심 구성과 음성 데이터 WebSocket 처리, 외국인 대상 랜덤 AI 교환 흐름, 발음 교정 STT 피드백, 생성형 AIScope 정리 등 여러 요소를 통합해 서비스 뼈대를 다듬음.

2.3. 차주 또는 마일스톤 대비 위치

  • 교육 흐름 및 시나리오 틀을 수립한 단계이므로, 상호작용 요소(시나리오 구조, WebSocket 테스트, 발음 피드백, 데이터셋)를 빠르게 프로토타입으로 옮기는 시점.

3. 논의 내용 (세부)

3.1. 기획 / 시나리오

  • 교육 서비스는 읽기→쓰기→말하기→받아쓰기 흐름을 통합하며, 외국인(영어권)을 주요 타깃으로 삼는다. 퀴즈형·회화형 콘텐츠를 병행하고, 랜덤 AI 교환/음성 선택을 포함한 메뉴판/식당 주문 시나리오를 결합한다.

3.2. 시스템 / 아키텍처 (UE5 / 서버 / AI 구조 포함)

  • 메뉴판과 시나리오는 IDB를 통해 불러오며, 음성 처리는 WebSocket 기반으로 대용량 오디오를 전송하고 처리한다. 입력 이미지는 주기적으로 서버로 전송하는 구조를 고려한다.

3.3. 기술 구현 논의 (UE5·AI·DevOps 통합)

  • STT 기반 글자 추출 후 제시어 매칭, 블록 번호 매칭 방식, WebSocket 테스트 모듈, STT/TTS 고도화(스틱 피드백 등), LLM/API 통합 여부 등 기술 요소를 논의.

3.4. 디자인 / UX / 리소스

  • 메인 시나리오는 랜덤 요소를 포함한 메뉴판 주문, 음식/회화 키워드의 시각화를 제공하며, 이미지 입력/쓰기·받아쓰기 실전 문장 작성 환경, 발음 피드백 UI를 병행 설계.

3.5. 일정 / 리스크 / 의사결정

  • 교육 흐름 정의와 기술 검토를 완료한 후 WebSocket 테스트, STT 피드백 모델 조사, AI 교환 데이터셋 설계로 넘어간다. 발음 STT 오차 누적과 AI 생성 범위 모호성 리스크를 지속해서 점검함.

4. Action Items (단위별 책임·기한 명시)

UE5 (클라이언트)

  • [ ] 시나리오 구조 초안(식당 주문 기반) 작성하고, 읽기-쓰기-말하기 흐름을 FSM 형태로 정의 (담당: 배주백, 기한: 2025-11-15)
  • [ ] 메뉴판 랜덤 요소를 포함한 시나리오 구현 방향과 UI 구상 정리 (담당: 이재진, 기한: 2025-11-16)

AI 팀

  • [ ] AI 교환 데이터셋 설계 및 랜덤 시나리오 생성 방식 검토 (담당: 이재진, 기한: 2025-11-17)

기획 / PM

  • [ ] 발음 교정용 STT 피드백 모델 조사 및 적용 타당성 검토 결과 문서화 (담당: 기획팀, 기한: 2025-11-18)

DevOps / 문서 자동화

  • [ ] 음성 처리 WebSocket 테스트 모듈 제작 및 대용량 오디오 스트리밍 검증 (담당: 전민우, 기한: 2025-11-16)

5. 의사결정(Decision Log)

자동화 시 Daily/Weekly DevLog와 연결될 핵심 구간

  • 결정 1: 기능 단위보다 교육 서비스 흐름(읽기-쓰기-말하기-받아쓰기) 중심으로 설계하며, STT 기반 글자 인식 기능을 핵심 모듈로 설정
  • 결정 2: AI 교환 시나리오와 메뉴판은 랜덤 요소를 포함하되 음성 입력을 기반으로 일관성을 유지하고, 생성형 AI 평가는 결과 생성형 기능 위주로 정의
  • 근거: 흐름 중심 설계가 사용자 경험과 기술 검증을 동시에 만족시키는 방향이며, 랜덤 요소는 WebSocket 기반 음성 처리와 결합해 제어 가능함

6. 리스크 / 이슈

  • 기술 리스크: STT 오차 누적으로 발음 피드백 신뢰도가 떨어질 수 있고, WebSocket 대용량 오디오 처리에서 지연이 발생할 수 있음
  • 일정 리스크: AI 교환과 데이터셋을 정리하는 동안 교육 흐름 통합 작업이 늦어질 여지
  • 운영 리스크: 생성형 AI 평가 범위 및 레그 포인트 포함 여부가 불명확해 QA/평가 기준 설정이 지연
  • 필요 조치: STT 정확도 측정 루틴 마련, 메뉴판/시나리오 IDB 구조 정리, 생성형 AI 범위를 명문화

7. 참고 문서 / 산출물 링크

  • 관련 Figma: 없음
  • 관련 Notion: 없음
  • 관련 GitHub: 없음
  • 기타 참고 자료: 없음

8. 회고 (팀 관점)

8.1. 잘된 점 (Keep)

  • 전체 학습 과정(읽기-쓰기-말하기-받아쓰기)을 통합하는 시나리오 방향성이 확립되고, 음성 기반 상호작용의 기술 난점을 명확히 인지한 점.

8.2. 문제점 (Problem)

  • AI 에이전트 정의 및 평가 범위가 불명확하고, WebSocket 기반 STT/TTS 처리 절차에 대한 실증이 아직 부족함.

8.3. 개선/다음 단계 (Try)

  • 식당 주문 시나리오 프로토타입, STT 발음 피드백 모델 테스트, 교환 데이터셋 및 메뉴판 IDB 구조 정리 등을 순차적으로 진행해 실증 자료 확보.

results matching ""

    No results matching ""