AI & Society·2021-05-22

당근마켓이 신고 예측을 풀 수 있었던 이유

당근마켓 데이터센트릭 사례다. 당근마켓에 등록된 글이 신고받을지 여부를 미리 예측하는 모델을 소개했다.

모집단이 급속도로 확장되는 경우 수작업 레이블 데이터만으로 이를 커버하는 모델을 만들기 어렵기에, 사용자 신고와 운영자 제재 데이터를 직접적인 학습 데이터로 이용했다는 것이다.

이것이 가능했던 핵심적 이유는 실제로 유해한지를 예측하는 것이 아니라 사용자가 신고할지 말지 그 자체를 예측 목표로 삼았기 때문이다. 만약 실제 유해성을 구분하고자 했다면 사용자 신고 데이터를 활용하는 것은 훨씬 어려운 작업이었을 것이다.

Online learning 방식이 아닌 파인튜닝에 이 데이터를 활용한 것으로 보인다.

ai-productservice-review

Related

Comments (0)

Markdown supported