찾았습니다! ㅎㅎdef initialize_params(self, N, num_classes: int):
self.w = torch.nn.Parameter(torch.empty(2,N))
self.b = torch.nn.Parameter(torch.zeros(1,N))
self.v = torch.nn.Parameter(torch.empty(N, num_classes))이 부분 초기 파라미터 설정 때문인데요, randn으로 정규 분포에서 뽑아버리면 He initialization이 제대로 적용되지 않아서 초기 weight 값을 제대로 못 뽑아내게 됩니다. 특히, 여기는 relu를 사용하니까 이론에서 배웠던 죽은 relu 문제가 발생할 수도 있고요! 좋은 비교를 해주셨네요 😄
소개
그룹에 오신 것을 환영합니다. 다른 회원과의 교류 및 업데이트 수신, 동영상 공유 등의 활동을 시작하세요.
찾았습니다! ㅎㅎ def initialize_params(self, N, num_classes: int):
self.w = torch.nn.Parameter(torch.empty(2,N))
self.b = torch.nn.Parameter(torch.zeros(1,N))
self.v = torch.nn.Parameter(torch.empty(N, num_classes)) 이 부분 초기 파라미터 설정 때문인데요, randn으로 정규 분포에서 뽑아버리면 He initialization이 제대로 적용되지 않아서 초기 weight 값을 제대로 못 뽑아내게 됩니다. 특히, 여기는 relu를 사용하니까 이론에서 배웠던 죽은 relu 문제가 발생할 수도 있고요! 좋은 비교를 해주셨네요 😄