부동산 데이터 분석¶
산업 특성¶
부동산은 위치가 가치의 핵심인 산업이다. 동일한 면적, 동일한 건물이라도 위치에 따라 가격이 수십 배 차이난다.
주요 특성: - 거래 빈도가 낮고 거래 비용이 높음 - 정보 비대칭이 심함 (매도자 우위) - 정책/규제 영향이 매우 큼 - 장기 사이클 (5-10년 주기) - 개별성이 강함 (같은 단지도 동/호수마다 다름)
데이터 환경:
+------------------+ +------------------+ +------------------+
| 거래 데이터 | | 공간 데이터 | | 외부 데이터 |
+------------------+ +------------------+ +------------------+
| - 실거래가 | | - 위치 좌표 | | - 인구 통계 |
| - 호가/매물 | | - 용도 지역 | | - 경제 지표 |
| - 전월세 | | - 교통망 | | - 정책 변화 |
| - 경매 | | - 편의시설 | | - 개발 계획 |
+------------------+ +------------------+ +------------------+
핵심 문제¶
1. 가격 예측 모델¶
부동산 가격 결정 요인:
가격 = f(위치, 물건, 시장, 시간)
위치 요인: 물건 요인:
- 지역/상권 - 면적/구조
- 교통 접근성 - 층수/향
- 학군 - 연식/상태
- 편의시설 - 브랜드
시장 요인: 시간 요인:
- 금리 - 계절성
- 공급량 - 경기 사이클
- 정책 - 개발 호재
Hedonic Price Model (특성가격모형):
ln(가격) = b0 + b1*면적 + b2*층수 + b3*연식 + b4*역거리 + ... + e
장점: 해석 용이, 개별 특성의 가치 추정 가능
단점: 비선형 관계 포착 어려움, 상호작용 효과 누락
실무 적용:
- 아파트: R² 0.85 이상 가능
- 단독/다세대: R² 0.60-0.70 수준
- 상업용: 임대료, 공실률 등 수익 기반 모델 필요
머신러닝 접근:
+------------------+ +------------------+ +------------------+
| Tabular Data | | Spatial Data | | Time Series |
+------------------+ +------------------+ +------------------+
| XGBoost | | Spatial Lag | | ARIMA |
| LightGBM | | GWR | | Prophet |
| CatBoost | | Kriging | | LSTM |
+------------------+ +------------------+ +------------------+
| | |
v v v
+------------------------------------------------------------------+
| Ensemble / Stacking |
+------------------------------------------------------------------+
가격 예측의 한계:
예측 가능한 것:
- 비슷한 물건의 적정 가격대
- 상대적 가치 비교
- 단기(3-6개월) 추세
예측 어려운 것:
- 정책 변화 (갑작스러운 규제)
- 급격한 시장 전환점
- 개별 거래의 정확한 가격
2. 수요 예측¶
수요에 영향을 주는 요인:
| 요인 | 지표 | 데이터 소스 |
|---|---|---|
| 인구 | 세대수, 연령 구성 | 통계청 |
| 소득 | 지역별 소득, 고용률 | 국세청, 고용부 |
| 금리 | 주담대 금리, 전세대출 금리 | 한국은행 |
| 공급 | 인허가, 분양, 입주 물량 | 국토부 |
| 정책 | 세금, 대출 규제 | 정부 발표 |
수요-공급 분석 프레임워크:
공급 부족 공급 과잉
+-------------+-------------+
수요 | | |
증가 | 가격 급등 | 가격 안정 |
+-------------+-------------+
수요 | | |
감소 | 가격 안정 | 가격 하락 |
+-------------+-------------+
실무 적용:
- 입주 물량 vs 세대수 증가 비교
- 미분양 추이 모니터링
- 전세가율 변화 추적
지역별 수요 예측 모델:
-- 향후 3년 수요 추정 (신규 세대 형성 기준)
WITH population_forecast AS (
SELECT
region,
-- 25-35세 인구 (신규 세대 형성 연령)
population_25_35 as target_pop,
-- 연간 세대 형성률 (과거 데이터 기반)
household_formation_rate,
-- 예상 신규 수요
population_25_35 * household_formation_rate as expected_demand
FROM regional_demographics
WHERE year = 2024
),
supply_forecast AS (
SELECT
region,
SUM(CASE WHEN completion_year = 2024 THEN units ELSE 0 END) as supply_2024,
SUM(CASE WHEN completion_year = 2025 THEN units ELSE 0 END) as supply_2025,
SUM(CASE WHEN completion_year = 2026 THEN units ELSE 0 END) as supply_2026
FROM construction_permits
GROUP BY region
)
SELECT
p.region,
p.expected_demand,
s.supply_2024, s.supply_2025, s.supply_2026,
(p.expected_demand * 3) - (s.supply_2024 + s.supply_2025 + s.supply_2026) as gap
FROM population_forecast p
JOIN supply_forecast s ON p.region = s.region;
3. 공간 데이터 활용¶
공간 분석 기법:
1. 거리 기반 분석
+------------------------------------------+
| 역세권: 500m 이내 프리미엄 |
| 학군: 배정 학교 기준 가격 차이 |
| 혐오시설: 거리별 디스카운트 |
+------------------------------------------+
2. 영역 분석 (Buffer/Polygon)
+------------------------------------------+
| 개발 예정지 반경 1km 내 가격 변화 |
| 상권 경계 내 상가 임대료 분석 |
| 재개발 구역 편입 여부에 따른 가치 |
+------------------------------------------+
3. 핫스팟 분석
+------------------------------------------+
| 가격 상승 클러스터 탐지 |
| 거래량 급증 지역 식별 |
| 공실률 집중 지역 분석 |
+------------------------------------------+
공간 자기상관:
부동산 가격의 제1법칙:
"가까운 것은 먼 것보다 서로 관련이 있다" (Tobler)
공간 자기상관 측정:
- Moran's I: 전역적 군집 정도
- LISA: 지역별 군집 패턴
I > 0: 유사한 값이 군집 (고가-고가, 저가-저가)
I < 0: 상이한 값이 인접 (고가-저가)
I = 0: 무작위 분포
실무 활용:
- 가격 급등 지역의 확산 패턴 분석
- 투자 유망 지역 스크리닝
좌표 데이터 활용 예시:
# 특정 지점 반경 내 편의시설 수 계산
from geopy.distance import geodesic
def count_amenities_within(lat, lon, amenities_df, radius_m=500):
count = 0
for _, row in amenities_df.iterrows():
dist = geodesic((lat, lon), (row['lat'], row['lon'])).meters
if dist <= radius_m:
count += 1
return count
# 가격 모델 feature로 활용
df['subway_500m'] = df.apply(
lambda x: count_amenities_within(x['lat'], x['lon'], subway_df, 500),
axis=1
)
4. 정책 영향 분석¶
정책 유형별 영향:
| 정책 유형 | 예시 | 예상 영향 |
|---|---|---|
| 세금 | 종부세 강화, 양도세 중과 | 매물 감소, 가격 경직 |
| 대출 | LTV/DTI 규제, 금리 인상 | 수요 감소, 거래량 감소 |
| 공급 | 신도시, 재개발 지정 | 기대감에 가격 상승 |
| 규제 | 분양가 상한제, 전매 제한 | 청약 과열, 중고 프리미엄 |
정책 효과 측정 (DID):
이중차분법 (Difference-in-Differences):
정책 전 정책 후 차이
처리군 A1 A2 A2-A1 (처리 효과 + 시간 효과)
대조군 B1 B2 B2-B1 (시간 효과만)
순수 정책 효과 = (A2-A1) - (B2-B1)
예시: 조정대상지역 지정 효과
- 처리군: 지정된 지역
- 대조군: 인접하지만 지정 안 된 유사 지역
- 측정: 지정 전후 가격 변화 차이
이벤트 스터디:
정책 발표일 기준 가격 변화 추적:
가격
지수
| 정책 발표
| |
105 | v * *
| *| *
100 |----*---*---*--|---*-------
| * * |
95 | * |
+--+--+--+--+--+--+--+--+--+-- 시간
-4 -3 -2 -1 0 +1 +2 +3 +4 (월)
해석:
- 발표 전: 루머/기대 반영 여부
- 발표 직후: 즉각적 반응
- 이후: 실제 효과 vs 기대 조정
분석 접근¶
부동산 분석의 특수성¶
1. 데이터 품질 이슈:
문제점:
- 실거래가: 신고가격 조작, 특수 거래 포함
- 호가: 허위 매물, 미반영 매물
- 시세: 주관적, 표준화 부족
대응:
- 이상치 탐지 (동일 단지 내 과도한 편차)
- 특수 거래 필터링 (가족간, 법인)
- 다중 소스 교차 검증
2. 비교 가능성 확보:
표준화 필요:
- 전용면적 기준 (공급면적 아님)
- 층수 보정 (저층/중층/고층)
- 향 보정 (남향 프리미엄)
- 시점 보정 (시세 지수 활용)
예시:
실거래가 8억 (2023.01)
→ 전용 84m² 기준: 952만원/m²
→ 층수 보정 (저층 -5%): 1,000만원/m² 환산
→ 시점 보정 (2024.01 기준): 1,050만원/m² 현재가
3. 장기 관점 필수:
부동산 사이클:
가격
| /\ /\
| / \ / \
| / \ / \
| / \ / \
| / \ / \
|/ \/ \
+----------------------------> 시간
5-7년 5-7년
분석 시 고려:
- 최소 10년 이상 데이터로 사이클 파악
- 현재 사이클 위치 추정
- 단기 예측과 장기 전망 분리
비즈니스 액션¶
이해관계자별 분석 활용¶
| 이해관계자 | 필요한 분석 | 의사결정 |
|---|---|---|
| 매수자 | 적정가 추정, 상승 여력 | 매수 시점, 가격 협상 |
| 매도자 | 시장 추세, 비교 매물 | 호가 설정, 매도 시점 |
| 투자자 | 수익률 분석, 리스크 평가 | 포트폴리오 구성 |
| 개발사 | 수요 예측, 분양가 산정 | 사업 타당성, 분양 시점 |
| 정책 | 시장 모니터링, 효과 분석 | 규제 수준 조정 |
투자 분석 프레임워크¶
+------------------------------------------------------------------+
| 투자 수익률 분석 |
+------------------------------------------------------------------+
| 총 수익 = 임대 수익 + 자본 차익 - 비용 |
| |
| Cap Rate = 순운영소득(NOI) / 매입가격 |
| = (임대료 - 운영비용) / 매입가격 |
| |
| IRR = 투자 기간 동안의 내부수익률 |
| (초기 투자, 연간 현금흐름, 매각 수익 고려) |
+------------------------------------------------------------------+
비교 기준:
- Cap Rate > 국고채 금리 + 리스크 프리미엄
- IRR > 기대 수익률 (통상 8-12%)
실무 사례¶
사례 1: 재개발 투자 분석¶
상황: 서울 A구역 재개발 투자 검토
분석 프레임워크:
1. 현재 가치 분석
- 감정평가액 vs 시세
- 권리가액 추정
- 프리미엄 수준
2. 예상 수익 분석
- 일반분양가 추정 (인근 신축 시세 기준)
- 조합원분양가 추정 (분양가 상한제 적용)
- 추가분담금 계산
3. 리스크 분석
- 사업 지연 가능성 (평균 10-15년)
- 조합 분쟁 이력
- 시장 변동 시나리오
분석 결과:
시나리오 분석:
낙관 기본 비관
사업기간 8년 12년 15년
분양가상승 20% 10% 0%
추가분담금 1억 2억 3억
예상수익 4억 2억 -0.5억
IRR 15% 8% -2%
결론: 기본 시나리오에서도 투자 매력 낮음 (IRR 8% < 목표 10%)
사례 2: 상권 분석 기반 상가 투자¶
상황: 신도시 상가 분양 검토
분석:
1. 배후 수요 분석
- 반경 500m 세대수: 5,000세대
- 반경 1km 세대수: 15,000세대
- 유동인구: 일평균 3,000명 (공사중)
2. 경쟁 공급 분석
- 기존 상가: 2개동 120호
- 신규 공급: 5개동 300호 (24-25년)
- 공급과잉 우려
3. 임대료 추정
- 인근 유사 상권: 5만원/m² (1층 기준)
- 신도시 초기 할인: -30%
- 예상 임대료: 3.5만원/m²
4. 수익률 분석
- 분양가: 3,500만원/m²
- 예상 임대료: 3.5만원/m²
- Gross Cap Rate: 1.2% (연)
- 국고채 대비: -2.3%p
결론: 현 분양가 대비 임대 수익률 부족, 재협상 또는 포기 권고
핵심 지표 정리¶
| 영역 | 지표 | 계산/설명 | 활용 |
|---|---|---|---|
| 가격 | 평당가 | 가격/전용면적(평) | 물건 비교 |
| 가격 | PIR | 주택가격/연소득 | 부담 수준 |
| 가격 | 전세가율 | 전세가/매매가 | 갭투자 지표 |
| 수요 | 청약경쟁률 | 청약자수/공급물량 | 수요 파악 |
| 수요 | 미분양 | 준공후 미분양 | 공급과잉 |
| 수익 | Cap Rate | NOI/가격 | 수익형 투자 |
| 수익 | IRR | 내부수익률 | 투자 판단 |
다음: 물류/배송