~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/knit.py

Committer: Martin Pool
Date: 2008-05-08 04:12:06 UTC
mto: This revision was merged to the branch mainline in revision 3415.
Revision ID: mbp@sourcefrog.net-20080508041206-tkrr8ucmcyrlzkum

Some review cleanups for assertion removal

files added:
bzrlib/store/revision/__init__.py

bzrlib/store/revision/knit.py

bzrlib/store/revision/text.py

bzrlib/tests/interversionedfile_implementations

bzrlib/tests/interversionedfile_implementations/__init__.py

bzrlib/tests/interversionedfile_implementations/test_join.py

bzrlib/tests/revisionstore_implementations

bzrlib/tests/revisionstore_implementations/__init__.py

bzrlib/tests/revisionstore_implementations/test_all.py

bzrlib/tests/test_escaped_store.py

tools/win32/survey.txt

files removed:
bzrlib/_btree_serializer_c.pyx

bzrlib/_btree_serializer_py.py

bzrlib/_walkdirs_win32.h

bzrlib/_walkdirs_win32.pyx

bzrlib/btree_index.py

bzrlib/chunk_writer.py

bzrlib/help_topics/en/patterns.txt

bzrlib/help_topics/en/rules.txt

bzrlib/push.py

bzrlib/rules.py

bzrlib/smart/message.py

bzrlib/tests/blackbox/test_alias.py

bzrlib/tests/blackbox/test_modified.py

bzrlib/tests/branch_implementations/test_check.py

bzrlib/tests/branch_implementations/test_reconcile.py

bzrlib/tests/branch_implementations/test_stacking.py

bzrlib/tests/file_utils.py

bzrlib/tests/interrepository_implementations/test_fetch.py

bzrlib/tests/per_repository_reference

bzrlib/tests/per_repository_reference/__init__.py

bzrlib/tests/per_repository_reference/test_add_inventory.py

bzrlib/tests/per_repository_reference/test_add_revision.py

bzrlib/tests/per_repository_reference/test_add_signature_text.py

bzrlib/tests/per_repository_reference/test_all_revision_ids.py

bzrlib/tests/per_repository_reference/test_break_lock.py

bzrlib/tests/per_repository_reference/test_check.py

bzrlib/tests/repository_implementations/test_add_fallback_repository.py

bzrlib/tests/repository_implementations/test_get_parent_map.py

bzrlib/tests/test__walkdirs_win32.py

bzrlib/tests/test_btree_index.py

bzrlib/tests/test_chunk_writer.py

bzrlib/tests/test_pack_repository.py

bzrlib/tests/test_rules.py

bzrlib/tests/test_upgrade_stacked.py

bzrlib/tests/tree_implementations/test_iter_search_rules.py

contrib/bash/bzrbashprompt.sh

doc/developers/ppa.txt

doc/developers/releasing.txt

doc/developers/repository-stream.txt

doc/en/developer-guide/testing.txt

doc/en/user-guide/bzrtools_plugin.txt

doc/en/user-guide/stacked.txt

doc/en/user-guide/svn_plugin.txt

doc/en/user-guide/web_browsing.txt

doc/es

doc/es/guia-desarrollador

doc/es/guia-usuario

doc/es/guia-usuario/index.txt

doc/es/guia-usuario/resolving_conflicts.txt

doc/es/guia-usuario/version_info.txt

doc/es/mini-tutorial

doc/es/mini-tutorial/index.txt

doc/es/notas-version

doc/es/referencia

doc/es/referencia-rapida

doc/es/referencia-rapida/Makefile

doc/es/referencia-rapida/referencia-rapida.svg

doc/index.es.txt

tools/win32/run_script.py

files renamed:
doc/en/user-guide/part2_intro.txt => doc/en/user-guide/best_practice_intro.txt

doc/en/user-guide/zen.txt => doc/en/user-guide/revnos.txt

files modified:
.bzrignore

Makefile

NEWS

bzrlib/__init__.py

bzrlib/_dirstate_helpers_py.py

bzrlib/_patiencediff_py.py

bzrlib/add.py

bzrlib/annotate.py

bzrlib/benchmarks/bench_bundle.py

bzrlib/branch.py

bzrlib/branchbuilder.py

bzrlib/builtins.py

bzrlib/bundle/bundle_data.py

bzrlib/bundle/serializer/v4.py

bzrlib/bzrdir.py

bzrlib/check.py

bzrlib/commands.py

bzrlib/commit.py

bzrlib/config.py

bzrlib/counted_lock.py

bzrlib/debug.py

bzrlib/decorators.py

bzrlib/diff.py

bzrlib/directory_service.py

bzrlib/dirstate.py

bzrlib/doc/__init__.py

bzrlib/doc/api/__init__.py

bzrlib/errors.py

bzrlib/export/__init__.py

bzrlib/export/dir_exporter.py

bzrlib/export/tar_exporter.py

bzrlib/export/zip_exporter.py

bzrlib/fetch.py

bzrlib/globbing.py

bzrlib/graph.py

bzrlib/help.py

bzrlib/help_topics/__init__.py

bzrlib/help_topics/en/authentication.txt

bzrlib/help_topics/en/hooks.txt

bzrlib/hooks.py

bzrlib/ignores.py

bzrlib/index.py

bzrlib/info.py

bzrlib/inventory.py

bzrlib/knit.py

bzrlib/lockable_files.py

bzrlib/lockdir.py

bzrlib/log.py

bzrlib/lsprof.py

bzrlib/mail_client.py

bzrlib/memorytree.py

bzrlib/merge.py

bzrlib/merge3.py

bzrlib/merge_directive.py

bzrlib/missing.py

bzrlib/msgeditor.py

bzrlib/multiparent.py

bzrlib/mutabletree.py

bzrlib/option.py

bzrlib/osutils.py

bzrlib/plugin.py

bzrlib/plugins/launchpad/test_register.py

bzrlib/reconcile.py

bzrlib/reconfigure.py

bzrlib/remote.py

bzrlib/repofmt/knitrepo.py

bzrlib/repofmt/pack_repo.py

bzrlib/repofmt/weaverepo.py

bzrlib/repository.py

bzrlib/revision.py

bzrlib/revisionspec.py

bzrlib/revisiontree.py

bzrlib/smart/branch.py

bzrlib/smart/client.py

bzrlib/smart/medium.py

bzrlib/smart/protocol.py

bzrlib/smart/repository.py

bzrlib/smart/request.py

bzrlib/smart/server.py

bzrlib/status.py

bzrlib/store/__init__.py

bzrlib/store/text.py

bzrlib/store/versioned/__init__.py

bzrlib/symbol_versioning.py

bzrlib/tag.py

bzrlib/tests/__init__.py

bzrlib/tests/blackbox/__init__.py

bzrlib/tests/blackbox/test_added.py

bzrlib/tests/blackbox/test_branch.py

bzrlib/tests/blackbox/test_check.py

bzrlib/tests/blackbox/test_commit.py

bzrlib/tests/blackbox/test_export.py

bzrlib/tests/blackbox/test_hooks.py

bzrlib/tests/blackbox/test_info.py

bzrlib/tests/blackbox/test_init.py

bzrlib/tests/blackbox/test_locale.py

bzrlib/tests/blackbox/test_log.py

bzrlib/tests/blackbox/test_ls.py

bzrlib/tests/blackbox/test_missing.py

bzrlib/tests/blackbox/test_non_ascii.py

bzrlib/tests/blackbox/test_push.py

bzrlib/tests/blackbox/test_reconcile.py

bzrlib/tests/blackbox/test_remove.py

bzrlib/tests/blackbox/test_selftest.py

bzrlib/tests/blackbox/test_serve.py

bzrlib/tests/blackbox/test_shared_repository.py

bzrlib/tests/blackbox/test_status.py

bzrlib/tests/blackbox/test_uncommit.py

bzrlib/tests/blackbox/test_unknowns.py

bzrlib/tests/blackbox/test_version.py

bzrlib/tests/branch_implementations/__init__.py

bzrlib/tests/branch_implementations/test_branch.py

bzrlib/tests/branch_implementations/test_commit.py

bzrlib/tests/branch_implementations/test_hooks.py

bzrlib/tests/branch_implementations/test_permissions.py

bzrlib/tests/branch_implementations/test_pull.py

bzrlib/tests/branch_implementations/test_push.py

bzrlib/tests/branch_implementations/test_revision_history.py

bzrlib/tests/branch_implementations/test_uncommit.py

bzrlib/tests/branch_implementations/test_update.py

bzrlib/tests/bzrdir_implementations/__init__.py

bzrlib/tests/bzrdir_implementations/test_bzrdir.py

bzrlib/tests/commands/__init__.py

bzrlib/tests/commands/test_init.py

bzrlib/tests/commands/test_init_repository.py

bzrlib/tests/commands/test_push.py

bzrlib/tests/ftp_server.py

bzrlib/tests/http_server.py

bzrlib/tests/http_utils.py

bzrlib/tests/interrepository_implementations/__init__.py

bzrlib/tests/interrepository_implementations/test_interrepository.py

bzrlib/tests/intertree_implementations/__init__.py

bzrlib/tests/intertree_implementations/test_compare.py

bzrlib/tests/inventory_implementations/__init__.py

bzrlib/tests/inventory_implementations/basics.py

bzrlib/tests/per_lock/__init__.py

bzrlib/tests/repository_implementations/__init__.py

bzrlib/tests/repository_implementations/helpers.py

bzrlib/tests/repository_implementations/test_check.py

bzrlib/tests/repository_implementations/test_check_reconcile.py

bzrlib/tests/repository_implementations/test_commit_builder.py

bzrlib/tests/repository_implementations/test_fetch.py

bzrlib/tests/repository_implementations/test_has_same_location.py

bzrlib/tests/repository_implementations/test_reconcile.py

bzrlib/tests/repository_implementations/test_repository.py

bzrlib/tests/repository_implementations/test_statistics.py

bzrlib/tests/test_ancestry.py

bzrlib/tests/test_annotate.py

bzrlib/tests/test_branch.py

bzrlib/tests/test_branchbuilder.py

bzrlib/tests/test_bundle.py

bzrlib/tests/test_bzrdir.py

bzrlib/tests/test_commit.py

bzrlib/tests/test_config.py

bzrlib/tests/test_counted_lock.py

bzrlib/tests/test_decorators.py

bzrlib/tests/test_diff.py

bzrlib/tests/test_directory_service.py

bzrlib/tests/test_dirstate.py

bzrlib/tests/test_errors.py

bzrlib/tests/test_fetch.py

bzrlib/tests/test_globbing.py

bzrlib/tests/test_graph.py

bzrlib/tests/test_hooks.py

bzrlib/tests/test_http.py

bzrlib/tests/test_http_response.py

bzrlib/tests/test_ignores.py

bzrlib/tests/test_info.py

bzrlib/tests/test_knit.py

bzrlib/tests/test_lockable_files.py

bzrlib/tests/test_lockdir.py

bzrlib/tests/test_log.py

bzrlib/tests/test_memorytree.py

bzrlib/tests/test_merge.py

bzrlib/tests/test_merge_core.py

bzrlib/tests/test_merge_directive.py

bzrlib/tests/test_missing.py

bzrlib/tests/test_msgeditor.py

bzrlib/tests/test_options.py

bzrlib/tests/test_osutils.py

bzrlib/tests/test_osutils_encodings.py

bzrlib/tests/test_patches.py

bzrlib/tests/test_permissions.py

bzrlib/tests/test_plugins.py

bzrlib/tests/test_read_bundle.py

bzrlib/tests/test_reconcile.py

bzrlib/tests/test_reconfigure.py

bzrlib/tests/test_registry.py

bzrlib/tests/test_remote.py

bzrlib/tests/test_repository.py

bzrlib/tests/test_revision.py

bzrlib/tests/test_revisionspec.py

bzrlib/tests/test_revisiontree.py

bzrlib/tests/test_selftest.py

bzrlib/tests/test_smart.py

bzrlib/tests/test_smart_transport.py

bzrlib/tests/test_source.py

bzrlib/tests/test_status.py

bzrlib/tests/test_store.py

bzrlib/tests/test_strace.py

bzrlib/tests/test_switch.py

bzrlib/tests/test_symbol_versioning.py

bzrlib/tests/test_trace.py

bzrlib/tests/test_transform.py

bzrlib/tests/test_transport.py

bzrlib/tests/test_transport_implementations.py

bzrlib/tests/test_tree.py

bzrlib/tests/test_tsort.py

bzrlib/tests/test_upgrade.py

bzrlib/tests/test_urlutils.py

bzrlib/tests/test_version_info.py

bzrlib/tests/test_versionedfile.py

bzrlib/tests/test_weave.py

bzrlib/tests/test_workingtree.py

bzrlib/tests/test_workingtree_4.py

bzrlib/tests/transport_util.py

bzrlib/tests/tree_implementations/__init__.py

bzrlib/tests/tree_implementations/test_inv.py

bzrlib/tests/tree_implementations/test_test_trees.py

bzrlib/tests/tree_implementations/test_tree.py

bzrlib/tests/workingtree_implementations/__init__.py

bzrlib/tests/workingtree_implementations/test_basis_inventory.py

bzrlib/tests/workingtree_implementations/test_commit.py

bzrlib/tests/workingtree_implementations/test_parents.py

bzrlib/tests/workingtree_implementations/test_remove.py

bzrlib/tests/workingtree_implementations/test_set_root_id.py

bzrlib/tests/workingtree_implementations/test_walkdirs.py

bzrlib/tests/workingtree_implementations/test_workingtree.py

bzrlib/timestamp.py

bzrlib/trace.py

bzrlib/transform.py

bzrlib/transport/__init__.py

bzrlib/transport/fakenfs.py

bzrlib/transport/ftp.py

bzrlib/transport/http/__init__.py

bzrlib/transport/http/_pycurl.py

bzrlib/transport/http/_urllib.py

bzrlib/transport/http/_urllib2_wrappers.py

bzrlib/transport/http/response.py

bzrlib/transport/http/wsgi.py

bzrlib/transport/local.py

bzrlib/transport/remote.py

bzrlib/transport/sftp.py

bzrlib/transport/trace.py

bzrlib/tree.py

bzrlib/tsort.py

bzrlib/uncommit.py

bzrlib/upgrade.py

bzrlib/urlutils.py

bzrlib/version_info_formats/__init__.py

bzrlib/versionedfile.py

bzrlib/weave.py

bzrlib/weave_commands.py

bzrlib/workingtree.py

bzrlib/workingtree_4.py

bzrlib/xml_serializer.py

contrib/bzr_access

doc/default.css

doc/developers/HACKING.txt

doc/developers/authentication-ring.txt

doc/developers/index.txt

doc/developers/network-protocol.txt

doc/developers/tortoise-strategy.txt

doc/en/user-guide/branching_a_project.txt

doc/en/user-guide/browsing_history.txt

doc/en/user-guide/bug_trackers.txt

doc/en/user-guide/configuring_bazaar.txt

doc/en/user-guide/controlling_registration.txt

doc/en/user-guide/core_concepts.txt

doc/en/user-guide/distributed_intro.txt

doc/en/user-guide/hooks.txt

doc/en/user-guide/index.txt

doc/en/user-guide/introducing_bazaar.txt

doc/en/user-guide/organizing_branches.txt

doc/en/user-guide/partner_intro.txt

doc/en/user-guide/releasing_a_project.txt

doc/en/user-guide/sending_changes.txt

doc/en/user-guide/undoing_mistakes.txt

doc/index.txt

setup.py

tools/doc_generate/autodoc_rstx.py

tools/rst2html.py

tools/win32/bzr.iss.cog

Show diffs side-by-side

added added

removed removed

bzrlib/knit.py

# record content length ?

from copy import copy

from cStringIO import StringIO

from itertools import izip, chain

import operator

import os

import sys

import warnings

from zlib import Z_DEFAULT_COMPRESSION

import bzrlib

from bzrlib.lazy_import import lazy_import

lazy_import(globals(), """

from bzrlib import (

annotate,

debug,

diff,

graph as _mod_graph,

index as _mod_index,

lru_cache,

pack,

progress,

trace,

tsort,

tuned_gzip,

)

""")

from bzrlib import (

cache_utf8,

debug,

diff,

errors,

osutils,

patiencediff,

progress,

merge,

ui,

)

from bzrlib.errors import (

FileExists,

101

RevisionNotPresent,

102

RevisionAlreadyPresent,

103

)

104

from bzrlib.graph import Graph

105

from bzrlib.osutils import (

100

106

contains_whitespace,

101

107

contains_linebreaks,

102

108

sha_string,

103

109

sha_strings,

104

split_lines,

105

)

106

from bzrlib.versionedfile import (

107

AbsentContentFactory,

108

adapter_registry,

109

ConstantMapper,

110

ContentFactory,

111

FulltextContentFactory,

112

VersionedFile,

113

VersionedFiles,

114

)

110

)

111

from bzrlib.symbol_versioning import (

112

DEPRECATED_PARAMETER,

113

deprecated_method,

114

deprecated_passed,

115

one_four,

116

)

117

from bzrlib.tsort import topo_sort

118

from bzrlib.tuned_gzip import GzipFile, bytes_to_gzip

119

import bzrlib.ui

120

from bzrlib.versionedfile import VersionedFile, InterVersionedFile

121

import bzrlib.weave

115

122

116

123

117

124

# TODO: Split out code specific to this format into an associated object.

131

138

INDEX_SUFFIX = '.kndx'

132

139

133

140

134

class KnitAdapter(object):

135

"""Base class for knit record adaption."""

136

137

def __init__(self, basis_vf):

138

"""Create an adapter which accesses full texts from basis_vf.

139

140

:param basis_vf: A versioned file to access basis texts of deltas from.

141

May be None for adapters that do not need to access basis texts.

142

"""

143

self._data = KnitVersionedFiles(None, None)

144

self._annotate_factory = KnitAnnotateFactory()

145

self._plain_factory = KnitPlainFactory()

146

self._basis_vf = basis_vf

147

148

149

class FTAnnotatedToUnannotated(KnitAdapter):

150

"""An adapter from FT annotated knits to unannotated ones."""

151

152

def get_bytes(self, factory, annotated_compressed_bytes):

153

rec, contents = \

154

self._data._parse_record_unchecked(annotated_compressed_bytes)

155

content = self._annotate_factory.parse_fulltext(contents, rec[1])

156

size, bytes = self._data._record_to_data((rec[1],), rec[3], content.text())

157

return bytes

158

159

160

class DeltaAnnotatedToUnannotated(KnitAdapter):

161

"""An adapter for deltas from annotated to unannotated."""

162

163

def get_bytes(self, factory, annotated_compressed_bytes):

164

rec, contents = \

165

self._data._parse_record_unchecked(annotated_compressed_bytes)

166

delta = self._annotate_factory.parse_line_delta(contents, rec[1],

167

plain=True)

168

contents = self._plain_factory.lower_line_delta(delta)

169

size, bytes = self._data._record_to_data((rec[1],), rec[3], contents)

170

return bytes

171

172

173

class FTAnnotatedToFullText(KnitAdapter):

174

"""An adapter from FT annotated knits to unannotated ones."""

175

176

def get_bytes(self, factory, annotated_compressed_bytes):

177

rec, contents = \

178

self._data._parse_record_unchecked(annotated_compressed_bytes)

179

content, delta = self._annotate_factory.parse_record(factory.key[-1],

180

contents, factory._build_details, None)

181

return ''.join(content.text())

182

183

184

class DeltaAnnotatedToFullText(KnitAdapter):

185

"""An adapter for deltas from annotated to unannotated."""

186

187

def get_bytes(self, factory, annotated_compressed_bytes):

188

rec, contents = \

189

self._data._parse_record_unchecked(annotated_compressed_bytes)

190

delta = self._annotate_factory.parse_line_delta(contents, rec[1],

191

plain=True)

192

compression_parent = factory.parents[0]

193

basis_entry = self._basis_vf.get_record_stream(

194

[compression_parent], 'unordered', True).next()

195

if basis_entry.storage_kind == 'absent':

196

raise errors.RevisionNotPresent(compression_parent, self._basis_vf)

197

basis_lines = split_lines(basis_entry.get_bytes_as('fulltext'))

198

# Manually apply the delta because we have one annotated content and

199

# one plain.

200

basis_content = PlainKnitContent(basis_lines, compression_parent)

201

basis_content.apply_delta(delta, rec[1])

202

basis_content._should_strip_eol = factory._build_details[1]

203

return ''.join(basis_content.text())

204

205

206

class FTPlainToFullText(KnitAdapter):

207

"""An adapter from FT plain knits to unannotated ones."""

208

209

def get_bytes(self, factory, compressed_bytes):

210

rec, contents = \

211

self._data._parse_record_unchecked(compressed_bytes)

212

content, delta = self._plain_factory.parse_record(factory.key[-1],

213

contents, factory._build_details, None)

214

return ''.join(content.text())

215

216

217

class DeltaPlainToFullText(KnitAdapter):

218

"""An adapter for deltas from annotated to unannotated."""

219

220

def get_bytes(self, factory, compressed_bytes):

221

rec, contents = \

222

self._data._parse_record_unchecked(compressed_bytes)

223

delta = self._plain_factory.parse_line_delta(contents, rec[1])

224

compression_parent = factory.parents[0]

225

# XXX: string splitting overhead.

226

basis_entry = self._basis_vf.get_record_stream(

227

[compression_parent], 'unordered', True).next()

228

if basis_entry.storage_kind == 'absent':

229

raise errors.RevisionNotPresent(compression_parent, self._basis_vf)

230

basis_lines = split_lines(basis_entry.get_bytes_as('fulltext'))

231

basis_content = PlainKnitContent(basis_lines, compression_parent)

232

# Manually apply the delta because we have one annotated content and

233

# one plain.

234

content, _ = self._plain_factory.parse_record(rec[1], contents,

235

factory._build_details, basis_content)

236

return ''.join(content.text())

237

238

239

class KnitContentFactory(ContentFactory):

240

"""Content factory for streaming from knits.

241

242

:seealso ContentFactory:

243

"""

244

245

def __init__(self, key, parents, build_details, sha1, raw_record,

246

annotated, knit=None):

247

"""Create a KnitContentFactory for key.

248

249

:param key: The key.

250

:param parents: The parents.

251

:param build_details: The build details as returned from

252

get_build_details.

253

:param sha1: The sha1 expected from the full text of this object.

254

:param raw_record: The bytes of the knit data from disk.

255

:param annotated: True if the raw data is annotated.

256

"""

257

ContentFactory.__init__(self)

258

self.sha1 = sha1

259

self.key = key

260

self.parents = parents

261

if build_details[0] == 'line-delta':

262

kind = 'delta'

263

else:

264

kind = 'ft'

265

if annotated:

266

annotated_kind = 'annotated-'

267

else:

268

annotated_kind = ''

269

self.storage_kind = 'knit-%s%s-gz' % (annotated_kind, kind)

270

self._raw_record = raw_record

271

self._build_details = build_details

272

self._knit = knit

273

274

def get_bytes_as(self, storage_kind):

275

if storage_kind == self.storage_kind:

276

return self._raw_record

277

if storage_kind == 'fulltext' and self._knit is not None:

278

return self._knit.get_text(self.key[0])

279

else:

280

raise errors.UnavailableRepresentation(self.key, storage_kind,

281

self.storage_kind)

282

283

284

141

class KnitContent(object):

285

"""Content of a knit version to which deltas can be applied.

286

287

This is always stored in memory as a list of lines with \n at the end,

288

plus a flag saying if the final ending is really there or not, because that

289

corresponds to the on-disk knit representation.

290

"""

142

"""Content of a knit version to which deltas can be applied."""

291

143

292

144

def __init__(self):

293

145

self._should_strip_eol = False

296

148

"""Apply delta to this object to become new_version_id."""

297

149

raise NotImplementedError(self.apply_delta)

298

150

151

def cleanup_eol(self, copy_on_mutate=True):

152

if self._should_strip_eol:

153

if copy_on_mutate:

154

self._lines = self._lines[:]

155

self.strip_last_line_newline()

156

299

157

def line_delta_iter(self, new_lines):

300

158

"""Generate line-based delta from this content to new_lines."""

301

159

new_texts = new_lines.text()

346

204

347

205

def annotate(self):

348

206

"""Return a list of (origin, text) for each content line."""

349

lines = self._lines[:]

350

if self._should_strip_eol:

351

origin, last_line = lines[-1]

352

lines[-1] = (origin, last_line.rstrip('\n'))

353

return lines

207

return list(self._lines)

354

208

355

209

def apply_delta(self, delta, new_version_id):

356

210

"""Apply delta to this object to become new_version_id."""

360

214

lines[offset+start:offset+end] = delta_lines

361

215

offset = offset + (start - end) + count

362

216

217

def strip_last_line_newline(self):

218

line = self._lines[-1][1].rstrip('\n')

219

self._lines[-1] = (self._lines[-1][0], line)

220

self._should_strip_eol = False

221

363

222

def text(self):

364

223

try:

365

224

lines = [text for origin, text in self._lines]

370

229

raise KnitCorrupt(self,

371

230

"line in annotated knit missing annotation information: %s"

372

231

% (e,))

232

373

233

if self._should_strip_eol:

374

lines[-1] = lines[-1].rstrip('\n')

234

anno, line = lines[-1]

235

lines[-1] = (anno, line.rstrip('\n'))

375

236

return lines

376

237

377

238

def copy(self):

407

268

def copy(self):

408

269

return PlainKnitContent(self._lines[:], self._version_id)

409

270

271

def strip_last_line_newline(self):

272

self._lines[-1] = self._lines[-1].rstrip('\n')

273

self._should_strip_eol = False

274

410

275

def text(self):

411

276

lines = self._lines

412

277

if self._should_strip_eol:

556

421

for origin, text in lines)

557

422

return out

558

423

559

def annotate(self, knit, key):

560

content = knit._get_content(key)

561

# adjust for the fact that serialised annotations are only key suffixes

562

# for this factory.

563

if type(key) == tuple:

564

prefix = key[:-1]

565

origins = content.annotate()

566

result = []

567

for origin, line in origins:

568

result.append((prefix + (origin,), line))

569

return result

570

else:

571

# XXX: This smells a bit. Why would key ever be a non-tuple here?

572

# Aren't keys defined to be tuples? -- spiv 20080618

573

return content.annotate()

424

def annotate(self, knit, version_id):

425

content = knit._get_content(version_id)

426

return content.annotate()

574

427

575

428

576

429

class KnitPlainFactory(_KnitFactory):

630

483

out.extend(lines)

631

484

return out

632

485

633

def annotate(self, knit, key):

486

def annotate(self, knit, version_id):

634

487

annotator = _KnitAnnotator(knit)

635

return annotator.annotate(key)

636

637

638

639

def make_file_factory(annotated, mapper):

640

"""Create a factory for creating a file based KnitVersionedFiles.

641

642

This is only functional enough to run interface tests, it doesn't try to

643

provide a full pack environment.

644

645

:param annotated: knit annotations are wanted.

646

:param mapper: The mapper from keys to paths.

647

"""

648

def factory(transport):

649

index = _KndxIndex(transport, mapper, lambda:None, lambda:True, lambda:True)

650

access = _KnitKeyAccess(transport, mapper)

651

return KnitVersionedFiles(index, access, annotated=annotated)

652

return factory

653

654

655

def make_pack_factory(graph, delta, keylength):

656

"""Create a factory for creating a pack based VersionedFiles.

657

658

This is only functional enough to run interface tests, it doesn't try to

659

provide a full pack environment.

660

661

:param graph: Store a graph.

662

:param delta: Delta compress contents.

663

:param keylength: How long should keys be.

664

"""

665

def factory(transport):

666

parents = graph or delta

667

ref_length = 0

668

if graph:

669

ref_length += 1

670

if delta:

671

ref_length += 1

672

max_delta_chain = 200

673

else:

674

max_delta_chain = 0

675

graph_index = _mod_index.InMemoryGraphIndex(reference_lists=ref_length,

676

key_elements=keylength)

677

stream = transport.open_write_stream('newpack')

678

writer = pack.ContainerWriter(stream.write)

679

writer.begin()

680

index = _KnitGraphIndex(graph_index, lambda:True, parents=parents,

681

deltas=delta, add_callback=graph_index.add_nodes)

682

access = _DirectPackAccess({})

683

access.set_writer(writer, graph_index, (transport, 'newpack'))

684

result = KnitVersionedFiles(index, access,

685

max_delta_chain=max_delta_chain)

686

result.stream = stream

687

result.writer = writer

688

return result

689

return factory

690

691

692

def cleanup_pack_knit(versioned_files):

693

versioned_files.stream.close()

694

versioned_files.writer.end()

695

696

697

class KnitVersionedFiles(VersionedFiles):

698

"""Storage for many versioned files using knit compression.

699

700

Backend storage is managed by indices and data objects.

701

702

:ivar _index: A _KnitGraphIndex or similar that can describe the

703

parents, graph, compression and data location of entries in this

704

KnitVersionedFiles. Note that this is only the index for

705

*this* vfs; if there are fallbacks they must be queried separately.

706

"""

707

708

def __init__(self, index, data_access, max_delta_chain=200,

709

annotated=False):

710

"""Create a KnitVersionedFiles with index and data_access.

711

712

:param index: The index for the knit data.

713

:param data_access: The access object to store and retrieve knit

714

records.

715

:param max_delta_chain: The maximum number of deltas to permit during

716

insertion. Set to 0 to prohibit the use of deltas.

717

:param annotated: Set to True to cause annotations to be calculated and

718

stored during insertion.

488

return annotator.annotate(version_id)

489

490

491

def make_empty_knit(transport, relpath):

492

"""Construct a empty knit at the specified location."""

493

k = make_file_knit(transport, relpath, 'w', KnitPlainFactory)

494

495

496

def make_file_knit(name, transport, file_mode=None, access_mode='w',

497

factory=None, delta=True, create=False, create_parent_dir=False,

498

delay_create=False, dir_mode=None, get_scope=None):

499

"""Factory to create a KnitVersionedFile for a .knit/.kndx file pair."""

500

if factory is None:

501

factory = KnitAnnotateFactory()

502

else:

503

factory = KnitPlainFactory()

504

if get_scope is None:

505

get_scope = lambda:None

506

index = _KnitIndex(transport, name + INDEX_SUFFIX,

507

access_mode, create=create, file_mode=file_mode,

508

create_parent_dir=create_parent_dir, delay_create=delay_create,

509

dir_mode=dir_mode, get_scope=get_scope)

510

access = _KnitAccess(transport, name + DATA_SUFFIX, file_mode,

511

dir_mode, ((create and not len(index)) and delay_create),

512

create_parent_dir)

513

return KnitVersionedFile(name, transport, factory=factory,

514

create=create, delay_create=delay_create, index=index,

515

access_method=access)

516

517

518

def get_suffixes():

519

"""Return the suffixes used by file based knits."""

520

return [DATA_SUFFIX, INDEX_SUFFIX]

521

make_file_knit.get_suffixes = get_suffixes

522

523

524

class KnitVersionedFile(VersionedFile):

525

"""Weave-like structure with faster random access.

526

527

A knit stores a number of texts and a summary of the relationships

528

between them. Texts are identified by a string version-id. Texts

529

are normally stored and retrieved as a series of lines, but can

530

also be passed as single strings.

531

532

Lines are stored with the trailing newline (if any) included, to

533

avoid special cases for files with no final newline. Lines are

534

composed of 8-bit characters, not unicode. The combination of

535

these approaches should mean any 'binary' file can be safely

536

stored and retrieved.

537

"""

538

539

def __init__(self, relpath, transport, file_mode=None,

540

factory=None, delta=True, create=False, create_parent_dir=False,

541

delay_create=False, dir_mode=None, index=None, access_method=None):

542

"""Construct a knit at location specified by relpath.

543

544

:param create: If not True, only open an existing knit.

545

:param create_parent_dir: If True, create the parent directory if

546

creating the file fails. (This is used for stores with

547

hash-prefixes that may not exist yet)

548

:param delay_create: The calling code is aware that the knit won't

549

actually be created until the first data is stored.

550

:param index: An index to use for the knit.

719

551

"""

552

super(KnitVersionedFile, self).__init__()

553

self.transport = transport

554

self.filename = relpath

555

self.factory = factory or KnitAnnotateFactory()

556

self.delta = delta

557

558

self._max_delta_chain = 200

559

560

if None in (access_method, index):

561

raise ValueError("No default access_method or index any more")

720

562

self._index = index

721

self._access = data_access

722

self._max_delta_chain = max_delta_chain

563

_access = access_method

564

if create and not len(self) and not delay_create:

565

_access.create()

566

self._data = _KnitData(_access)

567

568

def __repr__(self):

569

return '%s(%s)' % (self.__class__.__name__,

570

self.transport.abspath(self.filename))

571

572

def _check_should_delta(self, first_parents):

573

"""Iterate back through the parent listing, looking for a fulltext.

574

575

This is used when we want to decide whether to add a delta or a new

576

fulltext. It searches for _max_delta_chain parents. When it finds a

577

fulltext parent, it sees if the total size of the deltas leading up to

578

it is large enough to indicate that we want a new full text anyway.

579

580

Return True if we should create a new delta, False if we should use a

581

full text.

582

"""

583

delta_size = 0

584

fulltext_size = None

585

delta_parents = first_parents

586

for count in xrange(self._max_delta_chain):

587

parent = delta_parents[0]

588

method = self._index.get_method(parent)

589

index, pos, size = self._index.get_position(parent)

590

if method == 'fulltext':

591

fulltext_size = size

592

break

593

delta_size += size

594

delta_parents = self._index.get_parent_map([parent])[parent]

595

else:

596

# We couldn't find a fulltext, so we must create a new one

597

return False

598

599

return fulltext_size > delta_size

600

601

def _check_write_ok(self):

602

return self._index._check_write_ok()

603

604

def _add_raw_records(self, records, data):

605

"""Add all the records 'records' with data pre-joined in 'data'.

606

607

:param records: A list of tuples(version_id, options, parents, size).

608

:param data: The data for the records. When it is written, the records

609

are adjusted to have pos pointing into data by the sum of

610

the preceding records sizes.

611

"""

612

# write all the data

613

raw_record_sizes = [record[3] for record in records]

614

positions = self._data.add_raw_records(raw_record_sizes, data)

615

offset = 0

616

index_entries = []

617

for (version_id, options, parents, size), access_memo in zip(

618

records, positions):

619

index_entries.append((version_id, options, access_memo, parents))

620

offset += size

621

self._index.add_versions(index_entries)

622

623

def copy_to(self, name, transport):

624

"""See VersionedFile.copy_to()."""

625

# copy the current index to a temp index to avoid racing with local

626

# writes

627

transport.put_file_non_atomic(name + INDEX_SUFFIX + '.tmp',

628

self.transport.get(self._index._filename))

629

# copy the data file

630

f = self._data._open_file()

631

try:

632

transport.put_file(name + DATA_SUFFIX, f)

633

finally:

634

f.close()

635

# move the copied index into place

636

transport.move(name + INDEX_SUFFIX + '.tmp', name + INDEX_SUFFIX)

637

638

def get_data_stream(self, required_versions):

639

"""Get a data stream for the specified versions.

640

641

Versions may be returned in any order, not necessarily the order

642

specified. They are returned in a partial order by compression

643

parent, so that the deltas can be applied as the data stream is

644

inserted; however note that compression parents will not be sent

645

unless they were specifically requested, as the client may already

646

have them.

647

648

:param required_versions: The exact set of versions to be extracted.

649

Unlike some other knit methods, this is not used to generate a

650

transitive closure, rather it is used precisely as given.

651

652

:returns: format_signature, list of (version, options, length, parents),

653

reader_callable.

654

"""

655

required_version_set = frozenset(required_versions)

656

version_index = {}

657

# list of revisions that can just be sent without waiting for their

658

# compression parent

659

ready_to_send = []

660

# map from revision to the children based on it

661

deferred = {}

662

# first, read all relevant index data, enough to sort into the right

663

# order to return

664

for version_id in required_versions:

665

options = self._index.get_options(version_id)

666

parents = self._index.get_parents_with_ghosts(version_id)

667

index_memo = self._index.get_position(version_id)

668

version_index[version_id] = (index_memo, options, parents)

669

if ('line-delta' in options

670

and parents[0] in required_version_set):

671

# must wait until the parent has been sent

672

deferred.setdefault(parents[0], []). \

673

append(version_id)

674

else:

675

# either a fulltext, or a delta whose parent the client did

676

# not ask for and presumably already has

677

ready_to_send.append(version_id)

678

# build a list of results to return, plus instructions for data to

679

# read from the file

680

copy_queue_records = []

681

temp_version_list = []

682

while ready_to_send:

683

# XXX: pushing and popping lists may be a bit inefficient

684

version_id = ready_to_send.pop(0)

685

(index_memo, options, parents) = version_index[version_id]

686

copy_queue_records.append((version_id, index_memo))

687

none, data_pos, data_size = index_memo

688

temp_version_list.append((version_id, options, data_size,

689

parents))

690

if version_id in deferred:

691

# now we can send all the children of this revision - we could

692

# put them in anywhere, but we hope that sending them soon

693

# after the fulltext will give good locality in the receiver

694

ready_to_send[:0] = deferred.pop(version_id)

695

if not (len(deferred) == 0):

696

raise AssertionError("Still have compressed child versions waiting to be sent")

697

# XXX: The stream format is such that we cannot stream it - we have to

698

# know the length of all the data a-priori.

699

raw_datum = []

700

result_version_list = []

701

for (version_id, raw_data), \

702

(version_id2, options, _, parents) in \

703

izip(self._data.read_records_iter_raw(copy_queue_records),

704

temp_version_list):

705

if not (version_id == version_id2):

706

raise AssertionError('logic error, inconsistent results')

707

raw_datum.append(raw_data)

708

result_version_list.append(

709

(version_id, options, len(raw_data), parents))

710

# provide a callback to get data incrementally.

711

pseudo_file = StringIO(''.join(raw_datum))

712

def read(length):

713

if length is None:

714

return pseudo_file.read()

715

else:

716

return pseudo_file.read(length)

717

return (self.get_format_signature(), result_version_list, read)

718

719

def _extract_blocks(self, version_id, source, target):

720

if self._index.get_method(version_id) != 'line-delta':

721

return None

722

parent, sha1, noeol, delta = self.get_delta(version_id)

723

return KnitContent.get_line_delta_blocks(delta, source, target)

724

725

def get_delta(self, version_id):

726

"""Get a delta for constructing version from some other version."""

727

self.check_not_reserved_id(version_id)

728

parents = self.get_parent_map([version_id])[version_id]

729

if len(parents):

730

parent = parents[0]

731

else:

732

parent = None

733

index_memo = self._index.get_position(version_id)

734

data, sha1 = self._data.read_records(((version_id, index_memo),))[version_id]

735

noeol = 'no-eol' in self._index.get_options(version_id)

736

if 'fulltext' == self._index.get_method(version_id):

737

new_content = self.factory.parse_fulltext(data, version_id)

738

if parent is not None:

739

reference_content = self._get_content(parent)

740

old_texts = reference_content.text()

741

else:

742

old_texts = []

743

new_texts = new_content.text()

744

delta_seq = patiencediff.PatienceSequenceMatcher(None, old_texts,

745

new_texts)

746

return parent, sha1, noeol, self._make_line_delta(delta_seq, new_content)

747

else:

748

delta = self.factory.parse_line_delta(data, version_id)

749

return parent, sha1, noeol, delta

750

751

def get_format_signature(self):

752

"""See VersionedFile.get_format_signature()."""

753

if self.factory.annotated:

754

annotated_part = "annotated"

755

else:

756

annotated_part = "plain"

757

return "knit-%s" % (annotated_part,)

758

759

@deprecated_method(one_four)

760

def get_graph_with_ghosts(self):

761

"""See VersionedFile.get_graph_with_ghosts()."""

762

return self.get_parent_map(self.versions())

763

764

def get_sha1s(self, version_ids):

765

"""See VersionedFile.get_sha1s()."""

766

record_map = self._get_record_map(version_ids)

767

# record entry 2 is the 'digest'.

768

return [record_map[v][2] for v in version_ids]

769

770

@deprecated_method(one_four)

771

def has_ghost(self, version_id):

772

"""True if there is a ghost reference in the file to version_id."""

773

# maybe we have it

774

if self.has_version(version_id):

775

return False

776

# optimisable if needed by memoising the _ghosts set.

777

items = self.get_parent_map(self.versions())

778

for parents in items.itervalues():

779

for parent in parents:

780

if parent == version_id and parent not in items:

781

return True

782

return False

783

784

def insert_data_stream(self, (format, data_list, reader_callable)):

785

"""Insert knit records from a data stream into this knit.

786

787

If a version in the stream is already present in this knit, it will not

788

be inserted a second time. It will be checked for consistency with the

789

stored version however, and may cause a KnitCorrupt error to be raised

790

if the data in the stream disagrees with the already stored data.

791

792

:seealso: get_data_stream

793

"""

794

if format != self.get_format_signature():

795

if 'knit' in debug.debug_flags:

796

trace.mutter(

797

'incompatible format signature inserting to %r', self)

798

source = self._knit_from_datastream(

799

(format, data_list, reader_callable))

800

self.join(source)

801

return

802

803

for version_id, options, length, parents in data_list:

804

if self.has_version(version_id):

805

# First check: the list of parents.

806

my_parents = self.get_parents_with_ghosts(version_id)

807

if tuple(my_parents) != tuple(parents):

808

# XXX: KnitCorrupt is not quite the right exception here.

809

raise KnitCorrupt(

810

self.filename,

811

'parents list %r from data stream does not match '

812

'already recorded parents %r for %s'

813

% (parents, my_parents, version_id))

814

815

# Also check the SHA-1 of the fulltext this content will

816

# produce.

817

raw_data = reader_callable(length)

818

my_fulltext_sha1 = self.get_sha1s([version_id])[0]

819

df, rec = self._data._parse_record_header(version_id, raw_data)

820

stream_fulltext_sha1 = rec[3]

821

if my_fulltext_sha1 != stream_fulltext_sha1:

822

# Actually, we don't know if it's this knit that's corrupt,

823

# or the data stream we're trying to insert.

824

raise KnitCorrupt(

825

self.filename, 'sha-1 does not match %s' % version_id)

826

else:

827

if 'line-delta' in options:

828

# Make sure that this knit record is actually useful: a

829

# line-delta is no use unless we have its parent.

830

# Fetching from a broken repository with this problem

831

# shouldn't break the target repository.

832

833

# See https://bugs.launchpad.net/bzr/+bug/164443

834

if not self._index.has_version(parents[0]):

835

raise KnitCorrupt(

836

self.filename,

837

'line-delta from stream '

838

'for version %s '

839

'references '

840

'missing parent %s\n'

841

'Try running "bzr check" '

842

'on the source repository, and "bzr reconcile" '

843

'if necessary.' %

844

(version_id, parents[0]))

845

self._add_raw_records(

846

[(version_id, options, parents, length)],

847

reader_callable(length))

848

849

def _knit_from_datastream(self, (format, data_list, reader_callable)):

850

"""Create a knit object from a data stream.

851

852

This method exists to allow conversion of data streams that do not

853

match the signature of this knit. Generally it will be slower and use

854

more memory to use this method to insert data, but it will work.

855

856

:seealso: get_data_stream for details on datastreams.

857

:return: A knit versioned file which can be used to join the datastream

858

into self.

859

"""

860

if format == "knit-plain":

861

factory = KnitPlainFactory()

862

elif format == "knit-annotated":

863

factory = KnitAnnotateFactory()

864

else:

865

raise errors.KnitDataStreamUnknown(format)

866

index = _StreamIndex(data_list, self._index)

867

access = _StreamAccess(reader_callable, index, self, factory)

868

return KnitVersionedFile(self.filename, self.transport,

869

factory=factory, index=index, access_method=access)

870

871

def versions(self):

872

"""See VersionedFile.versions."""

873

if 'evil' in debug.debug_flags:

874

trace.mutter_callsite(2, "versions scales with size of history")

875

return self._index.get_versions()

876

877

def has_version(self, version_id):

878

"""See VersionedFile.has_version."""

879

if 'evil' in debug.debug_flags:

880

trace.mutter_callsite(2, "has_version is a LBYL scenario")

881

return self._index.has_version(version_id)

882

883

__contains__ = has_version

884

885

def _merge_annotations(self, content, parents, parent_texts={},

886

delta=None, annotated=None,

887

left_matching_blocks=None):

888

"""Merge annotations for content. This is done by comparing

889

the annotations based on changed to the text.

890

"""

891

if left_matching_blocks is not None:

892

delta_seq = diff._PrematchedMatcher(left_matching_blocks)

893

else:

894

delta_seq = None

723

895

if annotated:

724

self._factory = KnitAnnotateFactory()

725

else:

726

self._factory = KnitPlainFactory()

727

self._fallback_vfs = []

728

729

def add_fallback_versioned_files(self, a_versioned_files):

730

"""Add a source of texts for texts not present in this knit.

731

732

:param a_versioned_files: A VersionedFiles object.

896

for parent_id in parents:

897

merge_content = self._get_content(parent_id, parent_texts)

898

if (parent_id == parents[0] and delta_seq is not None):

899

seq = delta_seq

900

else:

901

seq = patiencediff.PatienceSequenceMatcher(

902

None, merge_content.text(), content.text())

903

for i, j, n in seq.get_matching_blocks():

904

if n == 0:

905

continue

906

# this appears to copy (origin, text) pairs across to the

907

# new content for any line that matches the last-checked

908

# parent.

909

content._lines[j:j+n] = merge_content._lines[i:i+n]

910

if delta:

911

if delta_seq is None:

912

reference_content = self._get_content(parents[0], parent_texts)

913

new_texts = content.text()

914

old_texts = reference_content.text()

915

delta_seq = patiencediff.PatienceSequenceMatcher(

916

None, old_texts, new_texts)

917

return self._make_line_delta(delta_seq, content)

918

919

def _make_line_delta(self, delta_seq, new_content):

920

"""Generate a line delta from delta_seq and new_content."""

921

diff_hunks = []

922

for op in delta_seq.get_opcodes():

923

if op[0] == 'equal':

924

continue

925

diff_hunks.append((op[1], op[2], op[4]-op[3], new_content._lines[op[3]:op[4]]))

926

return diff_hunks

927

928

def _get_components_positions(self, version_ids):

929

"""Produce a map of position data for the components of versions.

930

931

This data is intended to be used for retrieving the knit records.

932

933

A dict of version_id to (record_details, index_memo, next, parents) is

934

returned.

935

method is the way referenced data should be applied.

936

index_memo is the handle to pass to the data access to actually get the

937

data

938

next is the build-parent of the version, or None for fulltexts.

939

parents is the version_ids of the parents of this version

733

940

"""

734

self._fallback_vfs.append(a_versioned_files)

735

736

def add_lines(self, key, parents, lines, parent_texts=None,

737

left_matching_blocks=None, nostore_sha=None, random_id=False,

738

check_content=True):

739

"""See VersionedFiles.add_lines()."""

740

self._index._check_write_ok()

741

self._check_add(key, lines, random_id, check_content)

742

if parents is None:

743

# The caller might pass None if there is no graph data, but kndx

744

# indexes can't directly store that, so we give them

745

# an empty tuple instead.

746

parents = ()

747

return self._add(key, lines, parents,

748

parent_texts, left_matching_blocks, nostore_sha, random_id)

749

750

def _add(self, key, lines, parents, parent_texts,

941

component_data = {}

942

pending_components = version_ids

943

while pending_components:

944

build_details = self._index.get_build_details(pending_components)

945

current_components = set(pending_components)

946

pending_components = set()

947

for version_id, details in build_details.iteritems():

948

(index_memo, compression_parent, parents,

949

record_details) = details

950

method = record_details[0]

951

if compression_parent is not None:

952

pending_components.add(compression_parent)

953

component_data[version_id] = (record_details, index_memo,

954

compression_parent)

955

missing = current_components.difference(build_details)

956

if missing:

957

raise errors.RevisionNotPresent(missing.pop(), self.filename)

958

return component_data

959

960

def _get_content(self, version_id, parent_texts={}):

961

"""Returns a content object that makes up the specified

962

version."""

963

cached_version = parent_texts.get(version_id, None)

964

if cached_version is not None:

965

if not self.has_version(version_id):

966

raise RevisionNotPresent(version_id, self.filename)

967

return cached_version

968

969

text_map, contents_map = self._get_content_maps([version_id])

970

return contents_map[version_id]

971

972

def _check_versions_present(self, version_ids):

973

"""Check that all specified versions are present."""

974

self._index.check_versions_present(version_ids)

975

976

def _add_lines_with_ghosts(self, version_id, parents, lines, parent_texts,

977

nostore_sha, random_id, check_content, left_matching_blocks):

978

"""See VersionedFile.add_lines_with_ghosts()."""

979

self._check_add(version_id, lines, random_id, check_content)

980

return self._add(version_id, lines, parents, self.delta,

981

parent_texts, left_matching_blocks, nostore_sha, random_id)

982

983

def _add_lines(self, version_id, parents, lines, parent_texts,

984

left_matching_blocks, nostore_sha, random_id, check_content):

985

"""See VersionedFile.add_lines."""

986

self._check_add(version_id, lines, random_id, check_content)

987

self._check_versions_present(parents)

988

return self._add(version_id, lines[:], parents, self.delta,

989

parent_texts, left_matching_blocks, nostore_sha, random_id)

990

991

def _check_add(self, version_id, lines, random_id, check_content):

992

"""check that version_id and lines are safe to add."""

993

if contains_whitespace(version_id):

994

raise InvalidRevisionId(version_id, self.filename)

995

self.check_not_reserved_id(version_id)

996

# Technically this could be avoided if we are happy to allow duplicate

997

# id insertion when other things than bzr core insert texts, but it

998

# seems useful for folk using the knit api directly to have some safety

999

# blanket that we can disable.

1000

if not random_id and self.has_version(version_id):

1001

raise RevisionAlreadyPresent(version_id, self.filename)

1002

if check_content:

1003

self._check_lines_not_unicode(lines)

1004

self._check_lines_are_lines(lines)

1005

1006

def _add(self, version_id, lines, parents, delta, parent_texts,

751

1007

left_matching_blocks, nostore_sha, random_id):

752

1008

"""Add a set of lines on top of version specified by parents.

753

1009

1010

If delta is true, compress the text as a line-delta against

1011

the first parent.

1012

754

1013

Any versions not present will be converted into ghosts.

755

1014

"""

756

1015

# first thing, if the content is something we don't need to store, find

763

1022

present_parents = []

764

1023

if parent_texts is None:

765

1024

parent_texts = {}

766

# Do a single query to ascertain parent presence.

767

present_parent_map = self.get_parent_map(parents)

768

1025

for parent in parents:

769

if parent in present_parent_map:

1026

if self.has_version(parent):

770

1027

present_parents.append(parent)

771

1028

772

# Currently we can only compress against the left most present parent.

773

if (len(present_parents) == 0 or

774

present_parents[0] != parents[0]):

1029

# can only compress against the left most present parent.

1030

if (delta and

1031

(len(present_parents) == 0 or

1032

present_parents[0] != parents[0])):

775

1033

delta = False

776

else:

777

# To speed the extract of texts the delta chain is limited

778

# to a fixed number of deltas. This should minimize both

779

# I/O and the time spend applying deltas.

780

delta = self._check_should_delta(present_parents[0])

781

1034

782

1035

text_length = len(line_bytes)

783

1036

options = []

789

1042

lines[-1] = lines[-1] + '\n'

790

1043

line_bytes += '\n'

791

1044

792

for element in key:

793

if type(element) != str:

794

raise TypeError("key contains non-strings: %r" % (key,))

795

# Knit hunks are still last-element only

796

version_id = key[-1]

797

content = self._factory.make(lines, version_id)

798

if 'no-eol' in options:

799

# Hint to the content object that its text() call should strip the

800

# EOL.

801

content._should_strip_eol = True

802

if delta or (self._factory.annotated and len(present_parents) > 0):

1045

if delta:

1046

# To speed the extract of texts the delta chain is limited

1047

# to a fixed number of deltas. This should minimize both

1048

# I/O and the time spend applying deltas.

1049

delta = self._check_should_delta(present_parents)

1050

1051

content = self.factory.make(lines, version_id)

1052

if delta or (self.factory.annotated and len(present_parents) > 0):

803

1053

# Merge annotations from parent texts if needed.

804

1054

delta_hunks = self._merge_annotations(content, present_parents,

805

parent_texts, delta, self._factory.annotated,

1055

parent_texts, delta, self.factory.annotated,

806

1056

left_matching_blocks)

807

1057

808

1058

if delta:

809

1059

options.append('line-delta')

810

store_lines = self._factory.lower_line_delta(delta_hunks)

811

size, bytes = self._record_to_data(key, digest,

1060

store_lines = self.factory.lower_line_delta(delta_hunks)

1061

size, bytes = self._data._record_to_data(version_id, digest,

812

1062

store_lines)

813

1063

else:

814

1064

options.append('fulltext')

815

1065

# isinstance is slower and we have no hierarchy.

816

if self._factory.__class__ == KnitPlainFactory:

1066

if self.factory.__class__ == KnitPlainFactory:

817

1067

# Use the already joined bytes saving iteration time in

818

1068

# _record_to_data.

819

size, bytes = self._record_to_data(key, digest,

1069

size, bytes = self._data._record_to_data(version_id, digest,

820

1070

lines, [line_bytes])

821

1071

else:

822

1072

# get mixed annotation + content and feed it into the

823

1073

# serialiser.

824

store_lines = self._factory.lower_fulltext(content)

825

size, bytes = self._record_to_data(key, digest,

1074

store_lines = self.factory.lower_fulltext(content)

1075

size, bytes = self._data._record_to_data(version_id, digest,

826

1076

store_lines)

827

1077

828

access_memo = self._access.add_raw_records([(key, size)], bytes)[0]

829

self._index.add_records(

830

((key, options, access_memo, parents),),

1078

access_memo = self._data.add_raw_records([size], bytes)[0]

1079

self._index.add_versions(

1080

((version_id, options, access_memo, parents),),

831

1081

random_id=random_id)

832

1082

return digest, text_length, content

833

1083

834

def annotate(self, key):

835

"""See VersionedFiles.annotate."""

836

return self._factory.annotate(self, key)

837

838

1084

def check(self, progress_bar=None):

839

"""See VersionedFiles.check()."""

840

# This doesn't actually test extraction of everything, but that will

841

# impact 'bzr check' substantially, and needs to be integrated with

842

# care. However, it does check for the obvious problem of a delta with

843

# no basis.

844

keys = self._index.keys()

845

parent_map = self.get_parent_map(keys)

846

for key in keys:

847

if self._index.get_method(key) != 'fulltext':

848

compression_parent = parent_map[key][0]

849

if compression_parent not in parent_map:

850

raise errors.KnitCorrupt(self,

851

"Missing basis parent %s for %s" % (

852

compression_parent, key))

853

for fallback_vfs in self._fallback_vfs:

854

fallback_vfs.check()

855

856

def _check_add(self, key, lines, random_id, check_content):

857

"""check that version_id and lines are safe to add."""

858

version_id = key[-1]

859

if contains_whitespace(version_id):

860

raise InvalidRevisionId(version_id, self)

861

self.check_not_reserved_id(version_id)

862

# TODO: If random_id==False and the key is already present, we should

863

# probably check that the existing content is identical to what is

864

# being inserted, and otherwise raise an exception. This would make

865

# the bundle code simpler.

866

if check_content:

867

self._check_lines_not_unicode(lines)

868

self._check_lines_are_lines(lines)

869

870

def _check_header(self, key, line):

871

rec = self._split_header(line)

872

self._check_header_version(rec, key[-1])

873

return rec

874

875

def _check_header_version(self, rec, version_id):

876

"""Checks the header version on original format knit records.

1085

"""See VersionedFile.check()."""

1086

1087

def get_lines(self, version_id):

1088

"""See VersionedFile.get_lines()."""

1089

return self.get_line_list([version_id])[0]

1090

1091

def _get_record_map(self, version_ids):

1092

"""Produce a dictionary of knit records.

877

1093

878

These have the last component of the key embedded in the record.

879

"""

880

if rec[1] != version_id:

881

raise KnitCorrupt(self,

882

'unexpected version, wanted %r, got %r' % (version_id, rec[1]))

883

884

def _check_should_delta(self, parent):

885

"""Iterate back through the parent listing, looking for a fulltext.

886

887

This is used when we want to decide whether to add a delta or a new

888

fulltext. It searches for _max_delta_chain parents. When it finds a

889

fulltext parent, it sees if the total size of the deltas leading up to

890

it is large enough to indicate that we want a new full text anyway.

891

892

Return True if we should create a new delta, False if we should use a

893

full text.

894

"""

895

delta_size = 0

896

fulltext_size = None

897

for count in xrange(self._max_delta_chain):

898

# XXX: Collapse these two queries:

899

try:

900

# Note that this only looks in the index of this particular

901

# KnitVersionedFiles, not in the fallbacks. This ensures that

902

# we won't store a delta spanning physical repository

903

# boundaries.

904

method = self._index.get_method(parent)

905

except RevisionNotPresent:

906

# Some basis is not locally present: always delta

907

return False

908

index, pos, size = self._index.get_position(parent)

909

if method == 'fulltext':

910

fulltext_size = size

911

break

912

delta_size += size

913

# We don't explicitly check for presence because this is in an

914

# inner loop, and if it's missing it'll fail anyhow.

915

# TODO: This should be asking for compression parent, not graph

916

# parent.

917

parent = self._index.get_parent_map([parent])[parent][0]

918

else:

919

# We couldn't find a fulltext, so we must create a new one

920

return False

921

# Simple heuristic - if the total I/O wold be greater as a delta than

922

# the originally installed fulltext, we create a new fulltext.

923

return fulltext_size > delta_size

924

925

def _build_details_to_components(self, build_details):

926

"""Convert a build_details tuple to a position tuple."""

927

# record_details, access_memo, compression_parent

928

return build_details[3], build_details[0], build_details[1]

929

930

def _get_components_positions(self, keys, allow_missing=False):

931

"""Produce a map of position data for the components of keys.

932

933

This data is intended to be used for retrieving the knit records.

934

935

A dict of key to (record_details, index_memo, next, parents) is

936

returned.

937

method is the way referenced data should be applied.

938

index_memo is the handle to pass to the data access to actually get the

939

data

940

next is the build-parent of the version, or None for fulltexts.

941

parents is the version_ids of the parents of this version

942

943

:param allow_missing: If True do not raise an error on a missing component,

944

just ignore it.

945

"""

946

component_data = {}

947

pending_components = keys

948

while pending_components:

949

build_details = self._index.get_build_details(pending_components)

950

current_components = set(pending_components)

951

pending_components = set()

952

for key, details in build_details.iteritems():

953

(index_memo, compression_parent, parents,

954

record_details) = details

955

method = record_details[0]

956

if compression_parent is not None:

957

pending_components.add(compression_parent)

958

component_data[key] = self._build_details_to_components(details)

959

missing = current_components.difference(build_details)

960

if missing and not allow_missing:

961

raise errors.RevisionNotPresent(missing.pop(), self)

962

return component_data

963

964

def _get_content(self, key, parent_texts={}):

965

"""Returns a content object that makes up the specified

966

version."""

967

cached_version = parent_texts.get(key, None)

968

if cached_version is not None:

969

# Ensure the cache dict is valid.

970

if not self.get_parent_map([key]):

971

raise RevisionNotPresent(key, self)

972

return cached_version

973

text_map, contents_map = self._get_content_maps([key])

974

return contents_map[key]

975

976

def _get_content_maps(self, keys, nonlocal_keys=None):

1094

:return: {version_id:(record, record_details, digest, next)}

1095

record

1096

data returned from read_records

1097

record_details

1098

opaque information to pass to parse_record

1099

digest

1100

SHA1 digest of the full text after all steps are done

1101

1102

build-parent of the version, i.e. the leftmost ancestor.

1103

Will be None if the record is not a delta.

1104

"""

1105

position_map = self._get_components_positions(version_ids)

1106

# c = component_id, r = record_details, i_m = index_memo, n = next

1107

records = [(c, i_m) for c, (r, i_m, n)

1108

in position_map.iteritems()]

1109

record_map = {}

1110

for component_id, record, digest in \

1111

self._data.read_records_iter(records):

1112

(record_details, index_memo, next) = position_map[component_id]

1113

record_map[component_id] = record, record_details, digest, next

1114

1115

return record_map

1116

1117

def get_text(self, version_id):

1118

"""See VersionedFile.get_text"""

1119

return self.get_texts([version_id])[0]

1120

1121

def get_texts(self, version_ids):

1122

return [''.join(l) for l in self.get_line_list(version_ids)]

1123

1124

def get_line_list(self, version_ids):

1125

"""Return the texts of listed versions as a list of strings."""

1126

for version_id in version_ids:

1127

self.check_not_reserved_id(version_id)

1128

text_map, content_map = self._get_content_maps(version_ids)

1129

return [text_map[v] for v in version_ids]

1130

1131

_get_lf_split_line_list = get_line_list

1132

1133

def _get_content_maps(self, version_ids):

977

1134

"""Produce maps of text and KnitContents

978

1135

979

:param keys: The keys to produce content maps for.

980

:param nonlocal_keys: An iterable of keys(possibly intersecting keys)

981

which are known to not be in this knit, but rather in one of the

982

fallback knits.

983

1136

:return: (text_map, content_map) where text_map contains the texts for

984

the requested versions and content_map contains the KnitContents.

1137

the requested versions and content_map contains the KnitContents.

1138

Both dicts take version_ids as their keys.

985

1139

"""

986

1140

# FUTURE: This function could be improved for the 'extract many' case

987

1141

# by tracking each component and only doing the copy when the number of

988

1142

# children than need to apply delta's to it is > 1 or it is part of the

989

1143

# final output.

990

keys = list(keys)

991

multiple_versions = len(keys) != 1

992

record_map = self._get_record_map(keys, allow_missing=True)

1144

version_ids = list(version_ids)

1145

multiple_versions = len(version_ids) != 1

1146

record_map = self._get_record_map(version_ids)

993

1147

994

1148

text_map = {}

995

1149

content_map = {}

996

1150

final_content = {}

997

if nonlocal_keys is None:

998

nonlocal_keys = set()

999

else:

1000

nonlocal_keys = frozenset(nonlocal_keys)

1001

missing_keys = set(nonlocal_keys)

1002

for source in self._fallback_vfs:

1003

if not missing_keys:

1004

break

1005

for record in source.get_record_stream(missing_keys,

1006

'unordered', True):

1007

if record.storage_kind == 'absent':

1008

continue

1009

missing_keys.remove(record.key)

1010

lines = split_lines(record.get_bytes_as('fulltext'))

1011

text_map[record.key] = lines

1012

content_map[record.key] = PlainKnitContent(lines, record.key)

1013

if record.key in keys:

1014

final_content[record.key] = content_map[record.key]

1015

for key in keys:

1016

if key in nonlocal_keys:

1017

# already handled

1018

continue

1151

for version_id in version_ids:

1019

1152

components = []

1020

cursor = key

1153

cursor = version_id

1021

1154

while cursor is not None:

1022

try:

1023

record, record_details, digest, next = record_map[cursor]

1024

except KeyError:

1025

raise RevisionNotPresent(cursor, self)

1155

record, record_details, digest, next = record_map[cursor]

1026

1156

components.append((cursor, record, record_details, digest))

1027

cursor = next

1028

1157

if cursor in content_map:

1029

# no need to plan further back

1030

components.append((cursor, None, None, None))

1031

1158

break

1159

cursor = next

1032

1160

1033

1161

content = None

1034

1162

for (component_id, record, record_details,

1036

1164

if component_id in content_map:

1037

1165

content = content_map[component_id]

1038

1166

else:

1039

content, delta = self._factory.parse_record(key[-1],

1167

content, delta = self.factory.parse_record(version_id,

1040

1168

record, record_details, content,

1041

1169

copy_base_content=multiple_versions)

1042

1170

if multiple_versions:

1043

1171

content_map[component_id] = content

1044

1172

1045

final_content[key] = content

1173

content.cleanup_eol(copy_on_mutate=multiple_versions)

1174

final_content[version_id] = content

1046

1175

1047

1176

# digest here is the digest from the last applied component.

1048

1177

text = content.text()

1049

1178

actual_sha = sha_strings(text)

1050

1179

if actual_sha != digest:

1051

raise KnitCorrupt(self,

1180

raise KnitCorrupt(self.filename,

1052

1181

'\n sha-1 %s'

1053

1182

'\n of reconstructed text does not match'

1054

1183

'\n expected %s'

1055

1184

'\n for version %s' %

1056

(actual_sha, digest, key))

1057

text_map[key] = text

1185

(actual_sha, digest, version_id))

1186

text_map[version_id] = text

1058

1187

return text_map, final_content

1059

1188

1060

def get_parent_map(self, keys):

1061

"""Get a map of the graph parents of keys.

1062

1063

:param keys: The keys to look up parents for.

1064

:return: A mapping from keys to parents. Absent keys are absent from

1065

the mapping.

1066

"""

1067

return self._get_parent_map_with_sources(keys)[0]

1068

1069

def _get_parent_map_with_sources(self, keys):

1070

"""Get a map of the parents of keys.

1071

1072

:param keys: The keys to look up parents for.

1073

:return: A tuple. The first element is a mapping from keys to parents.

1074

Absent keys are absent from the mapping. The second element is a

1075

list with the locations each key was found in. The first element

1076

is the in-this-knit parents, the second the first fallback source,

1077

and so on.

1078

"""

1079

result = {}

1080

sources = [self._index] + self._fallback_vfs

1081

source_results = []

1082

missing = set(keys)

1083

for source in sources:

1084

if not missing:

1085

break

1086

new_result = source.get_parent_map(missing)

1087

source_results.append(new_result)

1088

result.update(new_result)

1089

missing.difference_update(set(new_result))

1090

return result, source_results

1091

1092

def _get_record_map(self, keys, allow_missing=False):

1093

"""Produce a dictionary of knit records.

1094

1095

:return: {key:(record, record_details, digest, next)}

1096

record

1097

data returned from read_records

1098

record_details

1099

opaque information to pass to parse_record

1100

digest

1101

SHA1 digest of the full text after all steps are done

1102

1103

build-parent of the version, i.e. the leftmost ancestor.

1104

Will be None if the record is not a delta.

1105

:param keys: The keys to build a map for

1106

:param allow_missing: If some records are missing, rather than

1107

error, just return the data that could be generated.

1108

"""

1109

position_map = self._get_components_positions(keys,

1110

allow_missing=allow_missing)

1111

# key = component_id, r = record_details, i_m = index_memo, n = next

1112

records = [(key, i_m) for key, (r, i_m, n)

1113

in position_map.iteritems()]

1114

record_map = {}

1115

for key, record, digest in \

1116

self._read_records_iter(records):

1117

(record_details, index_memo, next) = position_map[key]

1118

record_map[key] = record, record_details, digest, next

1119

return record_map

1120

1121

def get_record_stream(self, keys, ordering, include_delta_closure):

1122

"""Get a stream of records for keys.

1123

1124

:param keys: The keys to include.

1125

:param ordering: Either 'unordered' or 'topological'. A topologically

1126

sorted stream has compression parents strictly before their

1127

children.

1128

:param include_delta_closure: If True then the closure across any

1129

compression parents will be included (in the opaque data).

1130

:return: An iterator of ContentFactory objects, each of which is only

1131

valid until the iterator is advanced.

1132

"""

1133

# keys might be a generator

1134

keys = set(keys)

1135

if not keys:

1136

return

1137

if not self._index.has_graph:

1138

# Cannot topological order when no graph has been stored.

1139

ordering = 'unordered'

1140

if include_delta_closure:

1141

positions = self._get_components_positions(keys, allow_missing=True)

1142

else:

1143

build_details = self._index.get_build_details(keys)

1144

# map from key to

1145

# (record_details, access_memo, compression_parent_key)

1146

positions = dict((key, self._build_details_to_components(details))

1147

for key, details in build_details.iteritems())

1148

absent_keys = keys.difference(set(positions))

1149

# There may be more absent keys : if we're missing the basis component

1150

# and are trying to include the delta closure.

1151

if include_delta_closure:

1152

needed_from_fallback = set()

1153

# Build up reconstructable_keys dict. key:True in this dict means

1154

# the key can be reconstructed.

1155

reconstructable_keys = {}

1156

for key in keys:

1157

# the delta chain

1158

try:

1159

chain = [key, positions[key][2]]

1160

except KeyError:

1161

needed_from_fallback.add(key)

1162

continue

1163

result = True

1164

while chain[-1] is not None:

1165

if chain[-1] in reconstructable_keys:

1166

result = reconstructable_keys[chain[-1]]

1167

break

1168

else:

1169

try:

1170

chain.append(positions[chain[-1]][2])

1171

except KeyError:

1172

# missing basis component

1173

needed_from_fallback.add(chain[-1])

1174

result = True

1175

break

1176

for chain_key in chain[:-1]:

1177

reconstructable_keys[chain_key] = result

1178

if not result:

1179

needed_from_fallback.add(key)

1180

# Double index lookups here : need a unified api ?

1181

global_map, parent_maps = self._get_parent_map_with_sources(keys)

1182

if ordering == 'topological':

1183

# Global topological sort

1184

present_keys = tsort.topo_sort(global_map)

1185

# Now group by source:

1186

source_keys = []

1187

current_source = None

1188

for key in present_keys:

1189

for parent_map in parent_maps:

1190

if key in parent_map:

1191

key_source = parent_map

1192

break

1193

if current_source is not key_source:

1194

source_keys.append((key_source, []))

1195

current_source = key_source

1196

source_keys[-1][1].append(key)

1197

else:

1198

if ordering != 'unordered':

1199

raise AssertionError('valid values for ordering are:'

1200

' "unordered" or "topological" not: %r'

1201

% (ordering,))

1202

# Just group by source; remote sources first.

1203

present_keys = []

1204

source_keys = []

1205

for parent_map in reversed(parent_maps):

1206

source_keys.append((parent_map, []))

1207

for key in parent_map:

1208

present_keys.append(key)

1209

source_keys[-1][1].append(key)

1210

absent_keys = keys - set(global_map)

1211

for key in absent_keys:

1212

yield AbsentContentFactory(key)

1213

# restrict our view to the keys we can answer.

1214

# XXX: Memory: TODO: batch data here to cap buffered data at (say) 1MB.

1215

# XXX: At that point we need to consider the impact of double reads by

1216

# utilising components multiple times.

1217

if include_delta_closure:

1218

# XXX: get_content_maps performs its own index queries; allow state

1219

# to be passed in.

1220

text_map, _ = self._get_content_maps(present_keys,

1221

needed_from_fallback - absent_keys)

1222

for key in present_keys:

1223

yield FulltextContentFactory(key, global_map[key], None,

1224

''.join(text_map[key]))

1225

else:

1226

for source, keys in source_keys:

1227

if source is parent_maps[0]:

1228

# this KnitVersionedFiles

1229

records = [(key, positions[key][1]) for key in keys]

1230

for key, raw_data, sha1 in self._read_records_iter_raw(records):

1231

(record_details, index_memo, _) = positions[key]

1232

yield KnitContentFactory(key, global_map[key],

1233

record_details, sha1, raw_data, self._factory.annotated, None)

1234

else:

1235

vf = self._fallback_vfs[parent_maps.index(source) - 1]

1236

for record in vf.get_record_stream(keys, ordering,

1237

include_delta_closure):

1238

yield record

1239

1240

def get_sha1s(self, keys):

1241

"""See VersionedFiles.get_sha1s()."""

1242

missing = set(keys)

1243

record_map = self._get_record_map(missing, allow_missing=True)

1244

result = {}

1245

for key, details in record_map.iteritems():

1246

if key not in missing:

1247

continue

1248

# record entry 2 is the 'digest'.

1249

result[key] = details[2]

1250

missing.difference_update(set(result))

1251

for source in self._fallback_vfs:

1252

if not missing:

1253

break

1254

new_result = source.get_sha1s(missing)

1255

result.update(new_result)

1256

missing.difference_update(set(new_result))

1257

return result

1258

1259

def insert_record_stream(self, stream):

1260

"""Insert a record stream into this container.

1261

1262

:param stream: A stream of records to insert.

1263

:return: None

1264

:seealso VersionedFiles.get_record_stream:

1265

"""

1266

def get_adapter(adapter_key):

1267

try:

1268

return adapters[adapter_key]

1269

except KeyError:

1270

adapter_factory = adapter_registry.get(adapter_key)

1271

adapter = adapter_factory(self)

1272

adapters[adapter_key] = adapter

1273

return adapter

1274

if self._factory.annotated:

1275

# self is annotated, we need annotated knits to use directly.

1276

annotated = "annotated-"

1277

convertibles = []

1278

else:

1279

# self is not annotated, but we can strip annotations cheaply.

1280

annotated = ""

1281

convertibles = set(["knit-annotated-ft-gz"])

1282

if self._max_delta_chain:

1283

convertibles.add("knit-annotated-delta-gz")

1284

# The set of types we can cheaply adapt without needing basis texts.

1285

native_types = set()

1286

if self._max_delta_chain:

1287

native_types.add("knit-%sdelta-gz" % annotated)

1288

native_types.add("knit-%sft-gz" % annotated)

1289

knit_types = native_types.union(convertibles)

1290

adapters = {}

1291

# Buffer all index entries that we can't add immediately because their

1292

# basis parent is missing. We don't buffer all because generating

1293

# annotations may require access to some of the new records. However we

1294

# can't generate annotations from new deltas until their basis parent

1295

# is present anyway, so we get away with not needing an index that

1296

# includes the new keys.

1297

# key = basis_parent, value = index entry to add

1298

buffered_index_entries = {}

1299

for record in stream:

1300

parents = record.parents

1301

# Raise an error when a record is missing.

1302

if record.storage_kind == 'absent':

1303

raise RevisionNotPresent([record.key], self)

1304

if record.storage_kind in knit_types:

1305

if record.storage_kind not in native_types:

1306

try:

1307

adapter_key = (record.storage_kind, "knit-delta-gz")

1308

adapter = get_adapter(adapter_key)

1309

except KeyError:

1310

adapter_key = (record.storage_kind, "knit-ft-gz")

1311

adapter = get_adapter(adapter_key)

1312

bytes = adapter.get_bytes(

1313

record, record.get_bytes_as(record.storage_kind))

1314

else:

1315

bytes = record.get_bytes_as(record.storage_kind)

1316

options = [record._build_details[0]]

1317

if record._build_details[1]:

1318

options.append('no-eol')

1319

# Just blat it across.

1320

# Note: This does end up adding data on duplicate keys. As

1321

# modern repositories use atomic insertions this should not

1322

# lead to excessive growth in the event of interrupted fetches.

1323

# 'knit' repositories may suffer excessive growth, but as a

1324

# deprecated format this is tolerable. It can be fixed if

1325

# needed by in the kndx index support raising on a duplicate

1326

# add with identical parents and options.

1327

access_memo = self._access.add_raw_records(

1328

[(record.key, len(bytes))], bytes)[0]

1329

index_entry = (record.key, options, access_memo, parents)

1330

buffered = False

1331

if 'fulltext' not in options:

1332

basis_parent = parents[0]

1333

# Note that pack backed knits don't need to buffer here

1334

# because they buffer all writes to the transaction level,

1335

# but we don't expose that difference at the index level. If

1336

# the query here has sufficient cost to show up in

1337

# profiling we should do that.

1338

if basis_parent not in self.get_parent_map([basis_parent]):

1339

pending = buffered_index_entries.setdefault(

1340

basis_parent, [])

1341

pending.append(index_entry)

1342

buffered = True

1343

if not buffered:

1344

self._index.add_records([index_entry])

1345

elif record.storage_kind == 'fulltext':

1346

self.add_lines(record.key, parents,

1347

split_lines(record.get_bytes_as('fulltext')))

1348

else:

1349

adapter_key = record.storage_kind, 'fulltext'

1350

adapter = get_adapter(adapter_key)

1351

lines = split_lines(adapter.get_bytes(

1352

record, record.get_bytes_as(record.storage_kind)))

1353

try:

1354

self.add_lines(record.key, parents, lines)

1355

except errors.RevisionAlreadyPresent:

1356

pass

1357

# Add any records whose basis parent is now available.

1358

added_keys = [record.key]

1359

while added_keys:

1360

key = added_keys.pop(0)

1361

if key in buffered_index_entries:

1362

index_entries = buffered_index_entries[key]

1363

self._index.add_records(index_entries)

1364

added_keys.extend(

1365

[index_entry[0] for index_entry in index_entries])

1366

del buffered_index_entries[key]

1367

# If there were any deltas which had a missing basis parent, error.

1368

if buffered_index_entries:

1369

raise errors.RevisionNotPresent(buffered_index_entries.keys()[0],

1370

self)

1371

1372

def iter_lines_added_or_present_in_keys(self, keys, pb=None):

1373

"""Iterate over the lines in the versioned files from keys.

1374

1375

This may return lines from other keys. Each item the returned

1376

iterator yields is a tuple of a line and a text version that that line

1377

is present in (not introduced in).

1378

1379

Ordering of results is in whatever order is most suitable for the

1380

underlying storage format.

1381

1382

If a progress bar is supplied, it may be used to indicate progress.

1383

The caller is responsible for cleaning up progress bars (because this

1384

is an iterator).

1385

1386

NOTES:

1387

* Lines are normalised by the underlying store: they will all have \n

1388

terminators.

1389

* Lines are returned in arbitrary order.

1390

1391

:return: An iterator over (line, key).

1392

"""

1189

def iter_lines_added_or_present_in_versions(self, version_ids=None,

1190

pb=None):

1191

"""See VersionedFile.iter_lines_added_or_present_in_versions()."""

1192

if version_ids is None:

1193

version_ids = self.versions()

1393

1194

if pb is None:

1394

1195

pb = progress.DummyProgress()

1395

keys = set(keys)

1396

total = len(keys)

1397

1196

# we don't care about inclusions, the caller cares.

1398

1197

# but we need to setup a list of records to visit.

1399

# we need key, position, length

1400

key_records = []

1401

build_details = self._index.get_build_details(keys)

1402

for key, details in build_details.iteritems():

1403

if key in keys:

1404

key_records.append((key, details[0]))

1405

keys.remove(key)

1406

records_iter = enumerate(self._read_records_iter(key_records))

1407

for (key_idx, (key, data, sha_value)) in records_iter:

1408

pb.update('Walking content.', key_idx, total)

1409

compression_parent = build_details[key][1]

1410

if compression_parent is None:

1411

# fulltext

1412

line_iterator = self._factory.get_fulltext_content(data)

1198

# we need version_id, position, length

1199

version_id_records = []

1200

requested_versions = set(version_ids)

1201

# filter for available versions

1202

for version_id in requested_versions:

1203

if not self.has_version(version_id):

1204

raise RevisionNotPresent(version_id, self.filename)

1205

# get a in-component-order queue:

1206

for version_id in self.versions():

1207

if version_id in requested_versions:

1208

index_memo = self._index.get_position(version_id)

1209

version_id_records.append((version_id, index_memo))

1210

1211

total = len(version_id_records)

1212

for version_idx, (version_id, data, sha_value) in \

1213

enumerate(self._data.read_records_iter(version_id_records)):

1214

pb.update('Walking content.', version_idx, total)

1215

method = self._index.get_method(version_id)

1216

if method == 'fulltext':

1217

line_iterator = self.factory.get_fulltext_content(data)

1218

elif method == 'line-delta':

1219

line_iterator = self.factory.get_linedelta_content(data)

1413

1220

else:

1414

# Delta

1415

line_iterator = self._factory.get_linedelta_content(data)

1416

# XXX: It might be more efficient to yield (key,

1221

raise ValueError('invalid method %r' % (method,))

1222

# XXX: It might be more efficient to yield (version_id,

1417

1223

# line_iterator) in the future. However for now, this is a simpler

1418

1224

# change to integrate into the rest of the codebase. RBC 20071110

1419

1225

for line in line_iterator:

1420

yield line, key

1421

for source in self._fallback_vfs:

1422

if not keys:

1423

break

1424

source_keys = set()

1425

for line, key in source.iter_lines_added_or_present_in_keys(keys):

1426

source_keys.add(key)

1427

yield line, key

1428

keys.difference_update(source_keys)

1429

if keys:

1430

raise RevisionNotPresent(keys, self.filename)

1226

yield line, version_id

1227

1431

1228

pb.update('Walking content.', total, total)

1432

1433

def _make_line_delta(self, delta_seq, new_content):

1434

"""Generate a line delta from delta_seq and new_content."""

1435

diff_hunks = []

1436

for op in delta_seq.get_opcodes():

1437

if op[0] == 'equal':

1438

continue

1439

diff_hunks.append((op[1], op[2], op[4]-op[3], new_content._lines[op[3]:op[4]]))

1440

return diff_hunks

1441

1442

def _merge_annotations(self, content, parents, parent_texts={},

1443

delta=None, annotated=None,

1444

left_matching_blocks=None):

1445

"""Merge annotations for content and generate deltas.

1446

1447

This is done by comparing the annotations based on changes to the text

1448

and generating a delta on the resulting full texts. If annotations are

1449

not being created then a simple delta is created.

1450

"""

1451

if left_matching_blocks is not None:

1452

delta_seq = diff._PrematchedMatcher(left_matching_blocks)

1453

else:

1454

delta_seq = None

1455

if annotated:

1456

for parent_key in parents:

1457

merge_content = self._get_content(parent_key, parent_texts)

1458

if (parent_key == parents[0] and delta_seq is not None):

1459

seq = delta_seq

1460

else:

1461

seq = patiencediff.PatienceSequenceMatcher(

1462

None, merge_content.text(), content.text())

1463

for i, j, n in seq.get_matching_blocks():

1464

if n == 0:

1465

continue

1466

# this copies (origin, text) pairs across to the new

1467

# content for any line that matches the last-checked

1468

# parent.

1469

content._lines[j:j+n] = merge_content._lines[i:i+n]

1470

# XXX: Robert says the following block is a workaround for a

1471

# now-fixed bug and it can probably be deleted. -- mbp 20080618

1472

if content._lines and content._lines[-1][1][-1] != '\n':

1473

# The copied annotation was from a line without a trailing EOL,

1474

# reinstate one for the content object, to ensure correct

1475

# serialization.

1476

line = content._lines[-1][1] + '\n'

1477

content._lines[-1] = (content._lines[-1][0], line)

1478

if delta:

1479

if delta_seq is None:

1480

reference_content = self._get_content(parents[0], parent_texts)

1481

new_texts = content.text()

1482

old_texts = reference_content.text()

1483

delta_seq = patiencediff.PatienceSequenceMatcher(

1484

None, old_texts, new_texts)

1485

return self._make_line_delta(delta_seq, content)

1486

1487

def _parse_record(self, version_id, data):

1488

"""Parse an original format knit record.

1489

1490

These have the last element of the key only present in the stored data.

1491

"""

1492

rec, record_contents = self._parse_record_unchecked(data)

1493

self._check_header_version(rec, version_id)

1494

return record_contents, rec[3]

1495

1496

def _parse_record_header(self, key, raw_data):

1497

"""Parse a record header for consistency.

1498

1499

:return: the header and the decompressor stream.

1500

as (stream, header_record)

1501

"""

1502

df = tuned_gzip.GzipFile(mode='rb', fileobj=StringIO(raw_data))

1503

try:

1504

# Current serialise

1505

rec = self._check_header(key, df.readline())

1506

except Exception, e:

1507

raise KnitCorrupt(self,

1508

"While reading {%s} got %s(%s)"

1509

% (key, e.__class__.__name__, str(e)))

1510

return df, rec

1511

1512

def _parse_record_unchecked(self, data):

1513

# profiling notes:

1514

# 4168 calls in 2880 217 internal

1515

# 4168 calls to _parse_record_header in 2121

1516

# 4168 calls to readlines in 330

1517

df = tuned_gzip.GzipFile(mode='rb', fileobj=StringIO(data))

1518

try:

1519

record_contents = df.readlines()

1520

except Exception, e:

1521

raise KnitCorrupt(self, "Corrupt compressed record %r, got %s(%s)" %

1522

(data, e.__class__.__name__, str(e)))

1523

header = record_contents.pop(0)

1524

rec = self._split_header(header)

1525

last_line = record_contents.pop()

1526

if len(record_contents) != int(rec[2]):

1527

raise KnitCorrupt(self,

1528

'incorrect number of lines %s != %s'

1529

' for version {%s} %s'

1530

% (len(record_contents), int(rec[2]),

1531

rec[1], record_contents))

1532

if last_line != 'end %s\n' % rec[1]:

1533

raise KnitCorrupt(self,

1534

'unexpected version end line %r, wanted %r'

1535

% (last_line, rec[1]))

1536

df.close()

1537

return rec, record_contents

1538

1539

def _read_records_iter(self, records):

1540

"""Read text records from data file and yield result.

1541

1542

The result will be returned in whatever is the fastest to read.

1543

Not by the order requested. Also, multiple requests for the same

1544

record will only yield 1 response.

1545

:param records: A list of (key, access_memo) entries

1546

:return: Yields (key, contents, digest) in the order

1547

read, not the order requested

1548

"""

1549

if not records:

1550

return

1551

1552

# XXX: This smells wrong, IO may not be getting ordered right.

1553

needed_records = sorted(set(records), key=operator.itemgetter(1))

1554

if not needed_records:

1555

return

1556

1557

# The transport optimizes the fetching as well

1558

# (ie, reads continuous ranges.)

1559

raw_data = self._access.get_raw_records(

1560

[index_memo for key, index_memo in needed_records])

1561

1562

for (key, index_memo), data in \

1563

izip(iter(needed_records), raw_data):

1564

content, digest = self._parse_record(key[-1], data)

1565

yield key, content, digest

1566

1567

def _read_records_iter_raw(self, records):

1568

"""Read text records from data file and yield raw data.

1569

1570

This unpacks enough of the text record to validate the id is

1571

as expected but thats all.

1572

1573

Each item the iterator yields is (key, bytes, sha1_of_full_text).

1574

"""

1575

# setup an iterator of the external records:

1576

# uses readv so nice and fast we hope.

1577

if len(records):

1578

# grab the disk data needed.

1579

needed_offsets = [index_memo for key, index_memo

1580

in records]

1581

raw_records = self._access.get_raw_records(needed_offsets)

1582

1583

for key, index_memo in records:

1584

data = raw_records.next()

1585

# validate the header (note that we can only use the suffix in

1586

# current knit records).

1587

df, rec = self._parse_record_header(key, data)

1588

df.close()

1589

yield key, data, rec[3]

1590

1591

def _record_to_data(self, key, digest, lines, dense_lines=None):

1592

"""Convert key, digest, lines into a raw data block.

1593

1594

:param key: The key of the record. Currently keys are always serialised

1595

using just the trailing component.

1596

:param dense_lines: The bytes of lines but in a denser form. For

1597

instance, if lines is a list of 1000 bytestrings each ending in \n,

1598

dense_lines may be a list with one line in it, containing all the

1599

1000's lines and their \n's. Using dense_lines if it is already

1600

known is a win because the string join to create bytes in this

1601

function spends less time resizing the final string.

1602

:return: (len, a StringIO instance with the raw data ready to read.)

1603

"""

1604

# Note: using a string copy here increases memory pressure with e.g.

1605

# ISO's, but it is about 3 seconds faster on a 1.2Ghz intel machine

1606

# when doing the initial commit of a mozilla tree. RBC 20070921

1607

bytes = ''.join(chain(

1608

["version %s %d %s\n" % (key[-1],

1609

len(lines),

1610

digest)],

1611

dense_lines or lines,

1612

["end %s\n" % key[-1]]))

1613

if type(bytes) != str:

1614

raise AssertionError(

1615

'data must be plain bytes was %s' % type(bytes))

1616

if lines and lines[-1][-1] != '\n':

1617

raise ValueError('corrupt lines value %r' % lines)

1618

compressed_bytes = tuned_gzip.bytes_to_gzip(bytes)

1619

return len(compressed_bytes), compressed_bytes

1620

1621

def _split_header(self, line):

1622

rec = line.split()

1623

if len(rec) != 4:

1624

raise KnitCorrupt(self,

1625

'unexpected number of elements in record header')

1626

return rec

1627

1628

def keys(self):

1629

"""See VersionedFiles.keys."""

1630

if 'evil' in debug.debug_flags:

1631

trace.mutter_callsite(2, "keys scales with size of history")

1632

sources = [self._index] + self._fallback_vfs

1633

result = set()

1634

for source in sources:

1635

result.update(source.keys())

1636

return result

1637

1638

1639

1640

class _KndxIndex(object):

1641

"""Manages knit index files

1642

1643

The index is kept in memory and read on startup, to enable

1229

1230

def num_versions(self):

1231

"""See VersionedFile.num_versions()."""

1232

return self._index.num_versions()

1233

1234

__len__ = num_versions

1235

1236

def annotate(self, version_id):

1237

"""See VersionedFile.annotate."""

1238

return self.factory.annotate(self, version_id)

1239

1240

def get_parent_map(self, version_ids):

1241

"""See VersionedFile.get_parent_map."""

1242

return self._index.get_parent_map(version_ids)

1243

1244

def get_ancestry(self, versions, topo_sorted=True):

1245

"""See VersionedFile.get_ancestry."""

1246

if isinstance(versions, basestring):

1247

versions = [versions]

1248

if not versions:

1249

return []

1250

return self._index.get_ancestry(versions, topo_sorted)

1251

1252

def get_ancestry_with_ghosts(self, versions):

1253

"""See VersionedFile.get_ancestry_with_ghosts."""

1254

if isinstance(versions, basestring):

1255

versions = [versions]

1256

if not versions:

1257

return []

1258

return self._index.get_ancestry_with_ghosts(versions)

1259

1260

def plan_merge(self, ver_a, ver_b):

1261

"""See VersionedFile.plan_merge."""

1262

ancestors_b = set(self.get_ancestry(ver_b, topo_sorted=False))

1263

ancestors_a = set(self.get_ancestry(ver_a, topo_sorted=False))

1264

annotated_a = self.annotate(ver_a)

1265

annotated_b = self.annotate(ver_b)

1266

return merge._plan_annotate_merge(annotated_a, annotated_b,

1267

ancestors_a, ancestors_b)

1268

1269

1270

class _KnitComponentFile(object):

1271

"""One of the files used to implement a knit database"""

1272

1273

def __init__(self, transport, filename, mode, file_mode=None,

1274

create_parent_dir=False, dir_mode=None):

1275

self._transport = transport

1276

self._filename = filename

1277

self._mode = mode

1278

self._file_mode = file_mode

1279

self._dir_mode = dir_mode

1280

self._create_parent_dir = create_parent_dir

1281

self._need_to_create = False

1282

1283

def _full_path(self):

1284

"""Return the full path to this file."""

1285

return self._transport.base + self._filename

1286

1287

def check_header(self, fp):

1288

line = fp.readline()

1289

if line == '':

1290

# An empty file can actually be treated as though the file doesn't

1291

# exist yet.

1292

raise errors.NoSuchFile(self._full_path())

1293

if line != self.HEADER:

1294

raise KnitHeaderError(badline=line,

1295

filename=self._transport.abspath(self._filename))

1296

1297

def __repr__(self):

1298

return '%s(%s)' % (self.__class__.__name__, self._filename)

1299

1300

1301

class _KnitIndex(_KnitComponentFile):

1302

"""Manages knit index file.

1303

1304

The index is already kept in memory and read on startup, to enable

1644

1305

fast lookups of revision information. The cursor of the index

1645

1306

file is always pointing to the end, making it easy to append

1646

1307

entries.

1688

1349

to ensure that records always start on new lines even if the last write was

1689

1350

interrupted. As a result its normal for the last line in the index to be

1690

1351

missing a trailing newline. One can be added with no harmful effects.

1691

1692

:ivar _kndx_cache: dict from prefix to the old state of KnitIndex objects,

1693

where prefix is e.g. the (fileid,) for .texts instances or () for

1694

constant-mapped things like .revisions, and the old state is

1695

tuple(history_vector, cache_dict). This is used to prevent having an

1696

ABI change with the C extension that reads .kndx files.

1697

1352

"""

1698

1353

1699

1354

HEADER = "# bzr knit index 8\n"

1700

1355

1701

def __init__(self, transport, mapper, get_scope, allow_writes, is_locked):

1702

"""Create a _KndxIndex on transport using mapper."""

1703

self._transport = transport

1704

self._mapper = mapper

1705

self._get_scope = get_scope

1706

self._allow_writes = allow_writes

1707

self._is_locked = is_locked

1708

self._reset_cache()

1709

self.has_graph = True

1710

1711

def add_records(self, records, random_id=False):

1712

"""Add multiple records to the index.

1713

1714

:param records: a list of tuples:

1715

(key, options, access_memo, parents).

1716

:param random_id: If True the ids being added were randomly generated

1717

and no check for existence will be performed.

1718

"""

1719

paths = {}

1720

for record in records:

1721

key = record[0]

1722

prefix = key[:-1]

1723

path = self._mapper.map(key) + '.kndx'

1724

path_keys = paths.setdefault(path, (prefix, []))

1725

path_keys[1].append(record)

1726

for path in sorted(paths):

1727

prefix, path_keys = paths[path]

1728

self._load_prefixes([prefix])

1729

lines = []

1730

orig_history = self._kndx_cache[prefix][1][:]

1731

orig_cache = self._kndx_cache[prefix][0].copy()

1732

1733

try:

1734

for key, options, (_, pos, size), parents in path_keys:

1735

if parents is None:

1736

# kndx indices cannot be parentless.

1737

parents = ()

1738

line = "\n%s %s %s %s %s :" % (

1739

key[-1], ','.join(options), pos, size,

1740

self._dictionary_compress(parents))

1741

if type(line) != str:

1742

raise AssertionError(

1743

'data must be utf8 was %s' % type(line))

1744

lines.append(line)

1745

self._cache_key(key, options, pos, size, parents)

1746

if len(orig_history):

1747

self._transport.append_bytes(path, ''.join(lines))

1748

else:

1749

self._init_index(path, lines)

1750

except:

1751

# If any problems happen, restore the original values and re-raise

1752

self._kndx_cache[prefix] = (orig_cache, orig_history)

1753

raise

1754

1755

def _cache_key(self, key, options, pos, size, parent_keys):

1356

# speed of knit parsing went from 280 ms to 280 ms with slots addition.

1357

# __slots__ = ['_cache', '_history', '_transport', '_filename']

1358

1359

def _cache_version(self, version_id, options, pos, size, parents):

1756

1360

"""Cache a version record in the history array and index cache.

1757

1361

1758

1362

This is inlined into _load_data for performance. KEEP IN SYNC.

1759

1363

(It saves 60ms, 25% of the __init__ overhead on local 4000 record

1760

1364

indexes).

1761

1365

"""

1762

prefix = key[:-1]

1763

version_id = key[-1]

1764

# last-element only for compatibilty with the C load_data.

1765

parents = tuple(parent[-1] for parent in parent_keys)

1766

for parent in parent_keys:

1767

if parent[:-1] != prefix:

1768

raise ValueError("mismatched prefixes for %r, %r" % (

1769

key, parent_keys))

1770

cache, history = self._kndx_cache[prefix]

1771

1366

# only want the _history index to reference the 1st index entry

1772

1367

# for version_id

1773

if version_id not in cache:

1774

index = len(history)

1775

history.append(version_id)

1368

if version_id not in self._cache:

1369

index = len(self._history)

1370

self._history.append(version_id)

1776

1371

else:

1777

index = cache[version_id][5]

1778

cache[version_id] = (version_id,

1372

index = self._cache[version_id][5]

1373

self._cache[version_id] = (version_id,

1779

1374

options,

1780

1375

pos,

1781

1376

size,

1782

1377

parents,

1783

1378

index)

1784

1379

1785

def check_header(self, fp):

1786

line = fp.readline()

1787

if line == '':

1788

# An empty file can actually be treated as though the file doesn't

1789

# exist yet.

1790

raise errors.NoSuchFile(self)

1791

if line != self.HEADER:

1792

raise KnitHeaderError(badline=line, filename=self)

1793

1794

def _check_read(self):

1795

if not self._is_locked():

1796

raise errors.ObjectNotLocked(self)

1797

if self._get_scope() != self._scope:

1798

self._reset_cache()

1799

1800

1380

def _check_write_ok(self):

1801

"""Assert if not writes are permitted."""

1802

if not self._is_locked():

1803

raise errors.ObjectNotLocked(self)

1804

1381

if self._get_scope() != self._scope:

1805

self._reset_cache()

1382

raise errors.OutSideTransaction()

1806

1383

if self._mode != 'w':

1807

1384

raise errors.ReadOnlyObjectDirtiedError(self)

1808

1385

1809

def get_build_details(self, keys):

1810

"""Get the method, index_memo and compression parent for keys.

1386

def __init__(self, transport, filename, mode, create=False, file_mode=None,

1387

create_parent_dir=False, delay_create=False, dir_mode=None,

1388

get_scope=None):

1389

_KnitComponentFile.__init__(self, transport, filename, mode,

1390

file_mode=file_mode,

1391

create_parent_dir=create_parent_dir,

1392

dir_mode=dir_mode)

1393

self._cache = {}

1394

# position in _history is the 'official' index for a revision

1395

# but the values may have come from a newer entry.

1396

# so - wc -l of a knit index is != the number of unique names

1397

# in the knit.

1398

self._history = []

1399

try:

1400

fp = self._transport.get(self._filename)

1401

try:

1402

# _load_data may raise NoSuchFile if the target knit is

1403

# completely empty.

1404

_load_data(self, fp)

1405

finally:

1406

fp.close()

1407

except NoSuchFile:

1408

if mode != 'w' or not create:

1409

raise

1410

elif delay_create:

1411

self._need_to_create = True

1412

else:

1413

self._transport.put_bytes_non_atomic(

1414

self._filename, self.HEADER, mode=self._file_mode)

1415

self._scope = get_scope()

1416

self._get_scope = get_scope

1417

1418

def get_ancestry(self, versions, topo_sorted=True):

1419

"""See VersionedFile.get_ancestry."""

1420

# get a graph of all the mentioned versions:

1421

graph = {}

1422

pending = set(versions)

1423

cache = self._cache

1424

while pending:

1425

version = pending.pop()

1426

# trim ghosts

1427

try:

1428

parents = [p for p in cache[version][4] if p in cache]

1429

except KeyError:

1430

raise RevisionNotPresent(version, self._filename)

1431

# if not completed and not a ghost

1432

pending.update([p for p in parents if p not in graph])

1433

graph[version] = parents

1434

if not topo_sorted:

1435

return graph.keys()

1436

return topo_sort(graph.items())

1437

1438

def get_ancestry_with_ghosts(self, versions):

1439

"""See VersionedFile.get_ancestry_with_ghosts."""

1440

# get a graph of all the mentioned versions:

1441

self.check_versions_present(versions)

1442

cache = self._cache

1443

graph = {}

1444

pending = set(versions)

1445

while pending:

1446

version = pending.pop()

1447

try:

1448

parents = cache[version][4]

1449

except KeyError:

1450

# ghost, fake it

1451

graph[version] = []

1452

else:

1453

# if not completed

1454

pending.update([p for p in parents if p not in graph])

1455

graph[version] = parents

1456

return topo_sort(graph.items())

1457

1458

def get_build_details(self, version_ids):

1459

"""Get the method, index_memo and compression parent for version_ids.

1811

1460

1812

1461

Ghosts are omitted from the result.

1813

1462

1814

:param keys: An iterable of keys.

1815

:return: A dict of key:(index_memo, compression_parent, parents,

1816

record_details).

1463

:param version_ids: An iterable of version_ids.

1464

:return: A dict of version_id:(index_memo, compression_parent,

1465

parents, record_details).

1817

1466

index_memo

1818

1467

opaque structure to pass to read_records to extract the raw

1819

1468

data

1825

1474

extra information about the content which needs to be passed to

1826

1475

Factory.parse_record

1827

1476

"""

1828

prefixes = self._partition_keys(keys)

1829

parent_map = self.get_parent_map(keys)

1830

1477

result = {}

1831

for key in keys:

1832

if key not in parent_map:

1833

continue # Ghost

1834

method = self.get_method(key)

1835

parents = parent_map[key]

1478

for version_id in version_ids:

1479

if version_id not in self._cache:

1480

# ghosts are omitted

1481

continue

1482

method = self.get_method(version_id)

1483

parents = self.get_parents_with_ghosts(version_id)

1836

1484

if method == 'fulltext':

1837

1485

compression_parent = None

1838

1486

else:

1839

1487

compression_parent = parents[0]

1840

noeol = 'no-eol' in self.get_options(key)

1841

index_memo = self.get_position(key)

1842

result[key] = (index_memo, compression_parent,

1488

noeol = 'no-eol' in self.get_options(version_id)

1489

index_memo = self.get_position(version_id)

1490

result[version_id] = (index_memo, compression_parent,

1843

1491

parents, (method, noeol))

1844

1492

return result

1845

1493

1846

def get_method(self, key):

1847

"""Return compression method of specified key."""

1848

options = self.get_options(key)

1849

if 'fulltext' in options:

1850

return 'fulltext'

1851

elif 'line-delta' in options:

1852

return 'line-delta'

1853

else:

1854

raise errors.KnitIndexUnknownMethod(self, options)

1855

1856

def get_options(self, key):

1857

"""Return a list representing options.

1858

1859

e.g. ['foo', 'bar']

1860

"""

1861

prefix, suffix = self._split_key(key)

1862

self._load_prefixes([prefix])

1863

try:

1864

return self._kndx_cache[prefix][0][suffix][1]

1865

except KeyError:

1866

raise RevisionNotPresent(key, self)

1867

1868

def get_parent_map(self, keys):

1869

"""Get a map of the parents of keys.

1870

1871

:param keys: The keys to look up parents for.

1872

:return: A mapping from keys to parents. Absent keys are absent from

1873

the mapping.

1874

"""

1875

# Parse what we need to up front, this potentially trades off I/O

1876

# locality (.kndx and .knit in the same block group for the same file

1877

# id) for less checking in inner loops.

1878

prefixes = set(key[:-1] for key in keys)

1879

self._load_prefixes(prefixes)

1880

result = {}

1881

for key in keys:

1882

prefix = key[:-1]

1883

try:

1884

suffix_parents = self._kndx_cache[prefix][0][key[-1]][4]

1885

except KeyError:

1886

pass

1887

else:

1888

result[key] = tuple(prefix + (suffix,) for

1889

suffix in suffix_parents)

1890

return result

1891

1892

def get_position(self, key):

1893

"""Return details needed to access the version.

1894

1895

:return: a tuple (key, data position, size) to hand to the access

1896

logic to get the record.

1897

"""

1898

prefix, suffix = self._split_key(key)

1899

self._load_prefixes([prefix])

1900

entry = self._kndx_cache[prefix][0][suffix]

1901

return key, entry[2], entry[3]

1902

1903

def _init_index(self, path, extra_lines=[]):

1904

"""Initialize an index."""

1905

sio = StringIO()

1906

sio.write(self.HEADER)

1907

sio.writelines(extra_lines)

1908

sio.seek(0)

1909

self._transport.put_file_non_atomic(path, sio,

1910

create_parent_dir=True)

1911

# self._create_parent_dir)

1912

# mode=self._file_mode,

1913

# dir_mode=self._dir_mode)

1914

1915

def keys(self):

1916

"""Get all the keys in the collection.

1917

1918

The keys are not ordered.

1919

"""

1920

result = set()

1921

# Identify all key prefixes.

1922

# XXX: A bit hacky, needs polish.

1923

if type(self._mapper) == ConstantMapper:

1924

prefixes = [()]

1925

else:

1926

relpaths = set()

1927

for quoted_relpath in self._transport.iter_files_recursive():

1928

path, ext = os.path.splitext(quoted_relpath)

1929

relpaths.add(path)

1930

prefixes = [self._mapper.unmap(path) for path in relpaths]

1931

self._load_prefixes(prefixes)

1932

for prefix in prefixes:

1933

for suffix in self._kndx_cache[prefix][1]:

1934

result.add(prefix + (suffix,))

1935

return result

1936

1937

def _load_prefixes(self, prefixes):

1938

"""Load the indices for prefixes."""

1939

self._check_read()

1940

for prefix in prefixes:

1941

if prefix not in self._kndx_cache:

1942

# the load_data interface writes to these variables.

1943

self._cache = {}

1944

self._history = []

1945

self._filename = prefix

1946

try:

1947

path = self._mapper.map(prefix) + '.kndx'

1948

fp = self._transport.get(path)

1949

try:

1950

# _load_data may raise NoSuchFile if the target knit is

1951

# completely empty.

1952

_load_data(self, fp)

1953

finally:

1954

fp.close()

1955

self._kndx_cache[prefix] = (self._cache, self._history)

1956

del self._cache

1957

del self._filename

1958

del self._history

1959

except NoSuchFile:

1960

self._kndx_cache[prefix] = ({}, [])

1961

if type(self._mapper) == ConstantMapper:

1962

# preserve behaviour for revisions.kndx etc.

1963

self._init_index(path)

1964

del self._cache

1965

del self._filename

1966

del self._history

1967

1968

def _partition_keys(self, keys):

1969

"""Turn keys into a dict of prefix:suffix_list."""

1970

result = {}

1971

for key in keys:

1972

prefix_keys = result.setdefault(key[:-1], [])

1973

prefix_keys.append(key[-1])

1974

return result

1975

1976

def _dictionary_compress(self, keys):

1977

"""Dictionary compress keys.

1978

1979

:param keys: The keys to generate references to.

1980

:return: A string representation of keys. keys which are present are

1981

dictionary compressed, and others are emitted as fulltext with a

1982

'.' prefix.

1983

"""

1984

if not keys:

1985

return ''

1494

def num_versions(self):

1495

return len(self._history)

1496

1497

__len__ = num_versions

1498

1499

def get_versions(self):

1500

"""Get all the versions in the file. not topologically sorted."""

1501

return self._history

1502

1503

def _version_list_to_index(self, versions):

1986

1504

result_list = []

1987

prefix = keys[0][:-1]

1988

cache = self._kndx_cache[prefix][0]

1989

for key in keys:

1990

if key[:-1] != prefix:

1991

# kndx indices cannot refer across partitioned storage.

1992

raise ValueError("mismatched prefixes for %r" % keys)

1993

if key[-1] in cache:

1505

cache = self._cache

1506

for version in versions:

1507

if version in cache:

1994

1508

# -- inlined lookup() --

1995

result_list.append(str(cache[key[-1]][5]))

1509

result_list.append(str(cache[version][5]))

1996

1510

# -- end lookup () --

1997

1511

else:

1998

result_list.append('.' + key[-1])

1512

result_list.append('.' + version)

1999

1513

return ' '.join(result_list)

2000

1514

2001

def _reset_cache(self):

2002

# Possibly this should be a LRU cache. A dictionary from key_prefix to

2003

# (cache_dict, history_vector) for parsed kndx files.

2004

self._kndx_cache = {}

2005

self._scope = self._get_scope()

2006

allow_writes = self._allow_writes()

2007

if allow_writes:

2008

self._mode = 'w'

1515

def add_version(self, version_id, options, index_memo, parents):

1516

"""Add a version record to the index."""

1517

self.add_versions(((version_id, options, index_memo, parents),))

1518

1519

def add_versions(self, versions, random_id=False):

1520

"""Add multiple versions to the index.

1521

1522

:param versions: a list of tuples:

1523

(version_id, options, pos, size, parents).

1524

:param random_id: If True the ids being added were randomly generated

1525

and no check for existence will be performed.

1526

"""

1527

lines = []

1528

orig_history = self._history[:]

1529

orig_cache = self._cache.copy()

1530

1531

try:

1532

for version_id, options, (index, pos, size), parents in versions:

1533

line = "\n%s %s %s %s %s :" % (version_id,

1534

','.join(options),

1535

pos,

1536

size,

1537

self._version_list_to_index(parents))

1538

lines.append(line)

1539

self._cache_version(version_id, options, pos, size, tuple(parents))

1540

if not self._need_to_create:

1541

self._transport.append_bytes(self._filename, ''.join(lines))

1542

else:

1543

sio = StringIO()

1544

sio.write(self.HEADER)

1545

sio.writelines(lines)

1546

sio.seek(0)

1547

self._transport.put_file_non_atomic(self._filename, sio,

1548

create_parent_dir=self._create_parent_dir,

1549

mode=self._file_mode,

1550

dir_mode=self._dir_mode)

1551

self._need_to_create = False

1552

except:

1553

# If any problems happen, restore the original values and re-raise

1554

self._history = orig_history

1555

self._cache = orig_cache

1556

raise

1557

1558

def has_version(self, version_id):

1559

"""True if the version is in the index."""

1560

return version_id in self._cache

1561

1562

def get_position(self, version_id):

1563

"""Return details needed to access the version.

1564

1565

.kndx indices do not support split-out data, so return None for the

1566

index field.

1567

1568

:return: a tuple (None, data position, size) to hand to the access

1569

logic to get the record.

1570

"""

1571

entry = self._cache[version_id]

1572

return None, entry[2], entry[3]

1573

1574

def get_method(self, version_id):

1575

"""Return compression method of specified version."""

1576

try:

1577

options = self._cache[version_id][1]

1578

except KeyError:

1579

raise RevisionNotPresent(version_id, self._filename)

1580

if 'fulltext' in options:

1581

return 'fulltext'

2009

1582

else:

2010

self._mode = 'r'

2011

2012

def _split_key(self, key):

2013

"""Split key into a prefix and suffix."""

2014

return key[:-1], key[-1]

2015

2016

2017

class _KnitGraphIndex(object):

2018

"""A KnitVersionedFiles index layered on GraphIndex."""

2019

2020

def __init__(self, graph_index, is_locked, deltas=False, parents=True,

2021

add_callback=None):

1583

if 'line-delta' not in options:

1584

raise errors.KnitIndexUnknownMethod(self._full_path(), options)

1585

return 'line-delta'

1586

1587

def get_options(self, version_id):

1588

"""Return a list representing options.

1589

1590

e.g. ['foo', 'bar']

1591

"""

1592

return self._cache[version_id][1]

1593

1594

def get_parent_map(self, version_ids):

1595

"""Passed through to by KnitVersionedFile.get_parent_map."""

1596

result = {}

1597

for version_id in version_ids:

1598

try:

1599

result[version_id] = tuple(self._cache[version_id][4])

1600

except KeyError:

1601

pass

1602

return result

1603

1604

def get_parents_with_ghosts(self, version_id):

1605

"""Return parents of specified version with ghosts."""

1606

try:

1607

return self.get_parent_map([version_id])[version_id]

1608

except KeyError:

1609

raise RevisionNotPresent(version_id, self)

1610

1611

def check_versions_present(self, version_ids):

1612

"""Check that all specified versions are present."""

1613

cache = self._cache

1614

for version_id in version_ids:

1615

if version_id not in cache:

1616

raise RevisionNotPresent(version_id, self._filename)

1617

1618

1619

class KnitGraphIndex(object):

1620

"""A knit index that builds on GraphIndex."""

1621

1622

def __init__(self, graph_index, deltas=False, parents=True, add_callback=None):

2022

1623

"""Construct a KnitGraphIndex on a graph_index.

2023

1624

2024

1625

:param graph_index: An implementation of bzrlib.index.GraphIndex.

2025

:param is_locked: A callback to check whether the object should answer

2026

queries.

2027

1626

:param deltas: Allow delta-compressed records.

2028

:param parents: If True, record knits parents, if not do not record

2029

parents.

2030

1627

:param add_callback: If not None, allow additions to the index and call

2031

1628

this callback with a list of added GraphIndex nodes:

2032

1629

[(node, value, node_refs), ...]

2033

:param is_locked: A callback, returns True if the index is locked and

2034

thus usable.

1630

:param parents: If True, record knits parents, if not do not record

1631

parents.

2035

1632

"""

2036

self._add_callback = add_callback

2037

1633

self._graph_index = graph_index

2038

1634

self._deltas = deltas

1635

self._add_callback = add_callback

2039

1636

self._parents = parents

2040

1637

if deltas and not parents:

2041

# XXX: TODO: Delta tree and parent graph should be conceptually

2042

# separate.

2043

1638

raise KnitCorrupt(self, "Cannot do delta compression without "

2044

1639

"parent tracking.")

2045

self.has_graph = parents

2046

self._is_locked = is_locked

2047

2048

def __repr__(self):

2049

return "%s(%r)" % (self.__class__.__name__, self._graph_index)

2050

2051

def add_records(self, records, random_id=False):

2052

"""Add multiple records to the index.

1640

1641

def _check_write_ok(self):

1642

pass

1643

1644

def _get_entries(self, keys, check_present=False):

1645

"""Get the entries for keys.

1646

1647

:param keys: An iterable of index keys, - 1-tuples.

1648

"""

1649

keys = set(keys)

1650

found_keys = set()

1651

if self._parents:

1652

for node in self._graph_index.iter_entries(keys):

1653

yield node

1654

found_keys.add(node[1])

1655

else:

1656

# adapt parentless index to the rest of the code.

1657

for node in self._graph_index.iter_entries(keys):

1658

yield node[0], node[1], node[2], ()

1659

found_keys.add(node[1])

1660

if check_present:

1661

missing_keys = keys.difference(found_keys)

1662

if missing_keys:

1663

raise RevisionNotPresent(missing_keys.pop(), self)

1664

1665

def _present_keys(self, version_ids):

1666

return set([

1667

node[1] for node in self._get_entries(version_ids)])

1668

1669

def _parentless_ancestry(self, versions):

1670

"""Honour the get_ancestry API for parentless knit indices."""

1671

wanted_keys = self._version_ids_to_keys(versions)

1672

present_keys = self._present_keys(wanted_keys)

1673

missing = set(wanted_keys).difference(present_keys)

1674

if missing:

1675

raise RevisionNotPresent(missing.pop(), self)

1676

return list(self._keys_to_version_ids(present_keys))

1677

1678

def get_ancestry(self, versions, topo_sorted=True):

1679

"""See VersionedFile.get_ancestry."""

1680

if not self._parents:

1681

return self._parentless_ancestry(versions)

1682

# XXX: This will do len(history) index calls - perhaps

1683

# it should be altered to be a index core feature?

1684

# get a graph of all the mentioned versions:

1685

graph = {}

1686

ghosts = set()

1687

versions = self._version_ids_to_keys(versions)

1688

pending = set(versions)

1689

while pending:

1690

# get all pending nodes

1691

this_iteration = pending

1692

new_nodes = self._get_entries(this_iteration)

1693

found = set()

1694

pending = set()

1695

for (index, key, value, node_refs) in new_nodes:

1696

# dont ask for ghosties - otherwise

1697

# we we can end up looping with pending

1698

# being entirely ghosted.

1699

graph[key] = [parent for parent in node_refs[0]

1700

if parent not in ghosts]

1701

# queue parents

1702

for parent in graph[key]:

1703

# dont examine known nodes again

1704

if parent in graph:

1705

continue

1706

pending.add(parent)

1707

found.add(key)

1708

ghosts.update(this_iteration.difference(found))

1709

if versions.difference(graph):

1710

raise RevisionNotPresent(versions.difference(graph).pop(), self)

1711

if topo_sorted:

1712

result_keys = topo_sort(graph.items())

1713

else:

1714

result_keys = graph.iterkeys()

1715

return [key[0] for key in result_keys]

1716

1717

def get_ancestry_with_ghosts(self, versions):

1718

"""See VersionedFile.get_ancestry."""

1719

if not self._parents:

1720

return self._parentless_ancestry(versions)

1721

# XXX: This will do len(history) index calls - perhaps

1722

# it should be altered to be a index core feature?

1723

# get a graph of all the mentioned versions:

1724

graph = {}

1725

versions = self._version_ids_to_keys(versions)

1726

pending = set(versions)

1727

while pending:

1728

# get all pending nodes

1729

this_iteration = pending

1730

new_nodes = self._get_entries(this_iteration)

1731

pending = set()

1732

for (index, key, value, node_refs) in new_nodes:

1733

graph[key] = node_refs[0]

1734

# queue parents

1735

for parent in graph[key]:

1736

# dont examine known nodes again

1737

if parent in graph:

1738

continue

1739

pending.add(parent)

1740

missing_versions = this_iteration.difference(graph)

1741

missing_needed = versions.intersection(missing_versions)

1742

if missing_needed:

1743

raise RevisionNotPresent(missing_needed.pop(), self)

1744

for missing_version in missing_versions:

1745

# add a key, no parents

1746

graph[missing_version] = []

1747

pending.discard(missing_version) # don't look for it

1748

result_keys = topo_sort(graph.items())

1749

return [key[0] for key in result_keys]

1750

1751

def get_build_details(self, version_ids):

1752

"""Get the method, index_memo and compression parent for version_ids.

1753

1754

Ghosts are omitted from the result.

1755

1756

:param version_ids: An iterable of version_ids.

1757

:return: A dict of version_id:(index_memo, compression_parent,

1758

parents, record_details).

1759

index_memo

1760

opaque structure to pass to read_records to extract the raw

1761

data

1762

compression_parent

1763

Content that this record is built upon, may be None

1764

parents

1765

Logical parents of this node

1766

record_details

1767

extra information about the content which needs to be passed to

1768

Factory.parse_record

1769

"""

1770

result = {}

1771

entries = self._get_entries(self._version_ids_to_keys(version_ids), True)

1772

for entry in entries:

1773

version_id = self._keys_to_version_ids((entry[1],))[0]

1774

if not self._parents:

1775

parents = ()

1776

else:

1777

parents = self._keys_to_version_ids(entry[3][0])

1778

if not self._deltas:

1779

compression_parent = None

1780

else:

1781

compression_parent_key = self._compression_parent(entry)

1782

if compression_parent_key:

1783

compression_parent = self._keys_to_version_ids(

1784

(compression_parent_key,))[0]

1785

else:

1786

compression_parent = None

1787

noeol = (entry[2][0] == 'N')

1788

if compression_parent:

1789

method = 'line-delta'

1790

else:

1791

method = 'fulltext'

1792

result[version_id] = (self._node_to_position(entry),

1793

compression_parent, parents,

1794

(method, noeol))

1795

return result

1796

1797

def _compression_parent(self, an_entry):

1798

# return the key that an_entry is compressed against, or None

1799

# Grab the second parent list (as deltas implies parents currently)

1800

compression_parents = an_entry[3][1]

1801

if not compression_parents:

1802

return None

1803

return compression_parents[0]

1804

1805

def _get_method(self, node):

1806

if not self._deltas:

1807

return 'fulltext'

1808

if self._compression_parent(node):

1809

return 'line-delta'

1810

else:

1811

return 'fulltext'

1812

1813

def num_versions(self):

1814

return len(list(self._graph_index.iter_all_entries()))

1815

1816

__len__ = num_versions

1817

1818

def get_versions(self):

1819

"""Get all the versions in the file. not topologically sorted."""

1820

return [node[1][0] for node in self._graph_index.iter_all_entries()]

1821

1822

def has_version(self, version_id):

1823

"""True if the version is in the index."""

1824

return len(self._present_keys(self._version_ids_to_keys([version_id]))) == 1

1825

1826

def _keys_to_version_ids(self, keys):

1827

return tuple(key[0] for key in keys)

1828

1829

def get_position(self, version_id):

1830

"""Return details needed to access the version.

1831

1832

:return: a tuple (index, data position, size) to hand to the access

1833

logic to get the record.

1834

"""

1835

node = self._get_node(version_id)

1836

return self._node_to_position(node)

1837

1838

def _node_to_position(self, node):

1839

"""Convert an index value to position details."""

1840

bits = node[2][1:].split(' ')

1841

return node[0], int(bits[0]), int(bits[1])

1842

1843

def get_method(self, version_id):

1844

"""Return compression method of specified version."""

1845

return self._get_method(self._get_node(version_id))

1846

1847

def _get_node(self, version_id):

1848

try:

1849

return list(self._get_entries(self._version_ids_to_keys([version_id])))[0]

1850

except IndexError:

1851

raise RevisionNotPresent(version_id, self)

1852

1853

def get_options(self, version_id):

1854

"""Return a list representing options.

1855

1856

e.g. ['foo', 'bar']

1857

"""

1858

node = self._get_node(version_id)

1859

options = [self._get_method(node)]

1860

if node[2][0] == 'N':

1861

options.append('no-eol')

1862

return options

1863

1864

def get_parent_map(self, version_ids):

1865

"""Passed through to by KnitVersionedFile.get_parent_map."""

1866

nodes = self._get_entries(self._version_ids_to_keys(version_ids))

1867

result = {}

1868

if self._parents:

1869

for node in nodes:

1870

result[node[1][0]] = self._keys_to_version_ids(node[3][0])

1871

else:

1872

for node in nodes:

1873

result[node[1][0]] = ()

1874

return result

1875

1876

def get_parents_with_ghosts(self, version_id):

1877

"""Return parents of specified version with ghosts."""

1878

try:

1879

return self.get_parent_map([version_id])[version_id]

1880

except KeyError:

1881

raise RevisionNotPresent(version_id, self)

1882

1883

def check_versions_present(self, version_ids):

1884

"""Check that all specified versions are present."""

1885

keys = self._version_ids_to_keys(version_ids)

1886

present = self._present_keys(keys)

1887

missing = keys.difference(present)

1888

if missing:

1889

raise RevisionNotPresent(missing.pop(), self)

1890

1891

def add_version(self, version_id, options, access_memo, parents):

1892

"""Add a version record to the index."""

1893

return self.add_versions(((version_id, options, access_memo, parents),))

1894

1895

def add_versions(self, versions, random_id=False):

1896

"""Add multiple versions to the index.

2053

1897

2054

1898

This function does not insert data into the Immutable GraphIndex

2055

1899

backing the KnitGraphIndex, instead it prepares data for insertion by

2056

1900

the caller and checks that it is safe to insert then calls

2057

1901

self._add_callback with the prepared GraphIndex nodes.

2058

1902

2059

:param records: a list of tuples:

2060

(key, options, access_memo, parents).

1903

:param versions: a list of tuples:

1904

(version_id, options, pos, size, parents).

2061

1905

:param random_id: If True the ids being added were randomly generated

2062

1906

and no check for existence will be performed.

2063

1907

"""

2065

1909

raise errors.ReadOnlyError(self)

2066

1910

# we hope there are no repositories with inconsistent parentage

2067

1911

# anymore.

1912

# check for dups

2068

1913

2069

1914

keys = {}

2070

for (key, options, access_memo, parents) in records:

2071

if self._parents:

2072

parents = tuple(parents)

1915

for (version_id, options, access_memo, parents) in versions:

2073

1916

index, pos, size = access_memo

1917

key = (version_id, )

1918

parents = tuple((parent, ) for parent in parents)

2074

1919

if 'no-eol' in options:

2075

1920

value = 'N'

2076

1921

else:

2093

1938

"in parentless index.")

2094

1939

node_refs = ()

2095

1940

keys[key] = (value, node_refs)

2096

# check for dups

2097

1941

if not random_id:

2098

1942

present_nodes = self._get_entries(keys)

2099

1943

for (index, key, value, node_refs) in present_nodes:

2100

if (value[0] != keys[key][0][0] or

2101

node_refs != keys[key][1]):

2102

raise KnitCorrupt(self, "inconsistent details in add_records"

1944

if (value, node_refs) != keys[key]:

1945

raise KnitCorrupt(self, "inconsistent details in add_versions"

2103

1946

": %s %s" % ((value, node_refs), keys[key]))

2104

1947

del keys[key]

2105

1948

result = []

2111

1954

result.append((key, value))

2112

1955

self._add_callback(result)

2113

1956

2114

def _check_read(self):

2115

"""raise if reads are not permitted."""

2116

if not self._is_locked():

2117

raise errors.ObjectNotLocked(self)

2118

2119

def _check_write_ok(self):

2120

"""Assert if writes are not permitted."""

2121

if not self._is_locked():

2122

raise errors.ObjectNotLocked(self)

2123

2124

def _compression_parent(self, an_entry):

2125

# return the key that an_entry is compressed against, or None

2126

# Grab the second parent list (as deltas implies parents currently)

2127

compression_parents = an_entry[3][1]

2128

if not compression_parents:

2129

return None

2130

if len(compression_parents) != 1:

2131

raise AssertionError(

2132

"Too many compression parents: %r" % compression_parents)

2133

return compression_parents[0]

2134

2135

def get_build_details(self, keys):

2136

"""Get the method, index_memo and compression parent for version_ids.

2137

2138

Ghosts are omitted from the result.

2139

2140

:param keys: An iterable of keys.

2141

:return: A dict of key:

2142

(index_memo, compression_parent, parents, record_details).

2143

index_memo

2144

opaque structure to pass to read_records to extract the raw

2145

data

2146

compression_parent

2147

Content that this record is built upon, may be None

2148

parents

2149

Logical parents of this node

2150

record_details

2151

extra information about the content which needs to be passed to

2152

Factory.parse_record

2153

"""

2154

self._check_read()

2155

result = {}

2156

entries = self._get_entries(keys, False)

2157

for entry in entries:

2158

key = entry[1]

2159

if not self._parents:

2160

parents = ()

2161

else:

2162

parents = entry[3][0]

2163

if not self._deltas:

2164

compression_parent_key = None

2165

else:

2166

compression_parent_key = self._compression_parent(entry)

2167

noeol = (entry[2][0] == 'N')

2168

if compression_parent_key:

2169

method = 'line-delta'

2170

else:

2171

method = 'fulltext'

2172

result[key] = (self._node_to_position(entry),

2173

compression_parent_key, parents,

2174

(method, noeol))

2175

return result

2176

2177

def _get_entries(self, keys, check_present=False):

2178

"""Get the entries for keys.

2179

2180

:param keys: An iterable of index key tuples.

2181

"""

2182

keys = set(keys)

2183

found_keys = set()

2184

if self._parents:

2185

for node in self._graph_index.iter_entries(keys):

2186

yield node

2187

found_keys.add(node[1])

2188

else:

2189

# adapt parentless index to the rest of the code.

2190

for node in self._graph_index.iter_entries(keys):

2191

yield node[0], node[1], node[2], ()

2192

found_keys.add(node[1])

2193

if check_present:

2194

missing_keys = keys.difference(found_keys)

2195

if missing_keys:

2196

raise RevisionNotPresent(missing_keys.pop(), self)

2197

2198

def get_method(self, key):

2199

"""Return compression method of specified key."""

2200

return self._get_method(self._get_node(key))

2201

2202

def _get_method(self, node):

2203

if not self._deltas:

2204

return 'fulltext'

2205

if self._compression_parent(node):

2206

return 'line-delta'

2207

else:

2208

return 'fulltext'

2209

2210

def _get_node(self, key):

2211

try:

2212

return list(self._get_entries([key]))[0]

2213

except IndexError:

2214

raise RevisionNotPresent(key, self)

2215

2216

def get_options(self, key):

2217

"""Return a list representing options.

2218

2219

e.g. ['foo', 'bar']

2220

"""

2221

node = self._get_node(key)

2222

options = [self._get_method(node)]

2223

if node[2][0] == 'N':

2224

options.append('no-eol')

2225

return options

2226

2227

def get_parent_map(self, keys):

2228

"""Get a map of the parents of keys.

2229

2230

:param keys: The keys to look up parents for.

2231

:return: A mapping from keys to parents. Absent keys are absent from

2232

the mapping.

2233

"""

2234

self._check_read()

2235

nodes = self._get_entries(keys)

2236

result = {}

2237

if self._parents:

2238

for node in nodes:

2239

result[node[1]] = node[3][0]

2240

else:

2241

for node in nodes:

2242

result[node[1]] = None

2243

return result

2244

2245

def get_position(self, key):

2246

"""Return details needed to access the version.

2247

2248

:return: a tuple (index, data position, size) to hand to the access

2249

logic to get the record.

2250

"""

2251

node = self._get_node(key)

2252

return self._node_to_position(node)

2253

2254

def keys(self):

2255

"""Get all the keys in the collection.

2256

2257

The keys are not ordered.

2258

"""

2259

self._check_read()

2260

return [node[1] for node in self._graph_index.iter_all_entries()]

2261

2262

def _node_to_position(self, node):

2263

"""Convert an index value to position details."""

2264

bits = node[2][1:].split(' ')

2265

return node[0], int(bits[0]), int(bits[1])

2266

2267

2268

class _KnitKeyAccess(object):

2269

"""Access to records in .knit files."""

2270

2271

def __init__(self, transport, mapper):

2272

"""Create a _KnitKeyAccess with transport and mapper.

2273

2274

:param transport: The transport the access object is rooted at.

2275

:param mapper: The mapper used to map keys to .knit files.

1957

def _version_ids_to_keys(self, version_ids):

1958

return set((version_id, ) for version_id in version_ids)

1959

1960

1961

class _KnitAccess(object):

1962

"""Access to knit records in a .knit file."""

1963

1964

def __init__(self, transport, filename, _file_mode, _dir_mode,

1965

_need_to_create, _create_parent_dir):

1966

"""Create a _KnitAccess for accessing and inserting data.

1967

1968

:param transport: The transport the .knit is located on.

1969

:param filename: The filename of the .knit.

2276

1970

"""

2277

1971

self._transport = transport

2278

self._mapper = mapper

1972

self._filename = filename

1973

self._file_mode = _file_mode

1974

self._dir_mode = _dir_mode

1975

self._need_to_create = _need_to_create

1976

self._create_parent_dir = _create_parent_dir

2279

1977

2280

def add_raw_records(self, key_sizes, raw_data):

1978

def add_raw_records(self, sizes, raw_data):

2281

1979

"""Add raw knit bytes to a storage area.

2282

1980

2283

The data is spooled to the container writer in one bytes-record per

2284

raw data item.

1981

The data is spooled to whereever the access method is storing data.

2285

1982

2286

:param sizes: An iterable of tuples containing the key and size of each

2287

raw data segment.

1983

:param sizes: An iterable containing the size of each raw data segment.

2288

1984

:param raw_data: A bytestring containing the data.

2289

:return: A list of memos to retrieve the record later. Each memo is an

2290

opaque index memo. For _KnitKeyAccess the memo is (key, pos,

2291

length), where the key is the record key.

1985

:return: A list of memos to retrieve the record later. Each memo is a

1986

tuple - (index, pos, length), where the index field is always None

1987

for the .knit access method.

2292

1988

"""

2293

if type(raw_data) != str:

2294

raise AssertionError(

2295

'data must be plain bytes was %s' % type(raw_data))

1989

if not self._need_to_create:

1990

base = self._transport.append_bytes(self._filename, raw_data)

1991

else:

1992

self._transport.put_bytes_non_atomic(self._filename, raw_data,

1993

create_parent_dir=self._create_parent_dir,

1994

mode=self._file_mode,

1995

dir_mode=self._dir_mode)

1996

self._need_to_create = False

1997

base = 0

2296

1998

result = []

2297

offset = 0

2298

# TODO: This can be tuned for writing to sftp and other servers where

2299

# append() is relatively expensive by grouping the writes to each key

2300

# prefix.

2301

for key, size in key_sizes:

2302

path = self._mapper.map(key)

2303

try:

2304

base = self._transport.append_bytes(path + '.knit',

2305

raw_data[offset:offset+size])

2306

except errors.NoSuchFile:

2307

self._transport.mkdir(osutils.dirname(path))

2308

base = self._transport.append_bytes(path + '.knit',

2309

raw_data[offset:offset+size])

2310

# if base == 0:

2311

# chmod.

2312

offset += size

2313

result.append((key, base, size))

1999

for size in sizes:

2000

result.append((None, base, size))

2001

base += size

2314

2002

return result

2315

2003

2004

def create(self):

2005

"""IFF this data access has its own storage area, initialise it.

2006

2007

:return: None.

2008

"""

2009

self._transport.put_bytes_non_atomic(self._filename, '',

2010

mode=self._file_mode)

2011

2012

def open_file(self):

2013

"""IFF this data access can be represented as a single file, open it.

2014

2015

For knits that are not mapped to a single file on disk this will

2016

always return None.

2017

2018

:return: None or a file handle.

2019

"""

2020

try:

2021

return self._transport.get(self._filename)

2022

except NoSuchFile:

2023

pass

2024

return None

2025

2316

2026

def get_raw_records(self, memos_for_retrieval):

2317

2027

"""Get the raw bytes for a records.

2318

2028

2319

:param memos_for_retrieval: An iterable containing the access memo for

2320

retrieving the bytes.

2029

:param memos_for_retrieval: An iterable containing the (index, pos,

2030

length) memo for retrieving the bytes. The .knit method ignores

2031

the index as there is always only a single file.

2321

2032

:return: An iterator over the bytes of the records.

2322

2033

"""

2323

# first pass, group into same-index request to minimise readv's issued.

2324

request_lists = []

2325

current_prefix = None

2326

for (key, offset, length) in memos_for_retrieval:

2327

if current_prefix == key[:-1]:

2328

current_list.append((offset, length))

2329

else:

2330

if current_prefix is not None:

2331

request_lists.append((current_prefix, current_list))

2332

current_prefix = key[:-1]

2333

current_list = [(offset, length)]

2334

# handle the last entry

2335

if current_prefix is not None:

2336

request_lists.append((current_prefix, current_list))

2337

for prefix, read_vector in request_lists:

2338

path = self._mapper.map(prefix) + '.knit'

2339

for pos, data in self._transport.readv(path, read_vector):

2340

yield data

2341

2342

2343

class _DirectPackAccess(object):

2344

"""Access to data in one or more packs with less translation."""

2345

2346

def __init__(self, index_to_packs):

2347

"""Create a _DirectPackAccess object.

2034

read_vector = [(pos, size) for (index, pos, size) in memos_for_retrieval]

2035

for pos, data in self._transport.readv(self._filename, read_vector):

2036

yield data

2037

2038

2039

class _PackAccess(object):

2040

"""Access to knit records via a collection of packs."""

2041

2042

def __init__(self, index_to_packs, writer=None):

2043

"""Create a _PackAccess object.

2348

2044

2349

2045

:param index_to_packs: A dict mapping index objects to the transport

2350

2046

and file names for obtaining data.

2047

:param writer: A tuple (pack.ContainerWriter, write_index) which

2048

contains the pack to write, and the index that reads from it will

2049

be associated with.

2351

2050

"""

2352

self._container_writer = None

2353

self._write_index = None

2354

self._indices = index_to_packs

2051

if writer:

2052

self.container_writer = writer[0]

2053

self.write_index = writer[1]

2054

else:

2055

self.container_writer = None

2056

self.write_index = None

2057

self.indices = index_to_packs

2355

2058

2356

def add_raw_records(self, key_sizes, raw_data):

2059

def add_raw_records(self, sizes, raw_data):

2357

2060

"""Add raw knit bytes to a storage area.

2358

2061

2359

2062

The data is spooled to the container writer in one bytes-record per

2360

2063

raw data item.

2361

2064

2362

:param sizes: An iterable of tuples containing the key and size of each

2363

raw data segment.

2065

:param sizes: An iterable containing the size of each raw data segment.

2364

2066

:param raw_data: A bytestring containing the data.

2365

:return: A list of memos to retrieve the record later. Each memo is an

2366

opaque index memo. For _DirectPackAccess the memo is (index, pos,

2367

length), where the index field is the write_index object supplied

2368

to the PackAccess object.

2067

:return: A list of memos to retrieve the record later. Each memo is a

2068

tuple - (index, pos, length), where the index field is the

2069

write_index object supplied to the PackAccess object.

2369

2070

"""

2370

if type(raw_data) != str:

2371

raise AssertionError(

2372

'data must be plain bytes was %s' % type(raw_data))

2373

2071

result = []

2374

2072

offset = 0

2375

for key, size in key_sizes:

2376

p_offset, p_length = self._container_writer.add_bytes_record(

2073

for size in sizes:

2074

p_offset, p_length = self.container_writer.add_bytes_record(

2377

2075

raw_data[offset:offset+size], [])

2378

2076

offset += size

2379

result.append((self._write_index, p_offset, p_length))

2077

result.append((self.write_index, p_offset, p_length))

2380

2078

return result

2381

2079

2080

def create(self):

2081

"""Pack based knits do not get individually created."""

2082

2382

2083

def get_raw_records(self, memos_for_retrieval):

2383

2084

"""Get the raw bytes for a records.

2384

2085

2403

2104

if current_index is not None:

2404

2105

request_lists.append((current_index, current_list))

2405

2106

for index, offsets in request_lists:

2406

transport, path = self._indices[index]

2107

transport, path = self.indices[index]

2407

2108

reader = pack.make_readv_reader(transport, path, offsets)

2408

2109

for names, read_func in reader.iter_records():

2409

2110

yield read_func(None)

2410

2111

2411

def set_writer(self, writer, index, transport_packname):

2112

def open_file(self):

2113

"""Pack based knits have no single file."""

2114

return None

2115

2116

def set_writer(self, writer, index, (transport, packname)):

2412

2117

"""Set a writer to use for adding data."""

2413

2118

if index is not None:

2414

self._indices[index] = transport_packname

2415

self._container_writer = writer

2416

self._write_index = index

2119

self.indices[index] = (transport, packname)

2120

self.container_writer = writer

2121

self.write_index = index

2122

2123

2124

class _StreamAccess(object):

2125

"""A Knit Access object that provides data from a datastream.

2126

2127

It also provides a fallback to present as unannotated data, annotated data

2128

from a *backing* access object.

2129

2130

This is triggered by a index_memo which is pointing to a different index

2131

than this was constructed with, and is used to allow extracting full

2132

unannotated texts for insertion into annotated knits.

2133

"""

2134

2135

def __init__(self, reader_callable, stream_index, backing_knit,

2136

orig_factory):

2137

"""Create a _StreamAccess object.

2138

2139

:param reader_callable: The reader_callable from the datastream.

2140

This is called to buffer all the data immediately, for

2141

random access.

2142

:param stream_index: The index the data stream this provides access to

2143

which will be present in native index_memo's.

2144

:param backing_knit: The knit object that will provide access to

2145

annotated texts which are not available in the stream, so as to

2146

create unannotated texts.

2147

:param orig_factory: The original content factory used to generate the

2148

stream. This is used for checking whether the thunk code for

2149

supporting _copy_texts will generate the correct form of data.

2150

"""

2151

self.data = reader_callable(None)

2152

self.stream_index = stream_index

2153

self.backing_knit = backing_knit

2154

self.orig_factory = orig_factory

2155

2156

def get_raw_records(self, memos_for_retrieval):

2157

"""Get the raw bytes for a records.

2158

2159

:param memos_for_retrieval: An iterable of memos from the

2160

_StreamIndex object identifying bytes to read; for these classes

2161

they are (from_backing_knit, index, start, end) and can point to

2162

either the backing knit or streamed data.

2163

:return: An iterator yielding a byte string for each record in

2164

memos_for_retrieval.

2165

"""

2166

# use a generator for memory friendliness

2167

for from_backing_knit, version_id, start, end in memos_for_retrieval:

2168

if not from_backing_knit:

2169

if version_id is not self.stream_index:

2170

raise AssertionError()

2171

yield self.data[start:end]

2172

continue

2173

# we have been asked to thunk. This thunking only occurs when

2174

# we are obtaining plain texts from an annotated backing knit

2175

# so that _copy_texts will work.

2176

# We could improve performance here by scanning for where we need

2177

# to do this and using get_line_list, then interleaving the output

2178

# as desired. However, for now, this is sufficient.

2179

if self.orig_factory.__class__ != KnitPlainFactory:

2180

raise errors.KnitCorrupt(

2181

self, 'Bad thunk request %r cannot be backed by %r' %

2182

(version_id, self.orig_factory))

2183

lines = self.backing_knit.get_lines(version_id)

2184

line_bytes = ''.join(lines)

2185

digest = sha_string(line_bytes)

2186

# the packed form of the fulltext always has a trailing newline,

2187

# even if the actual text does not, unless the file is empty. the

2188

# record options including the noeol flag are passed through by

2189

# _StreamIndex, so this is safe.

2190

if lines:

2191

if lines[-1][-1] != '\n':

2192

lines[-1] = lines[-1] + '\n'

2193

line_bytes += '\n'

2194

# We want plain data, because we expect to thunk only to allow text

2195

# extraction.

2196

size, bytes = self.backing_knit._data._record_to_data(version_id,

2197

digest, lines, line_bytes)

2198

yield bytes

2199

2200

2201

class _StreamIndex(object):

2202

"""A Knit Index object that uses the data map from a datastream."""

2203

2204

def __init__(self, data_list, backing_index):

2205

"""Create a _StreamIndex object.

2206

2207

:param data_list: The data_list from the datastream.

2208

:param backing_index: The index which will supply values for nodes

2209

referenced outside of this stream.

2210

"""

2211

self.data_list = data_list

2212

self.backing_index = backing_index

2213

self._by_version = {}

2214

pos = 0

2215

for key, options, length, parents in data_list:

2216

self._by_version[key] = options, (pos, pos + length), parents

2217

pos += length

2218

2219

def get_ancestry(self, versions, topo_sorted):

2220

"""Get an ancestry list for versions."""

2221

if topo_sorted:

2222

# Not needed for basic joins

2223

raise NotImplementedError(self.get_ancestry)

2224

# get a graph of all the mentioned versions:

2225

# Little ugly - basically copied from KnitIndex, but don't want to

2226

# accidentally incorporate too much of that index's code.

2227

ancestry = set()

2228

pending = set(versions)

2229

cache = self._by_version

2230

while pending:

2231

version = pending.pop()

2232

# trim ghosts

2233

try:

2234

parents = [p for p in cache[version][2] if p in cache]

2235

except KeyError:

2236

raise RevisionNotPresent(version, self)

2237

# if not completed and not a ghost

2238

pending.update([p for p in parents if p not in ancestry])

2239

ancestry.add(version)

2240

return list(ancestry)

2241

2242

def get_build_details(self, version_ids):

2243

"""Get the method, index_memo and compression parent for version_ids.

2244

2245

Ghosts are omitted from the result.

2246

2247

:param version_ids: An iterable of version_ids.

2248

:return: A dict of version_id:(index_memo, compression_parent,

2249

parents, record_details).

2250

index_memo

2251

opaque memo that can be passed to _StreamAccess.read_records

2252

to extract the raw data; for these classes it is

2253

(from_backing_knit, index, start, end)

2254

compression_parent

2255

Content that this record is built upon, may be None

2256

parents

2257

Logical parents of this node

2258

record_details

2259

extra information about the content which needs to be passed to

2260

Factory.parse_record

2261

"""

2262

result = {}

2263

for version_id in version_ids:

2264

try:

2265

method = self.get_method(version_id)

2266

except errors.RevisionNotPresent:

2267

# ghosts are omitted

2268

continue

2269

parent_ids = self.get_parents_with_ghosts(version_id)

2270

noeol = ('no-eol' in self.get_options(version_id))

2271

index_memo = self.get_position(version_id)

2272

from_backing_knit = index_memo[0]

2273

if from_backing_knit:

2274

# texts retrieved from the backing knit are always full texts

2275

method = 'fulltext'

2276

if method == 'fulltext':

2277

compression_parent = None

2278

else:

2279

compression_parent = parent_ids[0]

2280

result[version_id] = (index_memo, compression_parent,

2281

parent_ids, (method, noeol))

2282

return result

2283

2284

def get_method(self, version_id):

2285

"""Return compression method of specified version."""

2286

options = self.get_options(version_id)

2287

if 'fulltext' in options:

2288

return 'fulltext'

2289

elif 'line-delta' in options:

2290

return 'line-delta'

2291

else:

2292

raise errors.KnitIndexUnknownMethod(self, options)

2293

2294

def get_options(self, version_id):

2295

"""Return a list representing options.

2296

2297

e.g. ['foo', 'bar']

2298

"""

2299

try:

2300

return self._by_version[version_id][0]

2301

except KeyError:

2302

options = list(self.backing_index.get_options(version_id))

2303

if 'fulltext' in options:

2304

pass

2305

elif 'line-delta' in options:

2306

# Texts from the backing knit are always returned from the stream

2307

# as full texts

2308

options.remove('line-delta')

2309

options.append('fulltext')

2310

else:

2311

raise errors.KnitIndexUnknownMethod(self, options)

2312

return tuple(options)

2313

2314

def get_parent_map(self, version_ids):

2315

"""Passed through to by KnitVersionedFile.get_parent_map."""

2316

result = {}

2317

pending_ids = set()

2318

for version_id in version_ids:

2319

try:

2320

result[version_id] = self._by_version[version_id][2]

2321

except KeyError:

2322

pending_ids.add(version_id)

2323

result.update(self.backing_index.get_parent_map(pending_ids))

2324

return result

2325

2326

def get_parents_with_ghosts(self, version_id):

2327

"""Return parents of specified version with ghosts."""

2328

try:

2329

return self.get_parent_map([version_id])[version_id]

2330

except KeyError:

2331

raise RevisionNotPresent(version_id, self)

2332

2333

def get_position(self, version_id):

2334

"""Return details needed to access the version.

2335

2336

_StreamAccess has the data as a big array, so we return slice

2337

coordinates into that (as index_memo's are opaque outside the

2338

index and matching access class).

2339

2340

:return: a tuple (from_backing_knit, index, start, end) that can

2341

be passed e.g. to get_raw_records.

2342

If from_backing_knit is False, index will be self, otherwise it

2343

will be a version id.

2344

"""

2345

try:

2346

start, end = self._by_version[version_id][1]

2347

return False, self, start, end

2348

except KeyError:

2349

# Signal to the access object to handle this from the backing knit.

2350

return (True, version_id, None, None)

2351

2352

def get_versions(self):

2353

"""Get all the versions in the stream."""

2354

return self._by_version.keys()

2355

2356

2357

class _KnitData(object):

2358

"""Manage extraction of data from a KnitAccess, caching and decompressing.

2359

2360

The KnitData class provides the logic for parsing and using knit records,

2361

making use of an access method for the low level read and write operations.

2362

"""

2363

2364

def __init__(self, access):

2365

"""Create a KnitData object.

2366

2367

:param access: The access method to use. Access methods such as

2368

_KnitAccess manage the insertion of raw records and the subsequent

2369

retrieval of the same.

2370

"""

2371

self._access = access

2372

self._checked = False

2373

2374

def _open_file(self):

2375

return self._access.open_file()

2376

2377

def _record_to_data(self, version_id, digest, lines, dense_lines=None):

2378

"""Convert version_id, digest, lines into a raw data block.

2379

2380

:param dense_lines: The bytes of lines but in a denser form. For

2381

instance, if lines is a list of 1000 bytestrings each ending in \n,

2382

dense_lines may be a list with one line in it, containing all the

2383

1000's lines and their \n's. Using dense_lines if it is already

2384

known is a win because the string join to create bytes in this

2385

function spends less time resizing the final string.

2386

:return: (len, a StringIO instance with the raw data ready to read.)

2387

"""

2388

# Note: using a string copy here increases memory pressure with e.g.

2389

# ISO's, but it is about 3 seconds faster on a 1.2Ghz intel machine

2390

# when doing the initial commit of a mozilla tree. RBC 20070921

2391

bytes = ''.join(chain(

2392

["version %s %d %s\n" % (version_id,

2393

len(lines),

2394

digest)],

2395

dense_lines or lines,

2396

["end %s\n" % version_id]))

2397

compressed_bytes = bytes_to_gzip(bytes)

2398

return len(compressed_bytes), compressed_bytes

2399

2400

def add_raw_records(self, sizes, raw_data):

2401

"""Append a prepared record to the data file.

2402

2403

:param sizes: An iterable containing the size of each raw data segment.

2404

:param raw_data: A bytestring containing the data.

2405

:return: a list of index data for the way the data was stored.

2406

See the access method add_raw_records documentation for more

2407

details.

2408

"""

2409

return self._access.add_raw_records(sizes, raw_data)

2410

2411

def _parse_record_header(self, version_id, raw_data):

2412

"""Parse a record header for consistency.

2413

2414

:return: the header and the decompressor stream.

2415

as (stream, header_record)

2416

"""

2417

df = GzipFile(mode='rb', fileobj=StringIO(raw_data))

2418

try:

2419

rec = self._check_header(version_id, df.readline())

2420

except Exception, e:

2421

raise KnitCorrupt(self._access,

2422

"While reading {%s} got %s(%s)"

2423

% (version_id, e.__class__.__name__, str(e)))

2424

return df, rec

2425

2426

def _check_header(self, version_id, line):

2427

rec = line.split()

2428

if len(rec) != 4:

2429

raise KnitCorrupt(self._access,

2430

'unexpected number of elements in record header')

2431

if rec[1] != version_id:

2432

raise KnitCorrupt(self._access,

2433

'unexpected version, wanted %r, got %r'

2434

% (version_id, rec[1]))

2435

return rec

2436

2437

def _parse_record(self, version_id, data):

2438

# profiling notes:

2439

# 4168 calls in 2880 217 internal

2440

# 4168 calls to _parse_record_header in 2121

2441

# 4168 calls to readlines in 330

2442

df = GzipFile(mode='rb', fileobj=StringIO(data))

2443

2444

try:

2445

record_contents = df.readlines()

2446

except Exception, e:

2447

raise KnitCorrupt(self._access,

2448

"While reading {%s} got %s(%s)"

2449

% (version_id, e.__class__.__name__, str(e)))

2450

header = record_contents.pop(0)

2451

rec = self._check_header(version_id, header)

2452

2453

last_line = record_contents.pop()

2454

if len(record_contents) != int(rec[2]):

2455

raise KnitCorrupt(self._access,

2456

'incorrect number of lines %s != %s'

2457

' for version {%s}'

2458

% (len(record_contents), int(rec[2]),

2459

version_id))

2460

if last_line != 'end %s\n' % rec[1]:

2461

raise KnitCorrupt(self._access,

2462

'unexpected version end line %r, wanted %r'

2463

% (last_line, version_id))

2464

df.close()

2465

return record_contents, rec[3]

2466

2467

def read_records_iter_raw(self, records):

2468

"""Read text records from data file and yield raw data.

2469

2470

This unpacks enough of the text record to validate the id is

2471

as expected but thats all.

2472

"""

2473

# setup an iterator of the external records:

2474

# uses readv so nice and fast we hope.

2475

if len(records):

2476

# grab the disk data needed.

2477

needed_offsets = [index_memo for version_id, index_memo

2478

in records]

2479

raw_records = self._access.get_raw_records(needed_offsets)

2480

2481

for version_id, index_memo in records:

2482

data = raw_records.next()

2483

# validate the header

2484

df, rec = self._parse_record_header(version_id, data)

2485

df.close()

2486

yield version_id, data

2487

2488

def read_records_iter(self, records):

2489

"""Read text records from data file and yield result.

2490

2491

The result will be returned in whatever is the fastest to read.

2492

Not by the order requested. Also, multiple requests for the same

2493

record will only yield 1 response.

2494

:param records: A list of (version_id, pos, len) entries

2495

:return: Yields (version_id, contents, digest) in the order

2496

read, not the order requested

2497

"""

2498

if not records:

2499

return

2500

2501

needed_records = sorted(set(records), key=operator.itemgetter(1))

2502

if not needed_records:

2503

return

2504

2505

# The transport optimizes the fetching as well

2506

# (ie, reads continuous ranges.)

2507

raw_data = self._access.get_raw_records(

2508

[index_memo for version_id, index_memo in needed_records])

2509

2510

for (version_id, index_memo), data in \

2511

izip(iter(needed_records), raw_data):

2512

content, digest = self._parse_record(version_id, data)

2513

yield version_id, content, digest

2514

2515

def read_records(self, records):

2516

"""Read records into a dictionary."""

2517

components = {}

2518

for record_id, content, digest in \

2519

self.read_records_iter(records):

2520

components[record_id] = (content, digest)

2521

return components

2522

2523

2524

class InterKnit(InterVersionedFile):

2525

"""Optimised code paths for knit to knit operations."""

2526

2527

_matching_file_from_factory = staticmethod(make_file_knit)

2528

_matching_file_to_factory = staticmethod(make_file_knit)

2529

2530

@staticmethod

2531

def is_compatible(source, target):

2532

"""Be compatible with knits. """

2533

try:

2534

return (isinstance(source, KnitVersionedFile) and

2535

isinstance(target, KnitVersionedFile))

2536

except AttributeError:

2537

return False

2538

2539

def _copy_texts(self, pb, msg, version_ids, ignore_missing=False):

2540

"""Copy texts to the target by extracting and adding them one by one.

2541

2542

see join() for the parameter definitions.

2543

"""

2544

version_ids = self._get_source_version_ids(version_ids, ignore_missing)

2545

# --- the below is factorable out with VersionedFile.join, but wait for

2546

# VersionedFiles, it may all be simpler then.

2547

graph = Graph(self.source)

2548

search = graph._make_breadth_first_searcher(version_ids)

2549

transitive_ids = set()

2550

map(transitive_ids.update, list(search))

2551

parent_map = self.source.get_parent_map(transitive_ids)

2552

order = topo_sort(parent_map.items())

2553

2554

def size_of_content(content):

2555

return sum(len(line) for line in content.text())

2556

# Cache at most 10MB of parent texts

2557

parent_cache = lru_cache.LRUSizeCache(max_size=10*1024*1024,

2558

compute_size=size_of_content)

2559

# TODO: jam 20071116 It would be nice to have a streaming interface to

2560

# get multiple texts from a source. The source could be smarter

2561

# about how it handled intermediate stages.

2562

# get_line_list() or make_mpdiffs() seem like a possibility, but

2563

# at the moment they extract all full texts into memory, which

2564

# causes us to store more than our 3x fulltext goal.

2565

# Repository.iter_files_bytes() may be another possibility

2566

to_process = [version for version in order

2567

if version not in self.target]

2568

total = len(to_process)

2569

pb = ui.ui_factory.nested_progress_bar()

2570

try:

2571

for index, version in enumerate(to_process):

2572

pb.update('Converting versioned data', index, total)

2573

sha1, num_bytes, parent_text = self.target.add_lines(version,

2574

self.source.get_parents_with_ghosts(version),

2575

self.source.get_lines(version),

2576

parent_texts=parent_cache)

2577

parent_cache[version] = parent_text

2578

finally:

2579

pb.finished()

2580

return total

2581

2582

def join(self, pb=None, msg=None, version_ids=None, ignore_missing=False):

2583

"""See InterVersionedFile.join."""

2584

# If the source and target are mismatched w.r.t. annotations vs

2585

# plain, the data needs to be converted accordingly

2586

if self.source.factory.annotated == self.target.factory.annotated:

2587

converter = None

2588

elif self.source.factory.annotated:

2589

converter = self._anno_to_plain_converter

2590

else:

2591

# We're converting from a plain to an annotated knit. Copy them

2592

# across by full texts.

2593

return self._copy_texts(pb, msg, version_ids, ignore_missing)

2594

2595

version_ids = self._get_source_version_ids(version_ids, ignore_missing)

2596

if not version_ids:

2597

return 0

2598

2599

pb = ui.ui_factory.nested_progress_bar()

2600

try:

2601

version_ids = list(version_ids)

2602

if None in version_ids:

2603

version_ids.remove(None)

2604

2605

self.source_ancestry = set(self.source.get_ancestry(version_ids,

2606

topo_sorted=False))

2607

this_versions = set(self.target._index.get_versions())

2608

# XXX: For efficiency we should not look at the whole index,

2609

# we only need to consider the referenced revisions - they

2610

# must all be present, or the method must be full-text.

2611

# TODO, RBC 20070919

2612

needed_versions = self.source_ancestry - this_versions

2613

2614

if not needed_versions:

2615

return 0

2616

full_list = topo_sort(

2617

self.source.get_parent_map(self.source.versions()))

2618

2619

version_list = [i for i in full_list if (not self.target.has_version(i)

2620

and i in needed_versions)]

2621

2622

# plan the join:

2623

copy_queue = []

2624

copy_queue_records = []

2625

copy_set = set()

2626

for version_id in version_list:

2627

options = self.source._index.get_options(version_id)

2628

parents = self.source._index.get_parents_with_ghosts(version_id)

2629

# check that its will be a consistent copy:

2630

for parent in parents:

2631

# if source has the parent, we must :

2632

# * already have it or

2633

# * have it scheduled already

2634

# otherwise we don't care

2635

if not (self.target.has_version(parent) or

2636

parent in copy_set or

2637

not self.source.has_version(parent)):

2638

raise AssertionError("problem joining parent %r "

2639

"from %r to %r"

2640

% (parent, self.source, self.target))

2641

index_memo = self.source._index.get_position(version_id)

2642

copy_queue_records.append((version_id, index_memo))

2643

copy_queue.append((version_id, options, parents))

2644

copy_set.add(version_id)

2645

2646

# data suck the join:

2647

count = 0

2648

total = len(version_list)

2649

raw_datum = []

2650

raw_records = []

2651

for (version_id, raw_data), \

2652

(version_id2, options, parents) in \

2653

izip(self.source._data.read_records_iter_raw(copy_queue_records),

2654

copy_queue):

2655

if not (version_id == version_id2):

2656

raise AssertionError('logic error, inconsistent results')

2657

count = count + 1

2658

pb.update("Joining knit", count, total)

2659

if converter:

2660

size, raw_data = converter(raw_data, version_id, options,

2661

parents)

2662

else:

2663

size = len(raw_data)

2664

raw_records.append((version_id, options, parents, size))

2665

raw_datum.append(raw_data)

2666

self.target._add_raw_records(raw_records, ''.join(raw_datum))

2667

return count

2668

finally:

2669

pb.finished()

2670

2671

def _anno_to_plain_converter(self, raw_data, version_id, options,

2672

parents):

2673

"""Convert annotated content to plain content."""

2674

data, digest = self.source._data._parse_record(version_id, raw_data)

2675

if 'fulltext' in options:

2676

content = self.source.factory.parse_fulltext(data, version_id)

2677

lines = self.target.factory.lower_fulltext(content)

2678

else:

2679

delta = self.source.factory.parse_line_delta(data, version_id,

2680

plain=True)

2681

lines = self.target.factory.lower_line_delta(delta)

2682

return self.target._data._record_to_data(version_id, digest, lines)

2683

2684

2685

InterVersionedFile.register_optimiser(InterKnit)

2686

2687

2688

class WeaveToKnit(InterVersionedFile):

2689

"""Optimised code paths for weave to knit operations."""

2690

2691

_matching_file_from_factory = bzrlib.weave.WeaveFile

2692

_matching_file_to_factory = staticmethod(make_file_knit)

2693

2694

@staticmethod

2695

def is_compatible(source, target):

2696

"""Be compatible with weaves to knits."""

2697

try:

2698

return (isinstance(source, bzrlib.weave.Weave) and

2699

isinstance(target, KnitVersionedFile))

2700

except AttributeError:

2701

return False

2702

2703

def join(self, pb=None, msg=None, version_ids=None, ignore_missing=False):

2704

"""See InterVersionedFile.join."""

2705

version_ids = self._get_source_version_ids(version_ids, ignore_missing)

2706

2707

if not version_ids:

2708

return 0

2709

2710

pb = ui.ui_factory.nested_progress_bar()

2711

try:

2712

version_ids = list(version_ids)

2713

2714

self.source_ancestry = set(self.source.get_ancestry(version_ids))

2715

this_versions = set(self.target._index.get_versions())

2716

needed_versions = self.source_ancestry - this_versions

2717

2718

if not needed_versions:

2719

return 0

2720

full_list = topo_sort(

2721

self.source.get_parent_map(self.source.versions()))

2722

2723

version_list = [i for i in full_list if (not self.target.has_version(i)

2724

and i in needed_versions)]

2725

2726

# do the join:

2727

count = 0

2728

total = len(version_list)

2729

parent_map = self.source.get_parent_map(version_list)

2730

for version_id in version_list:

2731

pb.update("Converting to knit", count, total)

2732

parents = parent_map[version_id]

2733

# check that its will be a consistent copy:

2734

for parent in parents:

2735

# if source has the parent, we must already have it

2736

if not self.target.has_version(parent):

2737

raise AssertionError("%r does not have parent %r"

2738

% (self.target, parent))

2739

self.target.add_lines(

2740

version_id, parents, self.source.get_lines(version_id))

2741

count = count + 1

2742

return count

2743

finally:

2744

pb.finished()

2745

2746

2747

InterVersionedFile.register_optimiser(WeaveToKnit)

2417

2748

2418

2749

2419

2750

# Deprecated, use PatienceSequenceMatcher instead

2526

2857

self._check_parents(child, nodes_to_annotate)

2527

2858

return nodes_to_annotate

2528

2859

2529

def _get_build_graph(self, key):

2860

def _get_build_graph(self, revision_id):

2530

2861

"""Get the graphs for building texts and annotations.

2531

2862

2532

2863

The data you need for creating a full text may be different than the

2534

2865

parents to create an annotation, but only need 1 parent to generate the

2535

2866

fulltext.)

2536

2867

2537

:return: A list of (key, index_memo) records, suitable for

2868

:return: A list of (revision_id, index_memo) records, suitable for

2538

2869

passing to read_records_iter to start reading in the raw data fro/

2539

2870

the pack file.

2540

2871

"""

2541

if key in self._annotated_lines:

2872

if revision_id in self._annotated_lines:

2542

2873

# Nothing to do

2543

2874

return []

2544

pending = set([key])

2875

pending = set([revision_id])

2545

2876

records = []

2546

2877

generation = 0

2547

2878

kept_generation = 0

2553

2884

self._all_build_details.update(build_details)

2554

2885

# new_nodes = self._knit._index._get_entries(this_iteration)

2555

2886

pending = set()

2556

for key, details in build_details.iteritems():

2887

for rev_id, details in build_details.iteritems():

2557

2888

(index_memo, compression_parent, parents,

2558

2889

record_details) = details

2559

self._revision_id_graph[key] = parents

2560

records.append((key, index_memo))

2890

self._revision_id_graph[rev_id] = parents

2891

records.append((rev_id, index_memo))

2561

2892

# Do we actually need to check _annotated_lines?

2562

2893

pending.update(p for p in parents

2563

2894

if p not in self._all_build_details)

2564

2895

if compression_parent:

2565

2896

self._compression_children.setdefault(compression_parent,

2566

[]).append(key)

2897

[]).append(rev_id)

2567

2898

if parents:

2568

2899

for parent in parents:

2569

2900

self._annotate_children.setdefault(parent,

2570

[]).append(key)

2901

[]).append(rev_id)

2571

2902

num_gens = generation - kept_generation

2572

2903

if ((num_gens >= self._generations_until_keep)

2573

2904

and len(parents) > 1):

2574

2905

kept_generation = generation

2575

self._nodes_to_keep_annotations.add(key)

2906

self._nodes_to_keep_annotations.add(rev_id)

2576

2907

2577

2908

missing_versions = this_iteration.difference(build_details.keys())

2578

2909

self._ghosts.update(missing_versions)

2604

2935

# still need parents, cleaning them up when those parents are

2605

2936

# processed.

2606

2937

for (rev_id, record,

2607

digest) in self._knit._read_records_iter(records):

2938

digest) in self._knit._data.read_records_iter(records):

2608

2939

if rev_id in self._annotated_lines:

2609

2940

continue

2610

2941

parent_ids = self._revision_id_graph[rev_id]

2619

2950

if len(parent_ids) == 0:

2620

2951

# There are no parents for this node, so just add it

2621

2952

# TODO: This probably needs to be decoupled

2622

fulltext_content, delta = self._knit._factory.parse_record(

2953

fulltext_content, delta = self._knit.factory.parse_record(

2623

2954

rev_id, record, record_details, None)

2624

2955

fulltext = self._add_fulltext_content(rev_id, fulltext_content)

2625

2956

nodes_to_annotate.extend(self._add_annotation(rev_id, fulltext,

2653

2984

parent_fulltext_content = self._fulltext_contents[compression_parent]

2654

2985

parent_fulltext = parent_fulltext_content.text()

2655

2986

comp_children.remove(rev_id)

2656

fulltext_content, delta = self._knit._factory.parse_record(

2987

fulltext_content, delta = self._knit.factory.parse_record(

2657

2988

rev_id, record, record_details,

2658

2989

parent_fulltext_content,

2659

2990

copy_base_content=(not reuse_content))

2662

2993

blocks = KnitContent.get_line_delta_blocks(delta,

2663

2994

parent_fulltext, fulltext)

2664

2995

else:

2665

fulltext_content = self._knit._factory.parse_fulltext(

2996

fulltext_content = self._knit.factory.parse_fulltext(

2666

2997

record, rev_id)

2667

2998

fulltext = self._add_fulltext_content(rev_id,

2668

2999

fulltext_content)

2682

3013

self._heads_provider = head_cache

2683

3014

return head_cache

2684

3015

2685

def annotate(self, key):

2686

"""Return the annotated fulltext at the given key.

3016

def annotate(self, revision_id):

3017

"""Return the annotated fulltext at the given revision.

2687

3018

2688

:param key: The key to annotate.

3019

:param revision_id: The revision id for this file

2689

3020

"""

2690

if True or len(self._knit._fallback_vfs) > 0:

2691

# stacked knits can't use the fast path at present.

2692

return self._simple_annotate(key)

2693

records = self._get_build_graph(key)

2694

if key in self._ghosts:

2695

raise errors.RevisionNotPresent(key, self._knit)

3021

records = self._get_build_graph(revision_id)

3022

if revision_id in self._ghosts:

3023

raise errors.RevisionNotPresent(revision_id, self._knit)

2696

3024

self._annotate_records(records)

2697

return self._annotated_lines[key]

2698

2699

def _simple_annotate(self, key):

2700

"""Return annotated fulltext, rediffing from the full texts.

2701

2702

This is slow but makes no assumptions about the repository

2703

being able to produce line deltas.

2704

"""

2705

# TODO: this code generates a parent maps of present ancestors; it

2706

# could be split out into a separate method, and probably should use

2707

# iter_ancestry instead. -- mbp and robertc 20080704

2708

graph = _mod_graph.Graph(self._knit)

2709

head_cache = _mod_graph.FrozenHeadsCache(graph)

2710

search = graph._make_breadth_first_searcher([key])

2711

keys = set()

2712

while True:

2713

try:

2714

present, ghosts = search.next_with_ghosts()

2715

except StopIteration:

2716

break

2717

keys.update(present)

2718

parent_map = self._knit.get_parent_map(keys)

2719

parent_cache = {}

2720

reannotate = annotate.reannotate

2721

for record in self._knit.get_record_stream(keys, 'topological', True):

2722

key = record.key

2723

fulltext = split_lines(record.get_bytes_as('fulltext'))

2724

parents = parent_map[key]

2725

if parents is not None:

2726

parent_lines = [parent_cache[parent] for parent in parent_map[key]]

2727

else:

2728

parent_lines = []

2729

parent_cache[key] = list(

2730

reannotate(parent_lines, fulltext, key, None, head_cache))

2731

try:

2732

return parent_cache[key]

2733

except KeyError, e:

2734

raise errors.RevisionNotPresent(key, self._knit)

3025

return self._annotated_lines[revision_id]

2735

3026

2736

3027

2737

3028

try:

Older »